[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: A (too huge) Arabic word-list (with prefixes) for spell-checkers



Asalamu alaikum

On Tuesday 16 May 2006 12:26, Mohammed Sameer wrote:

> Something we didn't notice before we didn't have a working spell checker implementation.
> The data set contains words from the Holy Quran, The words in the Holy Quran are sometimes
> spelled in a different way due to the script used to write the Quran.
> 
> Those words are incorrect outside the Quran context.

It depends on the Quran datasource used. There are around 3 to 4 Quran text files
that could be found on the Internet. One of them adheres to a standard known as 
arrasm al-imlaa-ee (Dictation/Dictative muS-Haff). This electronic muS-Haff
does not have the problems you mention. Just like there is arrasm al'uthmaani
(for recitation), there's also other accepted standards like arrasm al-imlaa-ee
which is used for purposes other than tajweed (i.e., manipulating the text in
any way, simple reference, and so on). The source I'll point you to is the best
(it's light, accurate, and I'm happy with it).

This electronic muS-Haff is borrowed from Harf Technologies (with many thanks). You
can get it from here:

http://www.quraat.com/Quran_emlaei.htm

(Also see the main page for books and informative articles)

It is worth highlighting that the web site belongs to one of the most formidable Quran
scholars (A master in qiraa-aat).

Note: At the end of the file (the Quran) there is a disclaimer from the generous person
(Abu Ibraheem) who prepared it:

مقدمة عن هذا الملف
بِسْمِ اللهِ الرَّحْمنِ الرَّحِيمِِِ
الحمدُ للهِ ، والصَّلاةُ والسَّلامُ علَى رَسُولِ الله ، وعلَى آلِهِ وصَحبهِ وَمَن وَالاه. وبعد :
فقد جمعت هذا المصحف عن طريق النسخ واللصق من برنامج القرآن الكريم لشركة حرف الإصدار
7.01 ؛ حيث إن البرنامج المذكور فيه خاصية نقل النص صفحة بصفحة بالرسم الإملائي العادي الحديث.
أما سبب جمعي لهذا المصحف ؛ فلأنه قد انتشر على الشبكة العالمية الأنترنت بعض المصاحف وفيها
أخطاء مثل: نقص فتحة أو كسرة أو كتابة الهمزة بصورة خاطئة ، مثل كتابة كلمة : (الإِنْسَان) هكذا: (الأِنْسَان)، فجاء هذا
المصحف ولله الحمد ليس فيه أخطاء - إن شاء الله - ومن وجد ملاحظة فلينبه إليها مشكوراً.
وهذا المصحف مضبوط على ما يوافق رواية حفص عن عاصم.، وبعد أن نسخت كامل المصحف راعيت في مراجعته القواعد الإملائية
الحديثة؛ لتيسير البحث في هذا المصحف باستعمال هجاء واحد للكلمة ثم البحث عنها في عدة مستندات، ومن هذه الأمور التي راعيتها: 
غيّرت بعض الهمزات لتوافق الرسم الإملائي العادي ، مثلا : غيرت همزة: ءأنذرتهم ، فحولتها إلى : أأنذرتهم. وغيّرت : ءامن ، إلى : آمن ،
وكذلك : قرءان ، إلى : قرآن؛ وهذا ليسهل البحث في المستند.

وكذلك رموز أحكام التجويد ليس لها حظ في هذا المصحف لأنه بالرسم الإملائي العادي ووضع لأغراض البحث بالحرف ،
والشكل ، وبعض الكلمة ، وغير ذلك.

مثال للبحث : إذا سألنا سائل فقال : هو يوجد في القرآن حرف الغين مشدداً؟ فما علينا إلا أن نضع في محرك البحث
حرف (غّ) وعليه شدة ثم نضغط زر البحث ونرى النتائج ، والنتيجة هي : لا يوجد حرف الغين مشدداً في القرآن الكريم.
أما من أراد مصحفاً بالرسم العثماني ليستعمله في برنامج وورد للكتابة فهو موجود لدي شركة حرف وشركة الدوالج ، وعندي
نسخة كاملة منهما مكتوبة في هيئة برنامج وورد لمن أرد.

صلى الله على سيدنا محمد وعلى آله وصحبه والحمد لله رب العالمين.‏
 أبو إبراهيم 13/6/1423هـ

Salam,
Abdalla Alothman