ديوان · شرح تقني

كيف يعمل ديوان

ملاحظات هندسية موجزة عن بنية البحث في ديوان، مع قياس الجودة على مرجع أكاديمي منشور.

01المدوّنة في سطور

يضمّ ديوان ٦٫٥٧ مليون بيت عربي: ٦٫٤٤ مليون بيت فصيح من مجموعة ashaar المفتوحة، و١٢٥ ألف بيت نبطي من مجموعة tarab. مرّت الأبيات بخطوات تنظيف وإزالة تكرار قبل إدخالها في الفهرس، وتغطي اثني عشر عصرًا أدبيًا من ما قبل الإسلام إلى الحديث.

02بحث بالمعنى، لا بالحرف

البحث التقليدي يطابق الحروف والكلمات. ديوان يفهم المعنى. حين تبحث عن «الحنين إلى الديار»، يجد أبياتًا تعبّر عن هذا الشعور حتى لو لم ترد فيها كلمة «حنين» ولا «دار».

03من البيت إلى المتجه

كل بيت يُحوَّل إلى متجه رقمي من ٣٨٤ بُعدًا يلخّص معناه، باستخدام نموذج Arabic-Triplet-Matryoshka-V2 المدرَّب بأسلوب الثلاثيات على نصوص عربية واسعة. الأبيات المتقاربة في المعنى تنتهي متجاورة في هذا الفضاء الرقمي. الناتج الأصلي للنموذج ٧٦٨ بُعدًا، واقتطعنا أوّل ٣٨٤ بُعدًا موازنةً بين الذاكرة وسرعة البحث، وقِسنا جودة هذا الاقتطاع تجريبيًا على مرجع Fann-or-Flop لا افتراضًا من مستويات Matryoshka المُعلنة.

04بحث في الملايين خلال بضع ثوانٍ

للبحث في ٦٫٥٧ مليون بيت في بضع ثوانٍ، يعتمد ديوان على فهرس HNSW للجوار التقريبي. بدلًا من فحص كل بيت، يصل الفهرس إلى أقرب المرشحين معنىً بسرعة، على خادم واحد.

05مجموعتان متوازيتان: فصيح ونبطي

الفصيح والنبطي مفصولان في فهرسين مستقلّين. المفردات والأغراض والأوزان تختلف بينهما، ومعاملتهما بشكل منفصل أدقّ من دمجهما، والبحث في أيٍّ منهما لا يلوّث نتائج الآخر.

06كيف نعرف أن البحث يعمل: مرجع Fann-or-Flop

البحث الكلمي التقليدي يفشل في هذه المهمة تمامًا — لا يمكنك الوصول إلى الشاعر الصحيح من شرح نثري يكاد لا يشترك في كلماته مع البيت ذاته. ولهذا اخترناها. قِسنا جودة ديوان ضدّ مرجع أكاديمي مُحكَّم (Fann-or-Flop، مؤتمر EMNLP 2025) يتضمّن ٥٣٬٠٤٧ شرحًا علميًا مقرونًا بالأبيات التي يصفها. المهمة: من شرح نثري، استرجاع الشاعر الصحيح من بين آلاف. يتفوّق ديوان على الاحتمال العشوائي بنحو ٢٢ ضعفًا، إذ يضع الشاعر الصحيح ضمن أفضل عشر نتائج في ٣٫١٣٪ من الاستعلامات (مقابل خط أساس عشوائي نحو ٠٫١٤٪). على حدّ علمنا، هذه أوّل مرة يُقاس فيها محرّك بحث شعري عربي ضد مرجع أكاديمي منشور.

07ملاحظات هندسية: ما جرّبناه ورفضناه

اختبرنا النموذج السعودي SILMA (silma-ai/silma-embedding-matryoshka-v0.1) على المرجع نفسه. تراجعت الجودة عبر كل العصور (من ٣٫١٣٪ إلى ١٫٠٣٪ في أفضل عشر نتائج)، فأعَدْنا الإنتاج إلى النموذج الأصلي. اختيار النموذج في ديوان يقوم على القياس، لا على الروايات.

08إعادة ترتيب تراعي العصور وسقف للتنويع

يميل الشعراء المعاصرون إلى تسمية موضوع الاستعلام صراحةً، فيُزاحمون الكلاسيكيين الذين جسّدوا المعنى دون أن يسمّوه. يُعيد ديوان ترتيبًا خفيفًا ليمنح العصور الأقدم (الجاهلي، الأموي، العباسي، الأندلسي…) حضورًا عادلًا، ويضع سقفًا ليّنًا على عدد النتائج من نفس العصر ضمن المراتب الأولى. التعديل لا يرفع نتيجة غير ذات صلة — إنما يرجّح الأقدم والأكثر تنوّعًا عند التقارب.

09بيانات مفتوحة، خدمة ذاتية الاستضافة

كل بيانات الشعر مصادر مفتوحة ومنشورة للعموم (مذكورة في تذييل الموقع). البنية التحتية كاملةً على خادم واحد مستقل، دون اعتماد على أي واجهة برمجية خارجية. النصوص، والفهارس، والنموذج، ومنطق البحث — جميعها محليّة وقابلة للتدقيق. يمتدّ المشروع على نحو ١٠٬٦٠٠ سطر برمجي: ٣٬٩٢٢ سطرًا للواجهة، ٨٧٩ للخادم، و٥٬٨٢٧ لخطوط التنظيف والتدريب والفهرسة.

10واجهة برمجية قريبًا

نعمل على إتاحة واجهة برمجية (API) للباحثين والجامعات والمؤسسات الثقافية للوصول إلى بحث ديوان الدلالي برمجيًا — للأعمال الأكاديمية، والأدوات التعليمية، والتطبيقات اللاحقة. نرحّب بطلبات الوصول المبكر.