بنموذج U-Net معدل.. مشروع بحثي بجامعة تونتك يعزز مستقبل معالجة اللغة العربية وتحليل بنية المستندات رقمياً

iutt-arabic-document-layout-analysis-ai-project

استمراراً لمناقشات مشاريع التخرج لبرنامج الذكاء الاصطناعي وعلم البيانات للعام الأكاديمي 2025–2026م، استعرضت جامعة تونتك الدولية للتكنولوجيا مشروعاً بحثياً متميزاً بعنوان:
Arabic Document Layout Analysis Across Hierarchical Levels: Paragraphs, Lines, and Words using a Modified U-Net

يهدف المشروع إلى تطوير نظام ذكي لتجزئة المستندات العربية على مستويات (الفقرات، الأسطر، والكلمات)، بما يسهم في رفع كفاءة أنظمة التعرف الضوئي على الحروف (OCR). وعمل الفريق على بناء نموذج U-Net معدل، مع دمج دالة خسارة هجينة (Dice Loss & Binary Cross-Entropy) لمعالجة التحديات المرتبطة بترابط الحروف وتداخل البنى النصية في اللغة العربية.

وقد حقق النموذج نتائج قوية في مقياس IoU بلغت 0.896 للأسطر و0.900 للكلمات، متفوقاً على العديد من النتائج السابقة. كما تضمن المشروع مساهمة علمية أصلية عبر تدوين مجموعة بيانات جديدة للكلمات تضم 7,881 صورة، مما يمهد لتطوير حلول تقنية أكثر قوة في مجال المعالجة الرقمية للمستندات.

أعضاء المشروع: هشام الذبحاني، القسام السعيدي، علي الشهاري، أنس الأغبري، نوار العزعزي.
إشراف: د. أمين شايع، أ. محمد القماسي.

لجنة المناقشة الداخلية: د. حمزة جامل، د. أيمن الصبري، أ.د. فضل باعلوي.
لجنة المناقشة الخارجية: أ.د. أحمد سلطان الهجامي، أ.م.د. مالك الجبري.

671273027_18076107410638811_1732070644033949108_n (1)
671192975_18076107470638811_1507906469032899061_n
672985732_18076107419638811_5972365759465670238_n
671191107_18076107431638811_7045770287054267616_n
672398372_18076107479638811_8155933507392677660_n
670798384_18076107533638811_3196081621129638681_n
672357377_18076107491638811_5111149981302734859_n
672349333_18076107512638811_2895501597179672765_n
670883334_18076107566638811_1760238679605844560_n
671166391_18076107500638811_3555746472850467410_n