الفهرس | Only 14 pages are availabe for public view |
Abstract نظرًا لتوفر عدد كبير من المستندات النصية الإلكترونية من مجموعة متنوعة من المصادر التي تمثل معلومات غير منظمة وشبه منظمة ، تصبح مهمة تصنيف المستندات مجالًا مثيرًا للاهتمام للتحكم في سلوك البيانات. تقدم هذه الرساله تصنيفًا متعدد الوسائط لتصنيف المستندات النصية شبه المهيكلة وغير المهيكلة. تنفذ الوسائط المتعددة العديد من نماذج التعلم العميق الفردية مثل الشبكات العصبية العميقة (DNN) والشبكات العصبية المتكررة (RCNN) و ثنائي الاتجاه LSTM) -(Bi-LSTM. تُستخدم تقنية Stacked Ensemble لدمج نتائج المصنفات الفردية لتحقيق نتائج أفضل ، مقارنة بتلك التي تم التوصل إليها بواسطة أي من النماذج المذكورة أعلاه بشكل فردي. يتم تنفيذ سلسلة من خطوات المعالجة المسبقة النصية لتطبيع مجموعة المدخلات متبوعة بتقنيات تحويل النص. تتضمن هذه التقنيات استخدام (TFIDF) أو (CBOW) لتحويل البيانات النصية إلى الصيغة الرقمية المناسبة التي يمكن معالجتها بواسطة نماذج التعلم العميق. علاوة على ذلك ، يتم التحقق من صحة هذا النموذج المقترح باستخدام مجموعة بيانات تم جمعها من عدة مساحات مع عدد كبير من المستندات في كل فصل. بالإضافة إلى ذلك ، أثبتت النتائج التجريبية أن النموذج المقترح قد حقق أداءً فعالاً. علاوة على ذلك ، عند التحقق من تصنيف مستندات PDF ، حقق النموذج المقترح دقة تصل إلى 0.9045 و 0.959 لميزات TFIDF و CBOW ، على التوالي. علاوة على ذلك ، فيما يتعلق بتصنيف مستندات JSON ، حقق النموذج المقترح دقة تصل إلى 0.914 و 0.956 لميزات TFIDF و CBOW ، على التوالي. علاوة على ذلك ، بالنسبة لتصنيف مستندات XML ، حقق النموذج المقترح قيم دقة تصل إلى 0.92 و 0.959 لميزات TFIDF و CBOW ، على التوالي. |