Author: Khairy, Esraa El-Mohdy Mohammed./ Title: A System based on web Mining techniques to block Spam Web sites /

Search In this Thesis

العنوان

A System based on web Mining techniques to block Spam Web sites /

المؤلف

Khairy, Esraa El-Mohdy Mohammed.

هيئة الاعداد

باحث / إسراء المهدى محمد خيري المهدى

مشرف / أمانى فوزى الجمل

مشرف / حنان الرفاعي عبدالقادر

مناقش / محى الدين اسماعيل

مناقش / محمد شريف القصاص

الموضوع

Data mining. Java (Computer program language)

تاريخ النشر

2019.

عدد الصفحات

119 p. :

اللغة

الإنجليزية

الدرجة

ماجستير

التخصص

Computer Science (miscellaneous)

تاريخ الإجازة

1/1/2019

مكان الإجازة

جامعة المنصورة - كلية التربية النوعية - Computer Teacher Preparation

الفهرس

Only 14 pages are availabe for public view

from

119

from

119

Abstract

الويب يمثل واحد من أكبر مصادر المعلومات في العالم. حيث يمكن القول، أنّ أي موضوع نفكر به أصبح على الارجح موجودا على صفحة ما في الويب. المعلومات على شبكة الإنترنت تأتي على أشكال وأنواع مختلفة مثل الوثائق النصية والصور ومقاطع الفيديو. و بالرغم من ذلك، استخراج معلومات ذات فائدة، من دون مساعدة بعض أدوات الويب، ليست عملية هيّنة. هنا يأتي دور تنقيب الويب، حيث يوفر الأدوات التي تساعدنا على استخراج المعرفة المفيدة من بيانات الويب فيما يعرف بالتنقيب فى الويب. ويعتبر التنقيب فى محتوى الويب هو استخدام محتويات صفحات الويب لاستخراج المعلومات المفيدة, وتصنيف وتجميع صفحات الويب وفقا لمواضيعهم. وتواجه المجتمعات المصرية والعربية تحديات متعددة من الداخل والخارج ، وتشكل هذه التحديات تهديدًا خطيرًا وفوريًا للهوية الثقافية والدينية للمجتمع، ومع تزايد التطور والاستخدام المكثف للإنترنت في جميع مجالات الحياة، وسهولة الاستخدام، أدى انتشار الإنترنت إلى اتجاه العديد من مستخدمي الإنترنت للبحث عن تلك الصفحات التى تتضمن محتوى غير أخلاقي مما أدى إلى ظهور مشكلات مختلفة تواجه الشباب والفتيات. تهدف هذه الدراسة إلى تقديم نظام قائم على تقنيات التنقيب فى الويب لحجب المواقع غير المرغوبة، اعتمد النظام على تحليل المحتوي واستخدام تقنيات التنقيب فى النصوص. تم تطوير النظام المقترح على عدة مراحل: المرحلة الأولى: تحديد الفئات غير المرغوبه (الاباحية – الارهاب والعنف). المرحلة الثانية: تم تجميع الكلمات الداله علي هيئة الفئات غير المرغوبه واستخدام تلك الكلمات في تجميع المواقع الخاصة لكل فئه عن طريق محركات البحث المختلفه ثم بناء قاعدة بيانات تضم جدول خاص بالكلمات وجدول خاص بالمواقع. المرحلة الثالثة: مرحلة التكويد والتي تم الربط فيها بين السمات ( عنوان الموقع – عدد الكلمات فى العنوان – الكلمات الشائعة فى البحث –N-Gram (الكلمات الأحادية – الكلمات الثنائية)، لتحديد اذا كان الموقع مرغوب أم غير مرغوب، وبين السمات وقاعدة البيانات التي تم بناءها ببرنامج SQL. المرحلة الأخيرة: مرحلة التطبيق والتي تم التطبيق فيها على 150 موقع، وأكدت النتائج ان النظام المقترح يعمل بكفاءة ودقه تصل إلي 87 %.