الفهرس | Only 14 pages are availabe for public view |
Abstract الويب يمثل واحد من أكبر مصادر المعلومات في العالم. حيث يمكن القول، أنّ أي موضوع نفكر به أصبح على الارجح موجودا على صفحة ما في الويب. المعلومات على شبكة الإنترنت تأتي على أشكال وأنواع مختلفة مثل الوثائق النصية والصور ومقاطع الفيديو. و بالرغم من ذلك، استخراج معلومات ذات فائدة، من دون مساعدة بعض أدوات الويب، ليست عملية هيّنة. هنا يأتي دور تنقيب الويب، حيث يوفر الأدوات التي تساعدنا على استخراج المعرفة المفيدة من بيانات الويب فيما يعرف بالتنقيب فى الويب. ويعتبر التنقيب فى محتوى الويب هو استخدام محتويات صفحات الويب لاستخراج المعلومات المفيدة, وتصنيف وتجميع صفحات الويب وفقا لمواضيعهم. وتواجه المجتمعات المصرية والعربية تحديات متعددة من الداخل والخارج ، وتشكل هذه التحديات تهديدًا خطيرًا وفوريًا للهوية الثقافية والدينية للمجتمع، ومع تزايد التطور والاستخدام المكثف للإنترنت في جميع مجالات الحياة، وسهولة الاستخدام، أدى انتشار الإنترنت إلى اتجاه العديد من مستخدمي الإنترنت للبحث عن تلك الصفحات التى تتضمن محتوى غير أخلاقي مما أدى إلى ظهور مشكلات مختلفة تواجه الشباب والفتيات. تهدف هذه الدراسة إلى تقديم نظام قائم على تقنيات التنقيب فى الويب لحجب المواقع غير المرغوبة، اعتمد النظام على تحليل المحتوي واستخدام تقنيات التنقيب فى النصوص. تم تطوير النظام المقترح على عدة مراحل: المرحلة الأولى: تحديد الفئات غير المرغوبه (الاباحية – الارهاب والعنف). المرحلة الثانية: تم تجميع الكلمات الداله علي هيئة الفئات غير المرغوبه واستخدام تلك الكلمات في تجميع المواقع الخاصة لكل فئه عن طريق محركات البحث المختلفه ثم بناء قاعدة بيانات تضم جدول خاص بالكلمات وجدول خاص بالمواقع. المرحلة الثالثة: مرحلة التكويد والتي تم الربط فيها بين السمات ( عنوان الموقع – عدد الكلمات فى العنوان – الكلمات الشائعة فى البحث –N-Gram (الكلمات الأحادية – الكلمات الثنائية)، لتحديد اذا كان الموقع مرغوب أم غير مرغوب، وبين السمات وقاعدة البيانات التي تم بناءها ببرنامج SQL. المرحلة الأخيرة: مرحلة التطبيق والتي تم التطبيق فيها على 150 موقع، وأكدت النتائج ان النظام المقترح يعمل بكفاءة ودقه تصل إلي 87 %. |