بعد شرح لغة xml ولغة rss
سوف نقوم بعمل شرح لطريقة عمل ملف الروبوتس وشرح عنه وطرق استخدامه
ماهو ملف robots.txt
بداية هو ملف لأعطاء المعلومات حول الموقع ويسمى Robots Exclusion Protocol
اي بروتوكول استبعاد الروبوتات
كيف يكون عمل هذا الملف
يعمل على هذا النحو. اذا كنت تريد من روبوت محرك البحث ان يزور صفحة
www.google.com/welcome.html
فلذلك قبل ان تتم زيارة هذه الصفحة يقوم الروبوت بزيارة الصفحة الرئيسية اقصد التي يوجد بها ملف الروبوتس
www.google.com/robots.txt
ثم بعد ذلك ينتقل إلى ما تبقى
CODE
User-agent: *
Disallow: /
user agent : تعني وكيل المستخدم وبشكل اوضح ان يدل على جميع اقسام المنتدى بزيارة الروبوتسDisallow: تعني المنع اي على ملف الروبوتس عدم زيارة اي صفحة تنتهي ب ( / )
هناك نوعان من الاعتبارات التي يجب ان نفهمها عند استخدام الملف
1- يستطيع روبوتات محركات البحث تجاهل ملف robots.txt الخاص بك
ويحدث ذلك عن وجود برامج ضارة او بحث غير امن على الموقع او عند وجود عنوان بريد الكتروني يسبب السبام او spammers سيفقد الملف الخاص بك الاهتمام .
2-ملف robots.txt هو ملف عام لكل الزائرين وليس فقط لمحركات البحث حيث يستطيع الجميع مشاهدة ما انت تفعله ومارتيد منعه وإلى ذلك
فلا تحاول استخدام robots.txt لأخفاء المعلومات لأنك سوف تفقد اهمية الملف ايضا"
الآن نأتي لمعلومات ملف robots.txt
ملف ال robots.txt هو ملف قياسي للمواقع ولا يمكن ان يكون برمجي ومصمم وله نوعان من التصنيف التاريخي :
النسخة الاولى منه كانت تسمى الستاندر في سنة 1994
طرح في عام 1997 مشروع مواصفات الانترنت وتم تحديث الملف ليصبح على ماهو عليه الأن
كيف انشئ ملف robots.txt
هناك نوعان منالاجوبة الجواب القصير يمكن انشاء الملف على حسب ما يحتويه موقعك
الجواب الطويل عندما تبحث محركات البحث عن رابط لموقعك في ملفات robots.txt
فانك سوف تضع ملفات لك ولكن بشرط ان تعطي علامة slash اي ( / ) ماقبل اسم الملف
لبدء البحث في الملف الخاص بك ولن يتم ذلك بدون هذه العلامة
مثال عن ما قلته
www.google.com/shop/index.html
سوف يتم حذف /shop/index.html
وسوف نقوم باستبدالها في ملف الربوتس عن طريق /robots.txt
وبهذه الحالة سوف يتم الانتقال من الصفحة إلى ملف robots.txt بشكل تلقائي وتقوم محركات البحث بعملها
ملاحظة عند كتابة الملف يكتب
robots.txt
وليس
ROBOTS.TXT
ماذا اضع في ملف robots.txt
هذا الملف هو مستند نص وفي اغلب الاحيان يمكن وضع اكثر من سطر به ولا يهم عدد السطور بقدر الاهتمام بماذا تريد المنع
CODE
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
في المثال الذي فوق لدينا ثلاث ملفات مستبعدة من محركات البحث وهم
cgi-bin +tmp +~joe
يجب عليك ان تضع كل ملف ممنوع من محركات البحث في سطر بحيث ان يكونوا متتاليين ولا يهم ترتيبهم
المهم ان يكونوا اسفل بعض
يجب عليك ان تستبعد بعد اضافة وكيل المستتخدم User-agent * ان تضع بعده ( بالانكليزية كلمة منع او رفض أو إلى ما هنالك لأن ذلك يعطل عمر الملف )
بعض الامثلة
استبعاد جميع محركات البحث من الخادم الاساسي للموقع
CODE
User-agent: *
Disallow: /
السماح لجميع الروبوتات في الوصول بصورة كاملةCODE
User-agent: *
Disallow:
بامكانك ايضا" وضع الملف فارع او عدم وضع ملف بشكل نهائياستبعاد جميع محركات البحث لملفات انت تختاراها
CODE
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
استبعاد احد محركات البحث CODE
User-agent: BadBot
Disallow: /
badbot استبدله على حسب ما تريد google/yahoo/msm/askالسماح لأحد محركات البحث
CODE
User-agent: Google
Disallow:
User-agent: *
Disallow: /
مثل ما ذكرت سابقا" يمكن وضع اي محرك بحث تريد السماح له بالارشفة او تفقد الصفحاتاستبعاد كافة الملفات ما عدا واحدة
CODE
User-agent: *
Disallow: /~joe/stuff/
لاتنسى وضع ( / ) في اخر الملف الذي تريد السماح بارشفته
منع جميع الصفحات ذات امتداد
CODE
User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html
جعل محركات البحث تنتظر وقت الانتقال من ملف إلى أخر
CODE
User-agent: *
Crawl-delay: 10
تستطيع وضع اي رقم تريد ولكن يفضل وضع 10خريطة الموقع
بعض محركات البحث تسمح بالزحف إلى خريطة الموقع عن طريق الملف ولذلك بالامكان وضع اكثر من خريطة ولكن اسفل بعضها
sitemap: http://ww.name.com/sitemap.xml
sitemap: http://www.name.com/sitemap1.xml