כל אתר ברשת האינטרנט העולמית נסרק על ידי מנוע החיפוש גוגל ומנועי חיפוש רבים נוספים, אבל הדבר הראשון שכל "עכביש" (spider crawlers) מחפש באתר הוא עמוד בעל הכתובת הבאה:
www.example.co.il/robots.txt
ישנם מספר מקרים בהם נרצה להשתמש בעמוד ה"רובוטס" שלנו:
השימוש ברובוט הוא די פשוט:
*הקובץ חייב להופיע בנתיב הבא בלבד: www.example.com/robots.txt ולא תחת תיקיה.
ישנם מספר גדול מאד של רובוטים סורקים ברחבי רשת האינטרנט (crawlers, spiders). הנה מספר דוגמאות לרובוטים המוכרים יותר:
Googlebot - גוגל - חיפוש אינטרנט רגיל
Googlebot-News - גוגל חדשות
googlebot-image - תמונות גוגל
Googlebot-Mobile - גוגל מובייל
Bingbot - הרובוט החיפוש בינג
Yahoo! Slurp - הרובוט של יאהו
YandexBot/3.0 - הרובוט של מנוע החיפוש הרוסי יאנדקס
YandexImages/3.0 - יאנדקס תמונות
לרשימה מלאה של כל סוגי הרובוטים של גוגל
ההנחיות לאישור או מניעת כניסה של מנועי החיפוש לעמודים באתר היא פשוטה מאד.
שורת פתיחה לקובץ robots.txt (כוכבית מתייחסת לכל הרובוטים):
ללא חסימה
מניעת אינדוקס של כל האתר לכל הרובוטים:
שורות קוד אלו מונעות ממנועי החיפוש להיכנס לכל עמודי האתר.
מניעת אינדוקס של עמודים ספציפיים באתר לכל הרובוטים:
בשורות קוד אלו מנענו ממנועי החיפוש לסרוק את עמוד צור קשר והחיפוש.
מניעת אינדוקס לתיקיות ספציפיות:
בשורות קוד אלו מנענו ממנועי החיפוש לסרוק את תיקיית הקבצים והתמונות שלנו.
מניעת אינדוקס של כל האתר בפני גוגל ויאנדקס:
כאן מנענו רק ממנועי החיפוש של גוגל וינדקס מלסרוק את האתר.
הפניית מנועי החיפוש למפת האתר שלנו:
שורות אלו מפנות את מנועי החיפוש לסריקת מפת האתר שלנו ובכך אנו מזרזים אינדוקס אתר חדש או עמודים חדשים שהתווספו לאתרנו.
מומלץ כי יהיה קובץ "רובוטס", אפילו אם לא רוצים לחסום שום דף באתר כיוון שמנועי החיפוש מחפשים עמוד זה כל פעם שהם ניגשים לסרוק אתר. כאשר אינם מוצאים את העמוד הם מחזירים שגיאה, אותה ניתן לראות בכלים שונים של ניהול אתרים כמו webmaster tools של גוגל או בינג.
כדאי לוודא כי עמוד ה robots.txt כתוב בצורה תקינה ונמצא במיקום הנכון מבחינה היררכית של קבצי האתר (חייב להופיע בתיקייה הראשית), כיוון שאם מנועי החיפוש יחפשו את העמוד ולא יצליחו לקרוא אותו זה עלול להשפיע על סריקת האתר והנראות שלו במנועי החיפוש. ניתן לוודא שהקובץ תקין בפעולה פשוטה - פשוט תגלשו לכתובת של העמוד.
אז למה אתם עדיין פה? בדקו את קובץ ה robots.txt שלכם, או שתיצרו עמנו קשר ואנחנו נעשה זאת בשבילכם!