איך נשתמש בקובץ רובוטס - robots.txt

21 פברואר 2014

איך לדבר עם הרובוט של גוגל?

איך נשתמש בקובץ רובוטס - robots.txt

כל אתר ברשת האינטרנט העולמית נסרק על ידי מנוע החיפוש גוגל ומנועי חיפוש רבים נוספים, אבל הדבר הראשון שכל "עכביש" (spider crawlers) מחפש באתר הוא עמוד בעל הכתובת הבאה:
www.example.co.il/robots.txt

מתי נשתמש בו?

ישנם מספר מקרים בהם נרצה להשתמש בעמוד ה"רובוטס" שלנו:

  • במידה ונרצה לחסום גישה לתיקיות מסוימות באתר שלנו.
  • במידה ונרצה לחסום גישה לעמוד או עמודים מסוימים באתר.
  • במידה ונרצה להפנות את מנועי החיפוש לעמודים חשובים באתרנו (כמו מפת האתר).
  • במידה ונרצה לחסום גישה לאתר בכלל במקרה ועובדים על שדרוג האתר או בעת בניית אתר חדש בדומיין אחר (פה נרצה למנוע כפילויות של תכנים ועוד).
  • במידה ונרצה לחסום מנועי חיפוש ספציפיים מלסרוק את האתר.

 

איך ואיפה נשתמש בו?

השימוש ברובוט הוא די פשוט:

  1. יוצרים קובץ שנקרא -  robots.txt - כותבים בו את הפקודות החשובות שנרצה להגיד למנועי החיפוש (אילו חלקים באתר לסרוק ואילו לא).
  2. מעלים את הקובץ לתיקייה הראשית של האתר יחד עם כל שאר הקבצים והתיקיות.

*הקובץ חייב להופיע בנתיב הבא בלבד: www.example.com/robots.txt ולא תחת תיקיה.

שמות הרובוטים העיקריים

ישנם מספר גדול מאד של רובוטים סורקים ברחבי רשת האינטרנט (crawlers, spiders). הנה מספר דוגמאות לרובוטים המוכרים יותר:
Googlebot - גוגל - חיפוש אינטרנט רגיל
Googlebot-News - גוגל חדשות
googlebot-image - תמונות גוגל
Googlebot-Mobile - גוגל מובייל
Bingbot - הרובוט החיפוש בינג
Yahoo! Slurp - הרובוט של יאהו
YandexBot/3.0 - הרובוט של מנוע החיפוש הרוסי יאנדקס
YandexImages/3.0 - יאנדקס תמונות

לרשימה מלאה של כל סוגי הרובוטים של גוגל

איך נבצע זאת?

ההנחיות לאישור או מניעת כניסה של מנועי החיפוש לעמודים באתר היא פשוטה מאד.

שורת פתיחה לקובץ robots.txt (כוכבית מתייחסת לכל הרובוטים):


User-agent: *

ללא חסימה

מניעת אינדוקס של כל האתר לכל הרובוטים:


User-agent: *
Disallow: /

שורות קוד אלו מונעות ממנועי החיפוש להיכנס לכל עמודי האתר.


מניעת אינדוקס של עמודים ספציפיים באתר לכל הרובוטים:


User-agent: *
Disallow: /contact-us
Disallow: /search

בשורות קוד אלו מנענו ממנועי החיפוש לסרוק את עמוד צור קשר והחיפוש.

מניעת אינדוקס לתיקיות ספציפיות:


User-agent: *
Disallow: /images/
Disallow: /files/

בשורות קוד אלו מנענו ממנועי החיפוש לסרוק את תיקיית הקבצים והתמונות שלנו.

מניעת אינדוקס של כל האתר בפני גוגל ויאנדקס:


User-agent: Googlebot
Disallow: /

 

User-agent: Yandex
Disallow: /

כאן מנענו רק ממנועי החיפוש של גוגל וינדקס מלסרוק את האתר.

הפניית מנועי החיפוש למפת האתר שלנו:


User-Agent: *
Sitemap: http://www.example.co.il/sitemap.xml

שורות אלו מפנות את מנועי החיפוש לסריקת מפת האתר שלנו ובכך אנו מזרזים אינדוקס אתר חדש או עמודים חדשים שהתווספו לאתרנו.

קובץ רובוטס - robots.txt
מומלץ כי יהיה קובץ "רובוטס", אפילו אם לא רוצים לחסום שום דף באתר כיוון שמנועי החיפוש מחפשים עמוד זה כל פעם שהם ניגשים לסרוק אתר. כאשר אינם מוצאים את העמוד הם מחזירים שגיאה, אותה ניתן לראות בכלים שונים של ניהול אתרים כמו webmaster tools של גוגל או בינג.

כדאי לוודא כי עמוד ה robots.txt כתוב בצורה תקינה ונמצא במיקום הנכון מבחינה היררכית של קבצי האתר (חייב להופיע בתיקייה הראשית), כיוון שאם מנועי החיפוש יחפשו את העמוד ולא יצליחו לקרוא אותו זה עלול להשפיע על סריקת האתר והנראות שלו במנועי החיפוש. ניתן לוודא שהקובץ תקין בפעולה פשוטה - פשוט תגלשו לכתובת של העמוד.

אז למה אתם עדיין פה? בדקו את קובץ ה robots.txt שלכם, או שתיצרו עמנו קשר ואנחנו נעשה זאת בשבילכם!

SEO, אופטימיזציה, טכני
רוצה להתקדם? צור קשר