*שם 
*מייל 
*טלפון 
נושא הפנייה 
הערות 
077-7123303   שלח
דף הבית >>מידע מקצועי >>בניית Robots.txt
 
 
 
 
בניית Robots.txt

 

 Robots.txt

הם מכונים "עכבישים" או "זחלנים",  והם נעים בלי הפסקה ברחבי הרשת, נכנסים, סורקים אתרים, יוצאים וחוזר חלילה. תכירו ! הרובוטים של מנועי החיפוש. רובוטים אלה הם למעשה תוכנות שתפקידם לשוטט באתרים ברשת האינטרנט על ידי דילוג בין קישור אחד למשנהו.

בדרך זו, סורק גוגל ומנועי החיפוש האחרים את האתרים השונים, מקטלג אותם, מגדיר אותם וגם מגביל את כוחם.

 

רובוט נקודה TXT , מתי ולמה כל זה התחיל ?

בתחילת שנות ה-90 נתגלתה בעיתיות בתפקודם של "תוכנות הזחילה" או "הרובוטים" של מנועי החיפוש. הם נכנסו למקומות אליהם לא היו צריכים להיכנס כמו מידע כפול, קבצים זמניים בשרת, קבצי CGI, וההסדר לא נתן לבעלי האתרים די גמישות ויכולת להציג תנאים משלהם, ובנוסף הוא מבזבז להם את רוחב הפס בכניסותיו החוזרות ונשנות לאתר.

בעקבות בעיות אלה, פותח אז רובוט TXT. מדובר בהוספה של קובץ לשרת שמגדיר לתוכנו החיפוש לאן יכולים הם להיכנס, מה כן לסרוק ומה לא. אפשר להשתמש בשיטה הזו בכל שרת HTTP ולא צריך לבצע שום שינוי בתכנה. יתרון נוסף של השיטה הוא שאינה מעמיסה על השרת.

השימוש ב-  ROBOT TXT פשוט. על בעל האתר להגדיר בקובץ הרובוט איסור סריקה על קבצים מסוימים וקטגוריות שלמות בתוך האתר שלו. אגב, לפני כשנתיים החלו לדרוש בעלי האתרים להוסיף פקודות חדשות לרובוט כמו למשל הגבלת הזמן בו יוכלו תוכנות הסריקה לשהות באתר, והצגת התכנים אותם סרק באמצעות דו"ח.  אפשרות נוספות שמבצע רובוט TXT היא מניעת הזחלנים מגישה לקישורים בדף מסוים.

 

דוגמא לקובץ רובוט.טקסט:

 

# Robots.txt file created by http://www.globalpromoter.com
# For domain: http://www.videojob.co.il

# All robots will spider the domain
User-agent:* 
Disallow: 

# Disallow directory /DB_admin/
User-agent: *
Disallow: /DB_admin/

# Disallow directory /mp3/
User-agent: *
Disallow: /mp3/

# Disallow directory /users/
User-agent: *
Disallow: /users/

# Disallow directory /DB_scripts/
User-agent: *
Disallow: /DB_scripts/

# Disallow directory /comm/
User-agent: *
Disallow: /comm/


 

 

הנחיות של גוגל ליצירת קבצי robot.txt

הדרך הקלה ביותר ליצירת קובץ robots.txt היא להשתמש בכלי 'יצירת robots.txt' ב-Webmaster Tools. לאחר יצירת הקובץ, ניתן להשתמש בכלי 'ניתוח robots.txt' כדי לוודא שהקובץ מתנהג כמצופה.

לאחר שקובץ robots.txt נוצר, שמור אותו בתיקיית הבסיס של הדומיין בשם robots.txt. זה המקום שבו הרובוטים יחפשו את הקובץ שלך. אם הקובץ יישמר במקום אחר, הם לא ימצאו אותו.

כמו כן, ניתן ליצור את הקובץ robots.txt באופן ידני באמצעות עורך טקסט כלשהו. הוא חייב להיות קובץ טקסט בקידוד ASCII ולא קובץ HTML. שם הקובץ חייב להיכתב באותיות קטנות בלבד

 

התחביר:
 

קובץ robots.txt הפשוט ביותר משתמש בשני כללים:

  • User-agent:: הרובוט שהכלל הבא חל עליו

  • Disallow: כתובת האתר שברצונך לחסום

שתי שורות אלה נחשבות כערך אחד בקובץ. אין הגבלה על מספר הערכים שניתן לכלול בו. בערך אחד ניתן לכלול מספר שורות Disallow ומספר User-agent.

עוד על robot.txt תמצא באתר של גוגל.

 
 
צור קשר
*שם 
*מייל 
*טלפון 
077-7123303   שלח