Plik robots.txt

Plik robots.txt

Plik robots.txt jest specjalnym dokumentem tekstowym sprawdzanym przez
roboty wyszukiwarek indeksujących stronę  i stosującym specjalny protokół

– Robots Exclusion Protocol, który pozwala administratorowi zablokować dostęp wybranym robotom do określonych plików/katalogów na serwerze. Plik ten może być szczególnie przydatny, gdy na serwerze przechowuje się poufne zasoby czy strony będące w trakcie przygotowywania. Aby te dane nie zostały zaindeksowane przez wyszukiwarki, wystarczy utworzyć w głównym katalogu witryny plik robots.txt z odpowiednią zawartością.

Komendy zawarte w robots.txt są dość proste. Pole User-agent zawiera informacje na temat tego, jakich robotów wyszukiwarek dotyczy dany rekord. Poniższy kod zabrania wszystkim pajączkom czytania zawartości folderu private i pliku index.html umieszczonym w katalogu temp:

User-agent: *
Disallow: /private/
Disallow: /temp/index.html

Gwiazdka (*) po User-agent oznajmia, że zakaz dotyczy wszystkich robotów, jednak istnieje możliwość ograniczenia praw tylko wybranym szperaczom. Wówczas w miejsce gwiazdki (*) wpisuje się jego nazwę:

User-agent: googlebot
Disallow: /private/
Disallow: /temp/index.html

Pajączki zmogą indeksować cały serwis, jeśli w głównym katalogu na serwerze nie będzie robots.txt lub będzie on miał zawartość:

User-agent: *
Disallow:

Oto przykładowy plik robots.txt ze strony www.alexa.com:

# The crawlers listed below are allowed on the Alexa
site.

# Alexa allows other crawlers on a case by case basis.
# Send requests to frontdesk@alexa.com.
#
# Alexa provides access to traffic ranking data via Amazon Web Services.
# More information here: <URL: http://www.amazon.com/gp/browse.html/?node=12920391>

User-agent: googlebot
Disallow: /search

User-agent: gulliver
Disallow: /search

User-agent: slurp
Disallow: /search

User-agent: fast

Disallow: /search

User-agent: scooter
Disallow: /search

User-agent: vscooter
Disallow: /search

User-agent: ia_archiver
Disallow: /search

User-agent: Nutch
Disallow: /search

User-agent: FAST-WebCrawler

Disallow: /search

User-agent: teoma_agent1
Disallow: /search

User-agent: Lycos_Spider_(T-Rex)
Disallow: /search

User-agent: MSNBOT/0.1
Disallow: /search

User-agent: ArchitextSpider
Disallow: /search

User-agent: ZyBorg

Disallow: /search

User-agent: SurveyBot
Disallow: /search

# Disallow all other crawlers

User-agent: *
Disallow: /

Innym podobnym rozwiązaniem jest znacznik META ROBOTS w sekcji HEAD dokumentu HTML. znacznik ten przy pomocy odpowiednich parametrów instruuje mechanizmy wyszukiwarek, jak powinny indeksować stronę. Może on mieć parametry:
index – pozwala robotom indeksować stronę

noindex – zapobiega indeksowaniu strony przez roboty
follow – pozwala robotom indeksować strony, do których dotrze poprzez
linki w danej witrynie
nofollow – zabrania robotom indeksować stron, do których linki znajdują się w danej witrynie
all – zastępuje „index, follow”
none – zastępuje „noindex, nofollow”
Przykładowy tag ROBOTS wygląda następująco:

<META NAME=”robots” CONTENT=”index,
follow” >

Znacznik ten nie jest zbyt rozbudowany, posiada mniej opcji niż robots.txt, jednak również może okazać się przydatny.