Zoekmachine tools en diensten: Robots.txt
Het robots.txt-bestand moet worden opgeslagen in de root van een website directory (bijv. www.google.com / robots.txt). Het bestand dient als een leidraad voor toegang tot geautomatiseerde bezoekers (web robots). Door gebruik te maken van een robots.txt bestand kunnen webmasters aangeven welke delen van de website niet doorzocht mogen worden door de bots van bijvoorbeeld de zoekmachines. Ook kan in het bestand de locatie worden aangegeven van de sitemaps.
Het bestand is dus een simpel tekst bestand met het .txt formaat. De volgende opdrachten zijn beschikbaar:
Disallow
Voorkomt dat robots toegang hebben tot bepaalde pagina's of mappen.
Sitemap
Geeft de locatie van de sitemap van een website of sitemaps.
crawl Delay
Bepaald de snelheid (in milliseconden) waarmee een robot een server kan doorzoeken.
Een voorbeeld van Robots.txt
User-agent: infoseek
Disallow: /artikelen/voorbeeld.html
User-agent: *
Disallow: /cgi-bin/
Disallow: /test/
Let op: Het is goed om te beseffen dat niet alle web robots de robots.txt te volgen. Mensen met slechte bedoelingen bouwen bots, die niet aan dit protocol voldoen en in extreme gevallen kan het worden gebruikt om de locatie van prive informatie te identificeren. Om deze reden is het raadzaam dat de locatie van de administrator secties en andere prive zaken van openbaar toegankelijke websites niet worden opgenomen in de robots.txt. In plaats daarvan kunnen deze pagina's gebruik maken van de meta robots tag dit wordt de volgende keer besproken.
