Wat is robots.txt?

4 augustus, 2014

Robots.txt is een eenvoudig tekstbestand dat instructies kan geven aan zoekrobots die namens een zoekmachine het internet afstruinen naar webpagina's om in de zoekresultaten op te nemen. Deze instructies vertellen de robots welke delen van een website wel of juist niet bezocht mogen worden.

Het doel van deze instructies is om te voorkomen dat gegevens die niet in de zoekresultaten tevoorschijn mogen komen, zoals webpagina's met privacygevoelige informatie, door (bepaalde) robots ontdekt en gedownload worden. Een robot is echter niet verplicht de instructies in robots.txt op te volgen, of om überhaupt het bestand uit te lezen. De meeste gerenommeerde zoekmachines, zoals Google en Bing, doen dit wel.

Aan de instructies is een bepaalde standaard syntax verbonden, die voor alle robots te begrijpen is. Een voorbeeld van een robots.txt-bestand:

User-agent: *
Disallow: /prive/
Disallow: /zoekresultaten

Robots zullen altijd in de basis (root) van een domeinnaam naar het robots.txt-bestand zoeken. Voor de domeinnaam www.hostinginnederland.nl zullen ze dus proberen het bestand www.hostinginnederland.nl/robots.txt op te vragen. Bestaat dit niet, dan nemen ze aan dat er geen beperkende regels gelden.