Il REP (Robot Exclusion Protocol) di Google, meglio noto come robots.txt, è una delle componenti chiave per il funzionamento del motore di ricerca, ben conosciuto da tutti coloro che hanno mai avuto a che fare con la creazione o la gestione di un sito Web. Diventerà uno standard o almeno questa è la volontà del gruppo californiano: l’annuncio è arrivato sotto forma di post condiviso dal colosso di Mountain View sul blog ufficiale dedicato ai webmaster.
Robots.txt diventerà uno standard
La decisione giunge dopo 25 anni di onorata attività della componente. Creata nel 1994 dall’olandese Martijn Koster, è stata posta nelle mani dei webmaster per consentir loro di definire quali pagine e risorse non indicizzare al passaggio di crawler come Googlebot, attraverso la sua collocazione nella directory root. Sfruttandola è ad esempio possibile evitare l’inserimento nel database del motore di ricerca di contenuti che non devono essere raggiunti dai navigatori tramite SERP (pagine dei risultati). Queste le informazioni riportate sulla pagina del supporto ufficiale.
Il file robots.txt risiede nella directory principale del sito. Pertanto, per il sito www.example.com, il file robots.txt risiede all’indirizzo www.example.com/robots.txt. robots.txt è un file di testo normale conforme al Protocollo di Esclusione Robot. Un file robots.txt è formato da una o più regole. Ogni regola blocca (o consente) l’accesso di un determinato crawler a un percorso di file specificato nel sito Web in questione.
But there are also lots of typos in robots.txt files. Most people miss colons in the rules, and some misspell them. What should crawlers do with a rule named "Dis Allow"? pic.twitter.com/nZEIyPYI9R
— Google Search Central (@googlesearchc) July 1, 2019
Come primo step dell’iniziativa, Google ha pubblicato su GitHub il codice sorgente del parser che ne regola l’interpretazione da parte del crawler. Queste le ragioni che hanno spinto bigG all’apertura che passa dalla Internet Engineering Task Force, organizzazione impegnata nella promozione degli standard per il mondo online.
Vogliamo aiutare i gestori dei siti Web e gli sviluppatori a creare esperienze magnifiche su Internet anziché preoccuparsi di come controllare i crawler. Insieme all’autore originale del protocollo, ai webmaster e ad altri motori di ricerca, abbiamo documentato come REP viene impiegato nel Web moderno, sottoponendolo all’attenzione di IETF.