Tra le piccole grandi croci e delizie di chi si occupa di siti web c’è il file robots.txt. Qualcosa che, regola vuole, ogni sito deve possedere e deve strutturare in un modo molto preciso.
Questo perché il file robots.txt è un elemento imprescindibile del modo in cui poi il sito parla con i bot che si occupano di esaminare e indicizzare i contenuti. Tempo fa avevamo già visto, per esempio, quello che Mister Google in persona pensava di questi file e di come si dovesse gestire la loro presenza.
Adesso, da parte di Gary Illyes arriva una idea che può sembrare rivoluzionaria se non addirittura eretica. Ma data la fonte ovviamente è invece estremamente sensata e logica. La questione che Illyes affronta, in un post pubblicato sul suo account LinkedIn, è dove va messo il file robots.txt. Quello che ci hanno insegnato potrebbe non essere del tutto corretto.
La grande rivoluzione che in poche righe Illyes sembra voler avviare è che non necessariamente il file robots.txt deve trovarsi nel root domain del sito per il quale è stato progettato. Qualcosa che, come accennavamo, contrasta invece con tutto ciò che finora ci avevano insegnato sulla gestione di questo piccolo grande file.
Illyes prosegue nel suo post facendo l’esempio di un sito che ha un sito principale e un CDN, un Content Delivery Network. Logica vorrebbe, o così pensiamo tutti, che debba esserci un file robots.txt nel root domain del sito principale e un altro nel root domain del CDN.
A quanto pare non è così.
In queste situazioni, spiega Illyes, è possibile reindirizzare i bot perché vadano a guardare solo il file robots.txt che si trova nel CDN senza dover per forza quindi gestire due file robots.txt contemporaneamente. Si tratta di una soluzione che riduce parte del carico di lavoro di chi gestisce i siti web e che sfrutta il protocollo RFC9303 per i crawler.
L’occasione per parlare della posizione del file robots.txt sono i trent’anni della sua creazione. E infatti Illyes in realtà ha pubblicato altri interventi molto interessanti che vanno a guardare a questi file da prospettive nuove e diverse. Vediamo che cos’altro possiamo imparare dai suoi post. Ma prima un intervento di John Mueller:
La struttura dei file robots.txt è fatta in modo tale che, e questo è il presupposto di un altro post pubblicato sempre da Illyes su LinkedIn, non c’è possibilità che i crawler commettano errori. Nel senso che i parser ignorano la maggior parte dei piccoli errori e delle sviste che nella compilazione da parte dell’essere umano possono accadere.
Illyes fa l’esempio di ciò che succede se non si scrive correttamente disallow: niente. Così come non succede niente se non si rimuove il disegno ASCI (e perchè lo si dovrebbe togliere poi?). Diligentemente, quindi, i parser lavorano anche se l’utente umano non è stato particolarmente bravo.
E allora, questa è la domanda che si pone Illyes, che ci facciamo con gli spazi dedicati ai commenti? Lasciando aperta la domanda agi altri utenti della piattaforma, le risposte che si sono ammonticchiati sono nuovi punti di vista che vale la pena leggere. C’è per esempio chi accomuna gli spazi dei commenti alle regole html, che però non servono più, almeno in parte, perché i browser sono stati addestrati a soprassedere.
Quando i file robots.txt sono stati concepiti per la prima volta doveva esserci uno spazio per i commenti, semplicemente perché nessuno immaginava che i parser sarebbero diventati abbastanza intelligenti da ignorarci e non far saltare per aria un intero sito web.
E tra i commenti non poteva non esserci anche quello di John Muller che poi sul suo sito personale ha creato un post in cui ha raccolto alcuni dei commenti più assurdi rintracciati all’interno di questi file. Un’altra lettura che merita di essere fatta.
La posta elettronica è uno strumento ormai imprescindibile in qualunque strategia di marketing ma configurare…
Su internet si trova di tutto e tu stai cercando idee per i tuoi contenuti.…
Qualunque sito viene pubblicato non vive nel vuoto pneumatico del suo server. La rete è…
I servizi per accorciare link sono molto diffusi. Tanti siti web fanno affidamento su plugin…
Come costruire credibilità, incrementare la visibilità e far crescere i profitti attraverso un sito web.…
Hai un errore nella tua Bacheca WordPress relativo alla versione PHP? Non ti preoccupare, lo…