L%26%238217%3Bassurdo+robots.txt+di+John+Mueller%3A+Cosa+significano+quelle+strane+istruzioni%3F

soswpit

/news/john-mueller-file-sito/amp/

L’assurdo robots.txt di John Mueller: Cosa significano quelle strane istruzioni?

Published by

Valeria Poropat

2 anni ago

John Mueller ci dà una lezione su come si scrive il file robots.txt - sos-wp.it

All’ombra dell’aggiornamento dell’algoritmo di Google tutta la rete è stata presa alla sprovvista dalla storia molto particolare che ha riguardato il sito di John Mueller, mister Google in persona.

Il suo sito personale è infatti improvvisamente scomparso dalle ricerche. Spoiler alert: il sito adesso è tornato ma si continua ancora a parlarne, soprattutto per il file robots.txt. Che cosa c’è di così strano nel modo in cui Mueller gestisce il traffico di bot sul suo sito web? Possiamo imparare qualcosa da questo lungo file?

L’incipit del file robots.txt del sito di John Mueller – sos-wp.it

Il sito ufficiale di John Mueller e il suo strano file robots.txt

Ogni sito web dovrebbe avere un file robots.txt con cui dire i bot quali sono i contenuti che devono essere ignorati e quali sono i contenuti che invece contribuiscono al valore generale e che quindi devono essere esaminati e inseriti nelle ricerche degli utenti. Anche il sito di Mueller ha un file robots.txt. Ma a quanto pare il suo file robots.txt è innanzitutto estremamente lungo e conterrebbe alcuni elementi di cui vale la pena parlare. Andiamo con ordine.

Perché tutti sono andati a guardare il file robots.txt del sito di Mueller? Improvvisamente, a circa metà marzo, il sito è scomparso dai risultati di ricerca. Google lo aveva del tutto cancellato. Di certo una situazione assurda per mister Google. Nel pieno però del rilascio dell’aggiornamento che ha portato effettivamente alla sparizione di moltissimi siti, perché non rispondenti in termini qualitativi agli standard della grande G. Qualcuno ha pensato che anche questo sito avesse qualcosa che non andava. Difficile ma non impossibile.

Qualcuno aveva dato la colpa al file robots.txt. Mueller ha poi dovuto prendere la parola su LinkedIn per spiegare che, no, il suo file robots.txt non c’entrava niente sul fatto che il sito fosse scomparso dai risultati delle ricerche. Innanzitutto interessante notare come Mueller definisca il file robots.txt un po’ come le mutande di un sito: “ne avrei messo su un paio pulito se avessi saputo”, scrive in apertura del suo lungo post per spiegare il perché e il per come il suo file robots.txt sembri non rispettare le regole che sono universalmente riconosciute per questo genere di file.

Le “assurdità” più interessanti

Le stranezze possono anche avere un senso – sos-wp.it

Un elemento saltato agli occhi è stata per esempio la lunghezza e quindi il peso del file: “la misura arriva dai test dei vari tool per testare i robots.txt su cui ho lavorato con il mio team“. A quanto pare, a forza di test il file si è ingrandito ma non è poco funzionale. Un altro elemento saltato agli occhi è il fatto che, in apertura, il file robots.txt sia segnalato tra quelli che i bot non devono guardare.

Ma non è un controsenso, spiega ancora Mueller “il mio file robots.txt semplicemente ha tante cose dentro ed è tutto più pulito se non viene indicizzato con il suo contenuto”. La presenza del blocco serve quindi solo per evitare che quello che è presente all’interno del file venga in qualche modo indicizzato altrove.

Terzo elemento interessante è che in cima si trova una indicazione “disallow: / “. Anche per questa che sembra un’altra stranezza, Mueller ha una spiegazione logica da cui soprattutto possiamo imparare qualcosa. La presenza della indicazione a inizio sezione serve per ovviare agli eventuali problemi di taglio che un sistema di parse non ottimale potrebbe generare.

E per capire bene seguiamo l’esempio che lo stesso Mueller fa: nel caso in cui un parser tagli in una posizione strana, per esempio staccando il comando allow dal nome del servizio che è effettivamente autorizzato a fare crawling si potrebbe avere un effetto di liberi tutti. Inserendo invece il comando all’inizio tutto dovrebbe scorrere liscio o rendere la vita abbastanza complicata ai bot, che così smetterebbero di mettere il naso dove non dovrebbero.

Valeria Poropat

Laureata in traduzione, Valeria adora da sempre la tecnologia in ogni sua forma e in particolare ai modi in cui la tecnologia può aiutare ad avvicinare le persone e stimolare la curiosità.