Si torna a parlare del file robots.txt e di quello che va inserito al suo interno. il motivo è un nuovo aggiornamento che arriva direttamente da Google.
La società della grande G ha infatti aggiornato la sezione sul sito di Google Search Central che riguarda la documentazione. Quello che è stato scritto è estremamente stringato ma sufficiente per avviare una analisi di quello che c’è all’interno del tuo file robots.txt.
Questo ingrediente così importante per gestire il rapporto dei bot con i siti web è stato modificato nel tempo e va tenuto a sua volta in buona forma per non avere brutte sorprese.
In particolare, con una nota rilasciata giusto qualche giorno fa, è arrivato il chiarimento che potremmo chiamare definitivo su quali siano i campi all’interno del file che Google, in qualità di motore di ricerca, effettivamente guarda.
Costruire un buon file robots.txt significa costruire un file che funzioni in modo che poi il rapporto con i bot sia né più né meno quello che tu hai deciso deve essere. Al suo interno si trovano quindi le direttive che poi i bot devono tenere presenti quando fanno l’esame approfondito di ciò che c’è sul tuo sito costruito con WordPress.
Anche se non sembra, anche una configurazione errata del file robots.txt può avere ripercussioni sulle performance legate alla SEO, come vedremo. Nel corso del tempo si sono diffuse online varie credenze riguardo come debba essere compilato questo file, che all’apparenza sembra un comunissimo file di testo. Anche John Mueller, piuttosto di recente, ne ha parlato a più riprese.
Su Google Search Central, però adesso c’è una nuova nota (se non la visualizzi ti consigliamo di sostituire l’indicazione della lingua “it” con “en”) che chiarisce quelli che sono i soli quattro campi supportati dai bot che lavorano per la grande G. Questi quattro campi sono: user-agent, allow, disallow, sitemap.
Tutto il resto viene ignorato.
Tra i campi ignorati viene fatto l’esempio di crawl-delay. Cosa fanno questi quattro campi? User-agent serve a identificare a quale crawler si riferiscono le regole che vengono poi elencate. Nella documentazione viene ricordato per esempio che questo campo non è suscettibile all’utilizzo di maiuscole e minuscole.
I campi allow e disallow vanno completati con un percorso riguardo i contenuti che vanno o non vanno resi accessibili ai crawler. Quello che c’è in questi due campi è invece, e lo ricorda sempre la documentazione, suscettibile per quello che riguarda l’utilizzo di maiuscole e minuscole.
Da ultimo, c’è il campo sitemap che è a sua volta case sensitive e che è supportato dalla stragrande maggioranza dei motori di ricerca. Se hai altri campi inseriti e conteggiati oltre questi quattro sappi che i bot di Google li ignorano. Tra gli altri campi che quindi sono ignorati ci sono il nofollow, che tra l’altro Google non ha mai dichiarato di supportare in maniera ufficiale, e il noindex, per il quale la società della grande G ha sempre sconsigliato l’utilizzo.
Il chiarimento portato da Google ci aiuta anche a comprendere meglio come costruire un file robots.txt che sfrutti al massimo i campi supportati e che funzioni per la SEO. Come abbiamo già ricordato, il suo utilizzo permette ai bot di indicizzare solo quello che tu vuoi venga effettivamente indicizzato. Indicizzato significa che poi emerge se un utente esegue una determinata ricerca online.
La necessità di bloccare l’accesso ad alcune sezioni del tuo sito può avvenire per diversi motivi. Per esempio, aiuta a gestire quando ci sono pagine che potrebbero essere percepite come duplicato, perché hanno stessa struttura, stessi elementi ma lingua leggermente diversa. Un buon file robots.txt ha poi il pregio di permetterti di gestire il traffico dei bot.
In caso ci sia troppa attenzione da parte dei bot sul tuo sito potresti superare quello che è il budget a tua disposizione e poi avere problemi nel momento in cui gli utenti reali cercano di navigare. Attenzione però a come decidi di gestire i link alle risorse che non vuoi vengano indicizzate. Quelle che sono bloccate bloccano a loro volta l’eventuale valore degli altri link che si trovano all’interno del contenuto.
Ma cosa devi scrivere nella pratica? La struttura delle voci deve essere sempre la stessa e deve seguire le regole, che sono diventate lo standard nella pratica anche se poi nessuno nei fatti ha mai stilato un modello unico.
Attenzione però alle espressioni e ai caratteri wildcard perché non tutti i motori di ricerca si comportano allo stesso modo e per esempio i bot di Google comprendono espressioni molto complicate ma altri non lo fanno.
Un principio di base sarebbe quindi quello di trovare il modo più semplice per esprimere ciò che va inserito all’interno dei campi supportati nel tuo file robots.txt. E proprio parlando di campi e di come vanno compilati di recente abbiamo avuto modo di tornare sull’argomento del file robots.txt e dell’indicizzazione per quello che riguarda l’utilizzo dei tag noindex e canonical. I tag non sono utilizzati all’interno del file robots.txt ma è chiaro che nel momento in cui li inserisci finiscono con il lavorare in sinergia con quello che c’è all’interno del file robots.txt.
Di nuovo, il consiglio è quello di trovare la soluzione più semplice ed elegante. In generale sarebbe opportuno, non solo adesso che abbiamo alcune direttive da parte di Google, sottoporre periodicamente ad analisi quello che c’è in questo piccolo grande documento, per sapere se è ancora rilevante e soprattutto se funziona come tu vuoi che faccia.
Ogni volta che c’è un aggiornamento che riguarda il file robots.txt tutti ci concentriamo sul cercare di capire quello che Google vuole dirci. E abbiamo già parlato, a grandi linee, del fatto che comporre il file robots.txt in maniera corretta aiuta la SEO.
Ma in che modo nello specifico arriva questo aiuto? La risposta sta nel modo in cui il file funziona. Dato che è la mappa attraverso cui i bot esaminano ciò che c’è sul tuo sito e lo indicizzano, è chiaro che nel momento in cui un utente esegue una ricerca se il tuo contenuto è indicizzato in maniera corretta comparirà tra i risultati. Se quindi il tuo file robots.txt dà indicazioni contrastanti le tue performance generali ne risentono.
La posta elettronica è uno strumento ormai imprescindibile in qualunque strategia di marketing ma configurare…
Su internet si trova di tutto e tu stai cercando idee per i tuoi contenuti.…
Qualunque sito viene pubblicato non vive nel vuoto pneumatico del suo server. La rete è…
I servizi per accorciare link sono molto diffusi. Tanti siti web fanno affidamento su plugin…
Come costruire credibilità, incrementare la visibilità e far crescere i profitti attraverso un sito web.…
Hai un errore nella tua Bacheca WordPress relativo alla versione PHP? Non ti preoccupare, lo…