fbpx

I GoogleBot sono cambiati e il tool che li tiene a bada finisce in soffitta

come lavorare con i nuovi strumenti per i bot e il crawling
Tabella dei Contenuti

Da parte di Google è arrivato un annuncio sul blog ufficiale Search Central che ha come oggetto i GoogleBot e un tool che era inserito all’interno di Search Console.

I GoogleBot sono il sistema con cui Google annusa internet, esamina i siti web e poi raccoglie su di essi tutte le informazioni che potrebbero essere necessarie nel momento in cui un utente esegue una ricerca. Sono quindi degli strumenti del tutto innocui e che anzi hanno uno scopo ben preciso che è quello di indicizzare ciò che c’è sulle pagine del tuo sito WordPress.

i googlebot sono cambiati, l'annuncio ufficiale
I GoogleBot imparano e migliorano e Google lo annuncia eliminando un tool – sos-wp.it

Ma il loro lavoro può avere ripercussioni sulla qualità dell’esperienza che gli utenti stessi hanno poi di quei contenuti indicizzati. Un problema che finora era stato contenuto grazie all’introduzione di un tool specifico che poteva essere modulato. Ma secondo quanto annunciato da Google quel tool ora non serve più, perché i bot sono diventati molto più bravi nel fare il loro lavoro senza interferire con il traffico degli utenti. Esaminiamo quindi l’annuncio e cerchiamo di comprendere quelle che potrebbero essere le conseguenze sul tuo lavoro nel momento in cui il tool verrà effettivamente spento.

I GoogleBot più educati, il Crawl Rate Limiter Tool va in pensione

Con un post sul blog Google Search Central è stato annunciato che a partire dal prossimo 8 gennaio 2024 il Crawl Rate Limiter Tool non sarà più attivo. Si tratta di un tool arrivato circa una quindicina d’anni fa su richiesta proprio dei gestori dei siti web che si trovavano a dovere a volte fronteggiare una situazione piuttosto spiacevole con i siti, o più specificatamente i server su cui i siti erano costruiti, che venivano investiti da una quantità altissima di bot che poi avevano ripercussioni sul traffico e sulla tenuta dei siti.

come gestire l'indicizzazione e il crawling sulle pagine del tuo sito wordpress
Il crawling è cambiato, come cambierà il tuo lavoro adesso? – sos-wp.it

Il tool permetteva di controllare la quantità di bot che potevano raggiungere un sito e le sue pagine. Nonostante però l’ottima idea il tool era piuttosto lento e di solito impiegava circa 24 ore per attivare il limite che poi però ogni 90 giorni andava resettato e poi inserito di nuovo. A quanto pare tutto questo lavoro sta per andare in soffitta. L’annuncio parla infatti di “miglioramenti” che sono stati fatti alla “logica del crawling e agli altri tool disponibili ai publisher” che hanno reso l’utilizzo di questo particolare strumento obsoleto. Anche nel post ufficiale si riconosce che il Crawl Rate Limiter Tool era piuttosto lento mentre la nuova tecnologia che supporta i GoogleBot è ora in grado di percepire in modo automatico se un server rischia di superare la propria capacità ottimale e quindi rallentano da soli la frequenza delle loro visite.

Una situazione che ha quindi lo scopo di semplificare la vita dei gestori di siti web. Sei il tuo sito ha sperimentato in qualche occasione dei picchi nel traffico dovuto ai bot questa situazione verrà adesso gestita in modo automatico dagli algoritmi che gestiscono i GoogleBot. Questa dovrebbe però essere la situazione ottimale E infatti in chiusura di post, Google raccomanda di utilizzare comunque il form con cui è possibile chiedere di ridurre la frequenza della scansione. Il fatto che l’algoritmo sia migliorato non significa che sia ovviamente perfetto. E quando si parla di bot e di crawler si parla anche di file robots.txt. Quanto conosci il tuo?

Cosa c’è nel file robots.txt e come utilizzarlo

Il file robots.txt è un file che, da definizione Google, serve a dire ai motori di ricerca quali sono le URL presenti sul tuo sito e su cui possono lavorare. Si tratta di un altro sistema per limitare l’eventuale sovraccarico ma non può essere utilizzato per escludere una pagina web dal crawling dei bot. Ricordando che per escludere tecnicamente una pagina occorre inserire il codice noindex o aggiungere una password, vediamo invece cosa fa e a cosa serve il file robots.txt.

Questo file, che si trova all’interno della directory principale del sito, viene costruito da zero e, una volta costruito, periodicamente potrebbe essere aggiornato. Nel file possono essere inseriti alcuni bot nella categoria Consenti e altri bot nella categoria Non Consenti: Allow e Disallow. Molto interessante è da notare che per esempio, oltre ai bot dei motori di ricerca, puoi anche permettere o non permettere che i contenuti del tuo sito vengano scandagliati dai bot che OpenAI manda in giro per far studiare, potremmo dire così, l’intelligenza artificiale di ChatGPT. Il file robots.txt può essere aggiornato, se per esempio decidi di escludere ChatGPT, ma per fare ciò non puoi agire all’interno del sito. Quello che devi fare è scaricare il file, modificarlo e ricaricarlo. Tieni presente che le modifiche al file robots.txt entrano di solito nel sistema con uno scarto di 24 ore. Se hai bisogno di fare un aggiornamento più rapido della cache puoi utilizzare il tester dei file robots.txt.

Ti potrebbe interessare anche

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Cosa stai cercando?

Chiamaci ora!

Hai bisogno di una mano? Il nostro team è pronto ad ascoltarti e a trovare la soluzione su misura per te. Clicca qui sotto e chiamaci per un preventivo gratuito:

Richiedi SOS-CheckUp Base Gratis

Qual è lo stato di salute del tuo sito WordPress?

Anche se tutto sembra funzionare sul tuo sito WordPress, potrebbero esserci dei problemi nascosti da risolvere immediatamente

Richiedi subito un check-up gratuito per scoprire quali sono i pericoli invisibili

Gestione cookie