Guide

La guida al file robots.txt

In questa guida introduttiva troverai tutte le informazioni di cui hai bisogno per creare e configurare il file robots.txt. Inoltre, vedremo se è realmente utile per la SEO.

PS. Per seguire tutti i nostri consigli utili sulla SEO, puoi iscriverti al nostro gruppo privato TUTTO SEO. Ogni settimana contenuti di altissimo valore per scoprire tutte le strategie per migliorare il posizionamento organico del tuo sito. Puoi richiedere l’accesso cliccando qui.

guida file robot.txt

Hai sentito parlare del file robots.txt e vuoi sapere come utilizzarlo per il tuo sito web? Questo file è il mezzo utilizzato dai web master per fornire istruzioni ai bot dei motori di ricerca, cioè, i programmi utilizzati per la scansione dei contenuti dei siti web. Il nome di questi particolari bot è crawler.

Attraverso le istruzioni contenute in questo file, è possibile inviare istruzioni ai crawler riguardo a cosa devono scansionare e cosa no, cosa deve essere indicizzato e cosa deve rimanere nascosto.

Questo strumento si definisce Protocollo di Esclusione Robot (in inglese, Robots Exclusion Protocol).

Quando un bot inizia il processo di scansione di un sito web, il primo URL che visita è www.example.com/robots.txt; qui troverà le istruzioni fornite dal web master.

Come accennato, si può usare il file robots.txt per indicare ai bot di non effettuare la scansione di una o più pagine del proprio sito web. Questo è particolarmente utile se si hanno, per esempio, contenuti duplicati che potrebbero causare una penalizzazione da parte dei motori di ricerca.

Hai altre domande? Hai bisogno di un supporto professionale? Attiva subito la nostra Assistenza WordPress Prioritaria rapida e gratuita. E in più, se acquisti uno spazio hosting su SiteGround tramite il nostro link, in regalo oltre 50 video del nostro Corso WordPress, il più venduto di sempre.

Qui tutte le testimonianze

La struttura del file robots.txt

La struttura base di questo file è molto semplice; ecco un esempio:

User-agent: *
Disallow:

La prima riga serve ad indicare i bot a cui si desidera comunicare le istruzioni (in questo caso, il simbolo * indica “tutti i bot”).

La seconda riga, invece, si riferisce alle pagine o sezioni del sito web che non dovrebbero essere visitate dai bot (nell’esempio, nessuna).

Nel nostro esempio, quindi, non abbiamo nessuna esclusione: tutti i bot devono scansionare tutti i contenuti del sito.

Nelle prossime sezioni, approfondirò l’utilizzo dei vari codici all’interno del file.

Seguendo tutti i passi che ti illustriamo in questa guida, non dovresti incontrare grosse difficoltà. Ma sappiamo benissimo che, a volte, tutto può succedere! Niente panico: attiva al più presto la nostra Assistenza Prioritaria e chiedi il nostro aiuto.

Saremo lieti di offrirti prontamente supporto e assistenza, seguendoti passo per passo verso la soluzione del tuo problema.

Sitemap

Il file robots.txt può essere utilizzato anche per indicare ai bot la locazione della sitemap del proprio sito. Per inserire correttamente le istruzioni ai bot su come trovare la sitemap, dovrai utilizzare questa stringa:

Sitemap: http://example.com/sitemap_location.xml

Inserirai quindi l’URL esatto della tua sitemap. Ricorda di inserire i dati del tuo sito al posto dell’esempio che ti ho mostrato.

Utilizzare WordPress è un innegabile vantaggio anche in termini di SEO, ti spieghiamo perché.

Dove creare il file

Non tutti i siti hanno un robots.txt: se i bot non trovano alcun file, effettueranno la scansione di tutte le pagine. Questo accade anche se un file esiste ma non contiene alcun testo.

Se vuoi creare un file robots.txt per il tuo spazio web, aggiungi il file nella cartella principale del tuo server (in modo che i bot possano trovarlo visitando www.example.com/robots.txt , o, in altre parole, sostituendo robots.txt a index.html)

Nome del file

Quando crei il file per il tuo sito web, assicurati di chiamarlo esattamente robots.txt . Usa solo lettere minuscole, non aggiungere alcun carattere o simbolo: il nome del file deve essere precisamente questo, altrimenti i bot non potranno riconoscere il file.

Assistenza WordPress rapida e veloce con SOS WP - 2

I codici da utilizzare

Vediamo, dunque, quali sono i codici che puoi utilizzare all’interno del file per fornire istruzioni ai motori di ricerca (in questa guida indico solo i codici fondamentali; per approfondire l’argomento, visita il sito ufficiale dedicato del Protocollo di Esclusione Robot)

User-agent

Come abbiamo già visto, questo campo serve ad indicare i bot specifici a cui sono indirizzate le istruzioni.

Un asterisco, come vedi di seguito, è utilizzato per indicare “tutti i robot”:

User-agent: *
Disallow:

È però possibile anche indicare i nomi dei singoli user-agent (per esempio, se si vuole limitare l’accesso al bot di un particolare motore di ricerca). Puoi consultare la lista dei nomi dei bot di tutti i motori di ricerca.

Se si desidera creare istruzioni specifiche per diversi user-agent, è possibile farlo in questo modo:

User-agent: nomeuseragent1
Disallow:
User-agent: *
Disallow: /latuadirectory/

Le prime due righe sono le istruzioni per il determinato user-agent chiamato “nomeuseragent1”, mentre la terza e quarta riga sono le istruzioni per tutti i bot.

Disallow

Cartello disallow file robots.txt

Questa voce introduce la lista di pagine o sezioni che i bot non dovrebbero visitare.

Uno slash indica “tutti i contenuti del sito”.

User-agent: *
Disallow: /

Quindi, il codice qui sopra servirà a bloccare tutti i bot da tutto il sito.

Lasciare uno spazio vuoto, come vedi qui sotto, permette invece completo accesso (in quando non viene imposta alcuna restrizione).

User-agent: *
Disallow:

Directories

Se vuoi escludere determinate cartelle dalla scansione, inserisci il loro nome dopo la dicitura Disallow, preceduto e seguito da uno slash. Per indicare più cartelle, inserisci un’altra riga di Disallow:

User-agent: *
Disallow: /junk/
Disallow: /tmp/

Puoi trovare altre informazioni specifiche sulla sezione sui file robots.txt di Google Webmaster.

Note importanti

I bot possono decidere di ignorare il file robots.txt. Questo avviene più spesso nel caso di bot “maligni” (per esempio, quelli utilizzati per attività di spamming);

Il file robots.txt è pubblicamente accessibile. Fai quindi attenzione a non inserire informazioni riservate.

Da queste due note, puoi facilmente comprendere perché questo file non dovrebbe essere utilizzato per nascondere parti del tuo sito web. Ad esempio, non utilizzare la stringa Disallow per nascondere una cartella contenente informazioni riservate, perché non avrebbe alcun effetto.

Inoltre, segnalo che:

  • Ciascun sottodominio deve avere un proprio robots.txt;
  • Ogni parametro deve essere inserito su una riga singola (come abbiamo visto nell’esempio relativo alle directories). Non vengono riconosciuti spazi o virgole.

Robots.txt e SEO

Vediamo, ora, se il file robots.txt può essere realmente utilizzato ed ottimizzato per la SEO.

Per iniziare, voglio fare un’importante distinzione tra l’attività di scansione (crawling) e quella di indicizzazione (indexing).

Il termine scansione si riferisce all’attività di analisi delle pagine web svolta dai crawler dei motori di ricerca. Questi robottini analizzano contenuti, link, ecc; e riferiscono le informazioni trovate ai server.

Indicizzazione indica, invece, l’inserimento degli URL delle pagine web nell’indice dei motori di ricerca.

Talvolta, anche se i bot dei motori di ricerca “rispettano” l’istruzione di non effetturare la scansione di specifiche pagine web, queste vengono comunque indicizzate.

In questo caso, gli URL delle singole pagine appaiono sulla SERP ma ad essi non viene associata alcuna informazione. Hai mai letto la frase “Non è disponibile una descrizione per questo risultato a causa del file robots.txt del sito.” nei risultati di ricerca? Ecco, significa che quella pagina è stata esclusa tramite il file robots.txt.

D’altro lato, è anche possibile che i bot ignorino del tutto il file robots.txt.

Suggerisco, quindi, di bloccare i bot dei motori di ricerca utilizzando Meta NoIndex. In questo caso, mi riferisco ai tag meta da posizionare nella sezione “head” della pagina HTML per la quale si vuole restringere l’accesso.

Generalmente, questa soluzione funziona meglio, in quanto previene l’indicizzazione delle pagine.

Seppur utilizzare i tag meta sia preferibile, è da segnalare che anch’essi possono essere ignorati dai bot dei motori di ricerca.

D’altro lato, è importante assicurarsi che non sia bloccato l’accesso a parti del sito che vuoi siano indicizzate dai motori di ricerca.

Conclusione

In questa guida introduttiva hai imparato che cos’è e come creare un file robots.txt. Abbiamo anche visto se è effettivamente utile per la SEO e come si differenzia dal tag Meta NoIndex.

Il tuo sito ha già questo file?

Quali configurazioni hai utilizzato?

Se hai domande o suggerimenti, condividili nella nostra Community dedicata alla SEO. Troverai esperti del settore con cui confrontarti e chiarire ogni tuo dubbio.

NOTA: Questa guida è stata aggiornata il

Registrare un dominio e uno servizio di hosting WordPress con SiteGround

Altre guide della stessa
categoria

45 COMMENTI
Commenta
  1. Lu

    Ciao, ho un sito gestito con meberpress, per cui è tutto nascosto agl utenti non iscritti. Per evitare scansione e indicizzazione mi consigli di usare un file robots “User-agent: * Disallow: /”? Ho già selezionato “scoraggia i motori di ricerca” nelle impostazione di wordpress.

    Grazie

    Rispondi
    • Team

      Ciao Lu, dovrebbe bastare il selezionare “scoraggia i motori di ricerca” dalle impostazioni di WordPress. Puoi comunque inserire il codice che indichi nel file robots.txt. Un saluto!

      Rispondi
  2. Danilo

    Buongiorno,
    ho la necessità di disabilitare l’indicizzazione di alcune url: tutte quelle che finiscono per /2/
    esempio url da non far indicizzare: /migliori-programmi-per-convertire-audio-video-su-linux/2/

    ho parecchie url indicizzate in questo modo e non riesco a venirne a capo, vorrei inserire come direttiva questa stringa Disallow:/*2/

    è corretta?

    Grazie anticipatamente per la risposta.

    Rispondi
  3. Fabrizio

    Salve Andrea, ho da poco avuto modo di aprire un sito con wordpress e ho usato Yoast per generare la sitemap.
    Il problema è che quest’ultima mi da problemi da quando l’ho aggiunta alla console di google da 3 giorni, mi da diversi avvisi di URL bloccati da robots.txt e nessun elemento della sitemap risulta indicizzato. Il file robots che riesco a visualizzare dalla console è
    User-agent: *
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php
    Dovrei cambiare qualcosa?

    Rispondi
      • Fabrizio

        Ho letto tutto l’articolo e ho capito come editare il file robots.txt, ma non comprendo perchè con la configurazione di base il file debba bloccarmi gli URL.
        Cosa mi sta lititando in questa configurazione?
        User-agent: *
        Disallow: /wp-admin/
        Allow: /wp-admin/admin-ajax.php
        Dovrei semplicemente mettere “Disallow:” ?
        Grazie

        Rispondi
  4. Alice

    Ciao Andrea,
    Da search console utilizzando fetch as google, la scansione è avvenuta parzialmente perchè sembra che il robot txt stia bloccando qualcosa (scusa i termini, sono alle prime armi). è possibile questo anche se nel mio sito non era neanche presente un file robot txt? per sicurezza ne ho creato uno del genere con yoast seo.
    User-agent: *
    Disallow:

    Rispondi
  5. Daniela

    Ciao Andrea,
    ti chiedo un consiglio in merito ai file robots.
    Solitamente con i siti dei nostri clienti utilizziamo delle url di prova e con gli ultimi due mi è capitato che quando li crico online sulla url definitiva, google mantiene in memoria anche la url di prova dando errore 404.
    La mia domanda è per evirtare il problema della indicizzazione della url di prova posso utilizzare il file robots impostato su “Disallow: /” e modificare l’impostazione solo quando viene caricato nella url definitiva?
    Grazie mille
    daniela

    Rispondi
  6. sonia

    Ciao Andrea,
    mi risulta da un test che 5 pagine indicizzate del mio sito non son state trovate nella sitemap. Da che cosa può dipendere? Come posso intervenire. Grazie mille!

    Rispondi