SEO Tecnica
 | 13 Dicembre, 2019

Guida al file Robots.txt: cos’è e perché è così importante

 scritto da:
SEO Tester Online
 @seotesteronline
2 min
Indice

In questo articolo, esploreremo il ruolo di robots.txt, un piccolo file che può fare la differenza tra l’avere un ranking alto e il languire sulle profondità più basse del SERP.

Che cos’è il file robots.txt

Il ruolo di robots.txt è quello di comunicare al crawler quali pagine può richiedere dal tuo sito. Attenzione, lo spider può ancora vederli. Semplicemente, non le scansionerà. Se vuoi nascondegli una pagina, è necessario fare affidamento sulle istruzioni noindex, come specificato dalla Guida di Search Console di Google.

Allora, perché hai bisogno di un file robots.txt? Perché grazie ad esso è possibile rendere la scansione più rapida e fluida ed evitare al server un eccesso di richieste da parte del crawler. È possibile escludere dalla scansione pagine duplicate o non essenziali che possono danneggiare il posizionamento.

Dove inserire robots.txt

Devi mettere il file robots.txt nella directory principale del tuo sito web in modo che il suo URL sia http://www.mywebsite.com/robots.txt.

Non metterlo altrove, o non funzionerà.

Come creare il file robots.txt

Crea un file .txt nella directory principale del tuo sito web e chiamalo “robots”. Ricorda che puoi avere un solo file robots.txt per sito.

Crea un gruppo

Crea il primo gruppo. Un file robots.txt può avere uno o più gruppi. 

Ogni gruppo ha una o più istruzioni (chiamate anche regole). Ricordati di utilizzare una sola istruzione per ogni riga.

Istruzioni robots.txt

Le istruzioni possono essere di tre tipi:

  1. user-agent: il crawler a cui si applica la regola.
  2. allow: tutti i file o le directory a cui il crawler può accedere.
  3. disallow: tutti i file o le directory a cui il crawler non può accedere.

Una regola deve includere uno o più (o tutti!) user-agent e almeno un’istruzione allow o disallow (o entrambe).

Esempi di Robots.txt

Ad esempio, per impedire a Googlebot di eseguire la scansione dell’intero sito web, devi scrivere nel file robots.txt:

#Prevent GoogleBot from scanning. (questo è un commento. Puoi scrivere quello che vuoi)

User-agent: googlebot

Disallow: /

Se invece vuoi escludere directory specifiche per tutti i crawler:

User-agent: * 
Disallow: /directory1
Disallow: /directory2

(l’asterisco significa “tutti”)

Puoi anche escludere tutte le directory tranne una a un crawler specifico:

User-agent: specific-crawler
Allow: /directory1
User-agent: * Allow: /

In questo modo, stai dicendo che ogni altro crawler può accedere all’intero sito web.

Infine, possiamo impedire la scansione di un formato di file specifico, ad esempio immagini jpg.

User-agent: *
Disallow: /*.jpg$

Il carattere $ stabilisce una regola valida per tutte le stringhe che terminano con .jpg.
Per vedere altri esempi, visita la guida di Google Search Console.

Studia la SEO Tecnica

La SEO Tecnica non è una materia semplice. Eppure, è fondamentale per fare SEO nel modo corretto.

Imparala leggendo la nostra guida per principianti alla SEO Tecnica.

SEO Tester Online
Studia la SEO e scopri come portare il tuo sito web in prima posizione.

Lascia una recensione

avatar
  Subscribe  
Notificami
Articoli correlati
Share via
Copy link
Powered by Social Snap