SEO Tecnica
  4 min leggi
Sitemap XML: cos’è, come…
SEO Tester Online
24 Gennaio 2020

Sitemap XML: cos’è, come crearla ed inviarla a Google

In questo articolo vedremo cos’è una sitemap e come questa può aiutarti ad indicizzare il tuo sito web su Google.

Inoltre, scoprirai quali sono i diversi tipi di sitemap e quali sono gli step per inviarla a Google Search Console.

Che cos’è la sitemap?

Una sitemap è un file in cui puoi elencare le pagine del tuo sito web aiutando il crawler di Google e degli altri motori di ricerca a scansionare il tuo sito e ad indicizzare i contenuti al suo interno.

È necessaria una sitemap?

Si tratta di un elemento fondamentale per il tuo sito web, soprattutto se il sito sul quale stai lavorando ha una o più di queste caratteristiche:

  • è nuovo e di conseguenza ha pochi link che provengono da siti esterni;
  • contiene una sezione news (quindi nel caso in cui il sito viene aggiornato spesso);
  • è di grandi dimensioni (con oltre 500 pagine).

Esistono diverse tipologie di sitemap: vediamole nel dettaglio per capire quali sono le loro caratteristiche e come ci possono aiutare.

Quali tipologie di sitemap esistono?

Le tipologie di sitemap variano in base all’esigenza che hai ed a chi ti rivolgi. Vediamole!

Sitemap XML

Esempio di sitemap xml

È la tipologia più diffusa oggi e viene creata per aiutare i crawler come GoogleBot, per indicizzare i tuoi contenuti. Questo file consente ai motori di ricerca di “visualizzare” la struttura del tuo sito web.
La Sitemap XML ha però alcuni limiti che devono essere rispettati. Infatti, non possono essere inseriti più di 50.000 URL e il file non compresso non deve pesare più di 50MB. Possiamo inserire al suo interno, oltre l’elenco degli URL, anche altre informazioni utili al motore di ricerca, come:
– data dell’ultimo aggiornamento della pagina;
frequenza di aggiornamento;
priorità dell’URL rispetto ad altre pagine del sito.

Sitemap HTML

È un esempio di sitemap pensata esclusivamente per gli utenti. Contiene tutti gli URL del sito web e la sua utilità consiste nel semplificare la navigazione per l’utente, mappando la struttura del nostro sito. A differenza del formato XML, la sitemap HTML si presenta ben leggibile ad un utente normale e non ha nessuna finalità riguardo l’indicizzazione del sito.

Sitemap per news

Una tipologia che può esserti utile se hai sul tuo sito una sezione dedicata alle news. Se ti stai chiedendo come creare una sitemap specifica per Google News ti consigliamo di consultare la Guida ufficiale di Search Console.

Sitemap per immagini

È una sitemap pensata, come avrai intuito, per le immagini e i suoi contenuti correlati. Questa ti sarà utile per posizionarti nella sezione ricerca Immagini di Google e per aggiungere informazioni cruciali come:

  • URL
  • Luogo
  • Didascalia
  • Titolo

Puoi elencare fino a 1000 immagini per ogni pagina.

Sitemap per video

Google sta dando sempre più importanza ai contenuti video, che non solo vengono mostrati nell’apposita sezione durante la ricerca, ma stanno trovando sempre più spazio nella SERP principale.È importante in questo caso specificare informazioni come:

  • la categoria del video;
  • la sua durata;
  • il suo titolo;
  • l’URL.

Come creare una sitemap e quali strumenti usare

Creare una sitemap è molto semplice e ti spiegheremo qui di seguito come farlo in pochi minuti.

Se utilizzi WordPress, esistono vari plugin che svolgeranno questo lavoro automaticamente per te.

Il primo che ti consigliamo è Yoast SEO, uno strumento gratuito ed intuitivo. Quello che dovrai fare è installare il plugin, poi attivare le impostazioni avanzate ed infine attivare la funzionalità XML Sitemaps.

Yoast SEO Logo

Altro plugin che ti raccomandiamo è Google XML Sitemap. Questo non solo ti permette di creare gratuitamente la sitemap, ma segnala automaticamente ai motori di ricerca i nuovi contenuti.

E se non hai un sito web su WordPress?

Puoi affidarti anche a XML-Sitemaps. A differenza dei precedenti, non si tratta di un plugin, ma di una piattaforma che ti permette di creare gratuitamente la tua sitemap.

xml Sitemaps Logo

Come inviare la sitemap del tuo sito a Google

Una volta creata la sitemap, devi solo inviarla ed il lavoro è fatto!

Per farlo, ti basterà accedere a Google Search Console, uno strumento gratuito che ogni SEO Specialist dovrebbe conoscere e padroneggiare.

Attraverso Google Search Console potrai inviare la sitemap del tuo sito web in 3 semplici step.

  1. Accedi alla Search Console e seleziona il tuo sito web.
  2. Clicca sulla voce “Sitemap” (nella barra di navigazione a sinistra).
  3. Digita l’URL della sitemap nell’apposito campo ed invialo.

Hai caricato correttamente la Sitemap?

Ora che abbiamo visto a come creare una Sitemap, quali tipologie esistono e come inviarla a Google, devi verificare di averla caricata correttamente.

Puoi farlo gratuitamente dal nostro SEO Checker:

  1. Inserisci l’URL del tuo sito web.
  2. Vai nella scheda “Base”.
  3. Verifica di aver caricato correttamente la Sitemap XML alla voce “Sitemap”.

Controlla se hai caricato correttamente la Sitemap XML sul tuo sito.

Guida al file Robots.txt: cos’è e perché è così importante

In questo articolo, esploreremo il ruolo di robots.txt, un piccolo file che può fare la differenza tra l’avere un ranking alto e il languire sulle profondità più basse del SERP.

Che cos’è il file robots.txt

Il ruolo di robots.txt è quello di comunicare al crawler quali pagine può richiedere dal tuo sito. Attenzione, lo spider può ancora vederli. Semplicemente, non le scansionerà. Se vuoi nascondegli una pagina, è necessario fare affidamento sulle istruzioni noindex, come specificato dalla Guida di Search Console di Google.

Allora, perché hai bisogno di un file robots.txt? Perché grazie ad esso è possibile rendere la scansione più rapida e fluida ed evitare al server un eccesso di richieste da parte del crawler. È possibile escludere dalla scansione pagine duplicate o non essenziali che possono danneggiare il posizionamento.

Dove inserire robots.txt

Devi mettere il file robots.txt nella directory principale del tuo sito web in modo che il suo URL sia http://www.mywebsite.com/robots.txt.

Non metterlo altrove, o non funzionerà.

Come creare il file robots.txt

Crea un file .txt nella directory principale del tuo sito web e chiamalo “robots”. Ricorda che puoi avere un solo file robots.txt per sito.

Crea un gruppo

Crea il primo gruppo. Un file robots.txt può avere uno o più gruppi. 

Ogni gruppo ha una o più istruzioni (chiamate anche regole). Ricordati di utilizzare una sola istruzione per ogni riga.

Istruzioni robots.txt

Le istruzioni possono essere di tre tipi:

  1. user-agent: il crawler a cui si applica la regola.
  2. allow: tutti i file o le directory a cui il crawler può accedere.
  3. disallow: tutti i file o le directory a cui il crawler non può accedere.

Una regola deve includere uno o più (o tutti!) user-agent e almeno un’istruzione allow o disallow (o entrambe).

Esempi di Robots.txt

Ad esempio, per impedire a Googlebot di eseguire la scansione dell’intero sito web, devi scrivere nel file robots.txt:

#Prevent GoogleBot from scanning. (questo è un commento. Puoi scrivere quello che vuoi)

User-agent: googlebot

Disallow: /

Se invece vuoi escludere directory specifiche per tutti i crawler:

User-agent: * 
Disallow: /directory1
Disallow: /directory2

(l’asterisco significa “tutti”)

Puoi anche escludere tutte le directory tranne una a un crawler specifico:

User-agent: specific-crawler
Allow: /directory1
User-agent: * Allow: /

In questo modo, stai dicendo che ogni altro crawler può accedere all’intero sito web.

Infine, possiamo impedire la scansione di un formato di file specifico, ad esempio immagini jpg.

User-agent: *
Disallow: /*.jpg$

Il carattere $ stabilisce una regola valida per tutte le stringhe che terminano con .jpg.
Per vedere altri esempi, visita la guida di Google Search Console.

Studia la SEO Tecnica

La SEO Tecnica non è una materia semplice. Eppure, è fondamentale per fare SEO nel modo corretto.

Imparala leggendo la nostra guida per principianti alla SEO Tecnica.

Come creare URL SEO-friendly

Probabilmente sai già che l’URL (Unique Resource Locator) è l’indirizzo di casa del tuo sito. È quello che digitiamo sulla barra degli indirizzi del nostro browser quando vogliamo accedere a un sito web.

Una cosa che potresti non sapere è che gli URL influenzano anche SEO.

In questo articolo, scoprirai come ottimizzare gli URL per la SEO e trasformarli in alleati per il tuo posizionamento.

L’importanza di un URL SEO-Friendly

Un URL SEO-Friendly è un indirizzo web che aiuta l’utente a ricordare l’indirizzo e capire la logica dell’organizzazione del sito web. Quest’ultimo aspetto è essenziale anche per il crawler.

Un URL SEO corretto aiuta il crawler a capire cosa l’utente può trovare su quella pagina. In questo modo, può rendere la pagina disponibile per la query giusta.

Come creare la struttura di un URL SEO

Un URL SEO corretto deve essere descrittivo del percorso della pagina e della struttura del sito. Inoltre, deve dire all’utente (e allo spider) cosa troverà.

Qualcosa di simile a:

http:///www.mywebsite.com/category/keyword.html

Esempi di URL SEO-friendly

Prendi l’URL del nostro SEO Checker:

https://www.seotesteronline.com/seo-checker/

Vedi? È semplice: ci sono il nostro nome e lo strumento che troverai.

Un altro esempio viene dalla nostra knowledge base.

https://help.seotesteronline.com/knowledge-base/keyword-explorer/what-is-keyword-explorer/

Il nostro sottodominio (help) ti dice che lì puoi trovare aiuto. Dove? Su seotesteronline.com.

Quello che segue ti dice che sei all’interno della knowledge base, nella sezione dedicata a keyword explorer.

E cosa troverai lì? Lo capisci dall’ultimo pezzo!

Cos’è lo slug e come renderlo SEO-friendly

L’ultimo frammento dell’URL (what-is-keyword-explorer) è denominato slug. È l’elemento riferito alla pagina. Il nostro consiglio è quello di utilizzare, per lo slug, la parola chiave principale che hai scelto per quella pagina.

Controlla il tuo URL SEO-friendly

Per riassumere, ecco una comoda lista di controllo per creare URL SEO-friendly perfetti:

  • Rendili descrittivi del contenuto e della struttura del sito;
  • Utilizza parole chiave pertinenti, in particolare nello slug;
  • Usa i sottodomini in modo responsabile: il crawler può considerare i sottodomini come siti web separati, disperdendo i tuoi sforzi SEO;

Gli URL devono essere facili da leggere sia per gli utenti che per i crawler. Quindi tieni d’occhio la lunghezza dell’URL, evita di mettere troppe sottocartelle o caratteri speciali (come quelli negli URL dinamici).

Guida ai codici di stato HTTP

I codici di stato HTTP sono messaggi standard che intercorrono tra il client e il server quando comunicano tramite il protocollo HTTP (che sta per hypertext transfer protocol).

Ad esempio, quando tu (il client) fai clic su un collegamento o digita un URL sulla barra degli indirizzi, non fai altro che inviare una richiesta al server. Gli stai chiedendo di trasmettere al tuo browser il contenuto della pagina web che vuoi visualizzare. La “lingua” di questa richiesta è il HTTP. La risposta che si ottiene dal server è, oltre l’eventuale contenuto, un codice a tre cifre chiamato codice di stato http.

In questo articolo vedremo quali sono i codici di stato http più comuni.

I codici si dividono in cinque classi:

  • risposte informative;
  • risposte riuscite;
  • reindirizzare le informazioni;
  • risposte di errore del client;
  • risposte di errore del server.

Codici di stato http 100 (risposte informative)

Questi codici ci dicono che il server ha ricevuto la richiesta, e la sta elaborando. La risposta può essere:

  • 100 (continue): il server ha ricevuto l’header della richiesta (le informazioni preliminari). Il client quindi può continuare a inviare il corpo della richiesta (il payload di dati);
  • 101 (switching protocols): il server ha ricevuto la richiesta del client di cambiare protocollo.
  • 102 (processing): il server ha ricevuto la richiesta, ma non può ancora rispondere. È una risposta data per evitare che la connessione vada in timeout.

Codici di stato HTTP 200 (risposte di avvenuto successo)

Le risposte di avvenuto successo iniziano con il numero due. Significano che il server ha ricevuto la richiesta e l’ha accettata:

  • 200 (OK): è la risposta generica di comunicazione avvenuta correttamente;
  • 201 (Created): il server ha creato la risorsa richiesta;
  • 202 (Accepted): il server ha accettato la richiesta, ma sta ancora lavorando per restituire la risposta.
  • 203 (Non-Authoritative information): uguale a 200. Un transformation proxy ha ricevuto la richiesta. Questo, a sua volta, restituisce una risposta modificata.
  • 204 (No Content): il server ha elaborato correttamente la richiesta e non ha restituito alcun contenuto.
  • 205 (Reset Content): Uguale a 204. Inoltre, la risposta richiede il reset della visualizzazione del documento da parte del richiedente.
  • 206 (Partial Content): il server restituisce solo una parte della risorsa richiesta dal client. Questo a causa del range header inviato dal client. Il suo ruolo è quello di frazionare un grande download in pacchetti più piccoli, da scaricare simultaneamente.
  • 207 (Multi-Status): si tratta di una risposta a più richieste. Indica che il corpo include i codici di risposta precedenti.
  • 208 (Already Reported): utilizzato nelle risposte DAV.  Indica che un precedente codice 207 riporta le singole risposte.

Codici di stato HTTP 300 (redirect)

Questi codici di stato indicano che il server deve eseguire un’azione aggiuntiva per completare la richiesta, ad esempio il redirect.

Il redirect è essenziale nella SEO. Possiamo impostare questa funzione per dire al browser che la risorsa non è più nell’URL originale. È utile quando eliminiamo una pagina e vogliamo reindirizzare l’utente a una pagina 404.

Un altro motivo potrebbe essere la modifica della struttura dell’URL o del dominio.

  • 300 (Multiple Choices): il client dispone di più opzioni, ad esempio per quanto riguarda il formato in cui scaricare la risorsa richiesta.
  • 301 (Moved permanently): il client deve indirizzare la richiesta (e tutte le richieste future) a un altro URI.
  • 302 (Found): può essere utilizzato per indicare un redirect temporaneo o per indicare al client di cercare un altro URL.
  • 303 (See Other): il client può trovare la risorsa richiesta in un altro URI.
  • 304 (Not Modified): il client possiede già la risorsa richiesta. Il server non è in grado di fornire una versione più aggiornata.
  • 305 (Use Proxy): la risorsa richiesta è disponibile tramite un proxy.
  • 307 (Temporary Redirect): Uguale a 302.
  • 308 (Permanent Redirect): uguale a 301.

Codici di stato HTTP 400 (errori client)

Questo codice indica un errore che riguarda il client.

Può trattarsi di una richiesta non valida, di una risorsa richiesta non trovata o di una mancanza di privilegi per accedervi.

La risposta deve includere nel suo corpo una spiegazione dell’errore e se è temporanea o permanente.

  • 400 (Bad Request): il server non è in grado di elaborare la richiesta. Potrebbe essere a causa di un errore di sintassi, dimensione eccessiva o una richiesta non valida.
  • 401 (Unauthorized): il client non può accedere alla risorsa richiesta. L’autenticazione non è riuscita o non è possibile eseguire l’autenticazione.
  • 403 (Forbidden): a differenza di 401, il client si è autenticato, ma il server si rifiuta di elaborarlo comunque.
  • 404 (Not found): il codice di risposta più famoso. Il server non ha trovato la risorsa richiesta. Tuttavia, questa potrebbe essere disponibile in futuro.
  • 405 (Method Not Allowed): il client ha inviato la richiesta utilizzando un metodo non valido. Ad esempio, quando si utilizza un GET ma si dovrebbe usare un POST. Vuoi saperne di più sui metodi http?
  • 406 (Not Acceptable): il server può generare la risorsa richiesta, ma il formato non è tra quelli accettati dal client.
  • 407 (Proxy Authentication): il client deve autenticarsi con il proxy.
  • 408 (Request Timeout): timeout del server durante l’attesa della richiesta.
  • 409 (Conflict): la richiesta non può essere elaborata a causa di un conflitto in corso tra versioni diverse della stessa risorsa. Può verificarsi quando più client cercano di modificare la stessa risorsa contemporaneamente.
  • 410 (Gone): la risorsa richiesta non è disponibile. A differenza di 404, la risorsa in questione non sarà disponibile nemmeno in futuro.
  • 411 (Length required): la richiesta non contiene un’indicazione della lunghezza del contenuto come previsto dalla risorsa.
  • 412 (Precondition Failed): il server non è in grado di elaborare le richieste. Non possiede uno dei presupposti specificati nella richiesta.
  • 413 (Request Entity Too Large): la richiesta è troppo grande per il server e non può gestirla.
  • 414 (URI Too Long): l’URI contenuto nella richiesta è troppo grande per essere elaborato dal server.
  • 415 (Unsupported Media Type): il client ha richiesto una risorsa in un formato non supportato dal server.
  • 416 (Range Not Satisfiable): il client ha richiesto un frammento di file, ma il server non è in grado di soddisfare la richiesta.
  • 417 (Expectation Failed): il server non è in grado di soddisfare i requisiti contenuti nell’intestazione della richiesta.
  • 418 (I’m a teapot): È un codice-burla della IETF.
  • 420 (Enhance your calm): utilizzato dalle API di Twitter per indicare che il client ha effettuato troppe richieste in lasso di tempo troppo breve.
  • 421 (Misdirected request): il server che ha ricevuto la richiesta non può elaborarla.
  • 422 (Unprocessable Entity): un errore semantico impedisce al server di elaborare la richiesta.
  • 423 (Locked): il client non può accedere alla risorsa perché è bloccata.
  • 426 (Upgrade required): il client deve utilizzare un protocollo di sicurezza più aggiornato.
  • 429 (Too Many Requests): il client ha inviato troppe richieste troppo velocemente.
  • 451 (Not Available for Legal Reasons): il client ha richiesto una risorsa il cui accesso è limitato dalla censura o dalla richiesta di un governo. Potrebbe essere un riferimento a Fahrenheit 451 di Ray Bradbury.

500 codici di stato HTTP

500 codici di stato indicano errori del server. Significa che la richiesta del client è corretta, ma il server non può eseguirla.

  • 500 (Internal server error): messaggio di errore generico, errore imprevisto.
  • 501 (Not implemented): il server non è in grado di riconoscere il metodo di richiesta o non è in grado di eseguirla al momento.
  • 502 (Bad Gateway): il server che ha restituito la risposta funge da proxy. Il server in upstream ha inviato una risposta non valida.
  • 503 (Server Unavailable): il server non può soddisfare la richiesta al momento perché è inattivo. Ad esempio, perché è in fase di manutenzione. 

Quali codici sono essenziali per SEO

Alcuni codici sono più importanti di altri in SEO perché  possono influenzare la classifica.

Possiamo ordinarli in tre gruppi.

Found

Include solo il codice 200. Indica che la pagina è stata trovata all’URL indicato, come previsto.

Redirect

Include i codici 301,302, 303. Essi indicano che la risorsa è altrove, temporaneamente o permanentemente. La loro corretta attuazione è fondamentale per non incorrere in penalizzazioni.

Not found

Un codice di stato HTTP 404 provoca una scansione non uniforme, e quindi il ranking dell’intero sito web può soffrirne.

Scopri quali codici restituisce il tuo sito web

Per scoprire cosa codifica le pagine all’interno di un sito web restituisce, esegui la sua scansione con il SEO Spider.

Screen SEO Spider

Basta inserire l’URL che si desidera analizzare. Quindi, nel menu a sinistra, sotto Struttura, seleziona Status. Puoi anche filtrarli in base ai gruppi sopramenzionati.