compilare robots txt

Come scrivere il robots.txt

Come ho scritto in un precedente articolo il file robots.txt è il file che indica al motore di ricerca come entrare nel vostro sito. Ovvero dice al crawler (o spider) quali parti del vostro sito deve indicizzare e quali no. Comincio col dire che il robots.txt è un semplice file di testo (come indica la sua estensione) e che la sua programmazione è molto semplice. L’importante è salvarlo nella root (la cartella principale) del sito, perchè altrimenti diventa inutile.

Quando si comincia a costruire un sito il robots deve essere chiuso, in questo modo il sito non verrà indicizzato dal motore di ricerca fino al suo completamento. Per essere chiuso deve presentarsi in questo modo:


User-agent: *

Disallow: /

Se state usando wordpress dovete anche andare in Impostazioni > privacy e selezionare l’opzione “Bloccare i motori di ricerca ma permettere l’accesso ai normali visitatori”.

Una volta terminato il sito bisogna cominciare a farlo conoscere ai motori di ricerca, quindi è necessario aprire il robots trasformandolo in questo modo:


User-agent: *

Disallow:

E se usate wordpress, dopo aver aperto il robots, selezionare in impostazioni > privacy “Questo sito deve essere visibile da chiunque, compresi i motori di ricerca (come Google, Bing, Technorati) e gli archiviatori”.

Adesso tutto il vostro sito è indicizzabile, ma potreste anche decidere che alcune parti di esso non devono comparire fra i risultati di ricerca, per fare in modo che sia così occorre scrivere il robots in questo modo:

Per bloccare una directory intera e il suo contenuto

User-agent: *

Disallow: /nomecartella/

Per bloccare una pagina specifica e il suo contenuto

User-agent: *

Disallow: /nomepagina.html

Inoltre nel robots.txt potete segnalare la sitemap.xml (che ogni buon sito dovrebbe avere). La sitemap.xml serve sempre al motore di ricerca per comprendere la gerarchia delle pagine e ai webmaster per segnalare tutte le URL del sito. Nel robots.txt la segnalazione avviene così


Sitemap: http://www.nomesito.it/sitemap.xml

User-agent: *

Disallow:

Naturalmente l’indirizzo è indicativo e dipende da dove si trova la vostra sitemap.xml, seppure sia sempre consigliabile inserirla nella root come il robots.

Una volta compiute queste azioni si può cominciare a monitorare l’andamento dell’indicizzazione utilizzando gli operatori che i motori di ricerca ci mettono a disposizione. Ad esempio con site:www.nomesito.it vedrete tutte le pagine indicizzate corrispondenti a quel dominio. Se non ne compare nessuna, dopo un paio di giorni dalla pubblicazione del sito, vuol dire che c’è qualche errore. Anche qui Google ci viene in soccorso, infatti attraverso Webmaster Tool,  ovvero lo strumento gratuito per i webmaster, è possibile eseguire un’analisi completa del nostro sito. Il primo passo è provare a Google che siamo i legittimi proprietari del sito, ci sono vari modi per farlo, il più semplice è scaricare il file che ci viene indicato al momento della registrazione e caricarlo nella root, dopo pochi minuti verremo riconosciuti e avremo accesso alle varie funzionalità.

Innanzitutto si può segnalare la sitemap, è sufficiente inserire il link dove la si può trovare. Poi è possibile verificare l’accesso dei crawler, ovvero se il nostro file robots.txt è scritto nella maniera giusta. Poi attraverso la sezione Diagnostica è possibile riscontrare tutti gli errori, dai malware, ai title e description troppo corti o assenti. Insomma, una serie di strumenti tutti da scoprire e che man mano che passerà il tempo vi daranno sempre più informazioni, infatti, ad esempio, per analizzare le query di ricerca è necessario che il vostro sito sia online da un po’ di tempo.

Un altro strumento utile per chi ha un sito è Google Analytics, anche qui si possono controllare le statistiche di accesso al vostro sito, con quali parole chiave viene trovato, da dove viene linkato e molto altro ancora. La prima cosa da fare affinché Analytics funzioni è inserire il codice di tracciamento che vi viene dato in fase di registrazione all’interno di tutte le pagine del sito. Di solito si inserisce o subito prima della chiusura del tag </body>.

 

Pubblicato in SEO news.