01set
Robots.txt – Guida su come creare un file robot per i motori di ricerca
Scritto da Simone Luciani in SEO di Base
Il file robots.txt è un file utilizzato per negare o autorizzare l’accesso agli spider dei motori di ricerca nel sito o in alcune pagine e risorse web.
Il file deve chiamarsi robots.txt e deve essere inserito nella root principale del sito: http://www.tuosito.com/robots.txt.
Il formato del file robots.txt
La formattazione e la semantica del file “/robots.txt è così come segue:
Il file consiste in uno o più linee e ogni record contiene linee formate da “:”. Il nome del campo è case insensitive (puoi usare sia il maiuscolo o il minuscolo).
I commenti possono essere utilizzati inserendo il carattere ‘#’ (usando codifica UNIX). Tutto ciò nel campo del carattere ‘#’ non viene considerato dalla macchina che legge il file.
Il record inizia con la prima linea User-agent seguita da una linea Disallow come dettagliato appena qui sotto:
User-agent
- Il valore di questo campo è il nome del robot a cui il record sta descrivendo l’accesso.
- Se si inseriscono più robot, tutti i robot sottoscritti avranno lo stesso trattamento.
- Se si asegna il valore come ‘*’ , nel campo user-agent tutti i robot avranno quella descrizione d’accesso.
Disallow
- Il valore di questo campo specifica una parte di URL che non deve essere visitata. Ad esempio: Disallow: /login
- Almeno un campo deve essere presente.
Sitemap
Il valore di questo campo serve per dire al robot dove si trova la sitemap del sito.
Non è un valore obbligatorio e se si ha più sitemap si possono inserire più linee.
Esempio:
Sitemap: http://www.miosito.com/sitemap.xml
E’ da tenere conto che un file robots.txt vuoto sarà considerato come se non esistesse dai motori di ricerca, quindi i robots si consideranno “benvenuti” ad ogni file del sito.
Esempi chiarificatrici di vari file robot
# robots.txt scritto da simone per http://www.esempio.com/
User-agent: *
Disallow: /admin/login/ # Questo è uno spazio virtuale infinito per URL
Disallow: /tmp/ # cartella temporanea
Disallow: /quelchetipare.html
Sitemap: http://www.miosito.com/sitemap.xml
Questo file robots specifica che nessun robot può visitare gli URL che iniziano per “/admin/login/” o “/tmp/” o la pagina /quelchetipare.html. Indica inoltre la location della sitemap.
Tutto quello nel campo scritto dopo “#” è solo un mio commento e non viene letto dai robots.
Ecco un caso più complesso con l’autorizzazione di uno o più robots:
# File robots.txt scritto da Simone per http://www.esempio.com/
User-agent: *
Disallow: /admin/login/ # Questo è uno spazio virtuale infinito per URL
Disallow: /tmp/ # cartella temporanea
Disallow: /quelchetipare.html
# Yahoo! può indicizzare tutto.
User-agent: Yahoo! Slurp
Disallow:
Il campo vuoto di disallow lascia entrare il robot di Yahoo! in tutti i file senza restrizioni.
Come utlimo esempio, un file robot che chiude la porta a tutti i bot dei motori di ricerca:
# non voglio il sito in nessun motore di ricerca
User-agent: *
Disallow: /
Articoli correlati:
- Tags: creare robots, file robots, robots, robots.txt


















1 Responsta a Robots.txt – Guida su come creare un file robot per i motori di ricerca
Mobile SEO prime riflessioni « Stefano Dindo
maggio 8th, 2010 at 17:39
[...] robot.txt: guida al corretto utilizzo del file robot.txt necessario per indicare chi e quali contenuti o [...]