il blog informativo italiano sul search marketing
30mar
Il file robots.txt è un file utilizzato per negare o autorizzare l'accesso agli spider dei motori di ricerca nel sito o in alcune pagine e risorse web.
Il file deve chiamarsi robots.txt e deve essere inserito nella root principale del sito: http://www.tuosito.com/robots.txt.
Il formato del file robots.txt
La formattazione e la semantica del file "/robots.txt è così come segue:
Il file consiste in uno o più linee e ogni record contiene linee formate da "
I commenti possono essere utilizzati inserendo il carattere '#' (usando codifica UNIX). Tutto ciò nel campo del carattere '#' non viene considerato dalla macchina che legge il file.
Il record inizia con la prima linea User-agent seguita da una linea Disallow come dettagliato appena qui sotto:
User-agent
- Il valore di questo campo è il nome del robot a cui il record sta descrivendo l'accesso.
- Se si inseriscono più robot, tutti i robot sottoscritti avranno lo stesso trattamento.
- Se si asegna il valore come '*' , nel campo user-agent tutti i robot avranno quella descrizione d'accesso.
Disallow
- Il valore di questo campo specifica una parte di URL che non deve essere visitata. Ad esempio: Disallow: /login
- Almeno un campo deve essere presente.
Sitemap
Il valore di questo campo serve per dire al robot dove si trova la sitemap del sito.
Non è un valore obbligatorio e se si ha più sitemap si possono inserire più linee.
Esempio:
Sitemap: http://www.miosito.com/sitemap.xml
E' da tenere conto che un file robots.txt vuoto sarà considerato come se non esistesse dai motori di ricerca, quindi i robots si consideranno "benvenuti" ad ogni file del sito.
Esempio chiarificatore di vari file robot
# robots.txt scritto da simone per http://www.esempio.com/
User-agent: *
Disallow: /admin/login/ # Questo è uno spazio virtuale infinito per URL
Disallow: /tmp/ # cartella temporanea
Disallow: /quelchetipare.html
Sitemap: http://www.miosito.com/sitemap.xml
Questo file robots specifica che nessun robot può visitare gli URL che iniziano per "/admin/login/" o "/tmp/" o la pagina /quelchetipare.html. Indica inoltre la location della sitemap.
Tutto quello nel campo scritto dopo "#" è solo un mio commento e non viene letto dai robots.
Ecco un caso più complesso con l'autorizzazione di uno o più robots:
# File robots.txt scritto da Simone per http://www.esempio.com/
User-agent: *
Disallow: /admin/login/ # Questo è uno spazio virtuale infinito per URL
Disallow: /tmp/ # cartella temporanea
Disallow: /quelchetipare.html
# Yahoo! può indicizzare tutto.
User-agent: Yahoo! Slurp
Disallow:
Il campo vuoto di disallow lascia entrare il robot di Yahoo! in tutti i file senza restrizioni.
Come utlimo esempio, un file robot che chiude la porta a tutti i bot dei motori di ricerca:
# non voglio il sito in nessun motore di ricerca
User-agent: *
Disallow: /
Questa guida è stata creata con il supporto di robotstxt.org. E' stata tradotta e rivista per voi.
Simone
Commenti
grazie mille, era l'info che cercavo... anche se a dire la verita non c9i ho molto capito...
Lascia un messaggio