01set

Robots.txt – Guida su come creare un file robot per i motori di ricerca

Scritto da Simone Luciani in SEO di Base

Il file robots.txt è un file utilizzato per negare o autorizzare l’accesso agli spider dei motori di ricerca nel sito o in alcune pagine e risorse web.

Il file deve chiamarsi robots.txt e deve essere inserito nella root principale del sito: http://www.tuosito.com/robots.txt.

Il formato del file robots.txt

La formattazione e la semantica del file “/robots.txt è così come segue:

Il file consiste in uno o più linee e ogni record contiene linee formate da “:”. Il nome del campo è case insensitive (puoi usare sia il maiuscolo o il minuscolo).

I commenti possono essere utilizzati inserendo il carattere  ‘#’ (usando codifica UNIX). Tutto ciò nel campo del carattere  ‘#’ non viene considerato dalla macchina che legge il file.

Il record inizia con la prima linea User-agent seguita da una linea Disallow come dettagliato appena qui sotto:

User-agent

- Il valore di questo campo è il nome del robot a cui il record sta descrivendo l’accesso.
- Se si inseriscono più robot, tutti i robot sottoscritti avranno lo stesso trattamento.
- Se si asegna il valore come ‘*’ , nel campo user-agent tutti i robot avranno quella descrizione d’accesso.

Disallow

- Il valore di questo campo specifica una parte di URL che non deve essere visitata. Ad esempio: Disallow: /login
- Almeno un campo deve essere presente.

Sitemap

Il valore di questo campo serve per dire al robot dove si trova la sitemap del sito.
Non è un valore obbligatorio e se si ha più sitemap si possono inserire più linee.

Esempio:
Sitemap: http://www.miosito.com/sitemap.xml

E’ da tenere conto che un file robots.txt vuoto sarà considerato come se non esistesse dai motori di ricerca, quindi i robots si consideranno “benvenuti” ad ogni file del sito.

Esempi chiarificatrici di vari file robot

# robots.txt scritto da simone per http://www.esempio.com/

User-agent: *
Disallow: /admin/login/ # Questo è uno spazio virtuale infinito per URL
Disallow: /tmp/ # cartella temporanea
Disallow: /quelchetipare.html
Sitemap: http://www.miosito.com/sitemap.xml

Questo file robots specifica che nessun robot può visitare gli URL che iniziano per “/admin/login/” o “/tmp/” o la pagina  /quelchetipare.html. Indica inoltre la location della sitemap.

Tutto quello nel campo scritto dopo “#” è solo un mio commento e non viene letto dai robots.

Ecco un caso più complesso con l’autorizzazione di uno o più robots:

# File robots.txt scritto da Simone per  http://www.esempio.com/

User-agent: *
Disallow: /admin/login/ # Questo è uno spazio virtuale infinito per URL
Disallow: /tmp/ # cartella temporanea
Disallow: /quelchetipare.html

# Yahoo! può indicizzare tutto.
User-agent: Yahoo! Slurp
Disallow:

Il campo vuoto di disallow lascia entrare il robot di Yahoo! in tutti i file senza restrizioni.

Come utlimo esempio, un file robot che chiude la porta a tutti i bot dei motori di ricerca:

# non voglio il sito in nessun motore di ricerca
User-agent: *
Disallow: /

Condividi questo articolo:
  • Print this article!
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • RSS
  • Segnalo
  • Technorati
  • Twitter
  • Wikio IT
  • Yahoo! Bookmarks

Articoli correlati:

  1. Se google non trova il file robots.txt non indicizza il sito
  2. La User Experience protagonista nel PPC dei motori di ricerca
  3. Guida SEO per Ottimizzare siti in Drupal

Invia il tuo commento

Seguimi

Unisciti a Noi

Calendario

marzo: 2010
L M M G V S D
« dic    
1234567
891011121314
15161718192021
22232425262728
293031  

Sponsor

Advertising