01set

Robots.txt – Guida su come creare un file robot per i motori di ricerca

Scritto da Simone Luciani in SEO di Base

Il file robots.txt è un file utilizzato per negare o autorizzare l’accesso agli spider dei motori di ricerca nel sito o in alcune pagine e risorse web.

Il file deve chiamarsi robots.txt e deve essere inserito nella root principale del sito: http://www.tuosito.com/robots.txt.

Il formato del file robots.txt

La formattazione e la semantica del file “/robots.txt è così come segue:

Il file consiste in uno o più linee e ogni record contiene linee formate da “:”. Il nome del campo è case insensitive (puoi usare sia il maiuscolo o il minuscolo).

I commenti possono essere utilizzati inserendo il carattere  ‘#’ (usando codifica UNIX). Tutto ciò nel campo del carattere  ‘#’ non viene considerato dalla macchina che legge il file.

Il record inizia con la prima linea User-agent seguita da una linea Disallow come dettagliato appena qui sotto:

User-agent

- Il valore di questo campo è il nome del robot a cui il record sta descrivendo l’accesso.
- Se si inseriscono più robot, tutti i robot sottoscritti avranno lo stesso trattamento.
- Se si asegna il valore come ‘*’ , nel campo user-agent tutti i robot avranno quella descrizione d’accesso.

Disallow

- Il valore di questo campo specifica una parte di URL che non deve essere visitata. Ad esempio: Disallow: /login
- Almeno un campo deve essere presente.

Sitemap

Il valore di questo campo serve per dire al robot dove si trova la sitemap del sito.
Non è un valore obbligatorio e se si ha più sitemap si possono inserire più linee.

Esempio:
Sitemap: http://www.miosito.com/sitemap.xml

E’ da tenere conto che un file robots.txt vuoto sarà considerato come se non esistesse dai motori di ricerca, quindi i robots si consideranno “benvenuti” ad ogni file del sito.

Esempi chiarificatrici di vari file robot

# robots.txt scritto da simone per http://www.esempio.com/

User-agent: *
Disallow: /admin/login/ # Questo è uno spazio virtuale infinito per URL
Disallow: /tmp/ # cartella temporanea
Disallow: /quelchetipare.html
Sitemap: http://www.miosito.com/sitemap.xml

Questo file robots specifica che nessun robot può visitare gli URL che iniziano per “/admin/login/” o “/tmp/” o la pagina  /quelchetipare.html. Indica inoltre la location della sitemap.

Tutto quello nel campo scritto dopo “#” è solo un mio commento e non viene letto dai robots.

Ecco un caso più complesso con l’autorizzazione di uno o più robots:

# File robots.txt scritto da Simone per  http://www.esempio.com/

User-agent: *
Disallow: /admin/login/ # Questo è uno spazio virtuale infinito per URL
Disallow: /tmp/ # cartella temporanea
Disallow: /quelchetipare.html

# Yahoo! può indicizzare tutto.
User-agent: Yahoo! Slurp
Disallow:

Il campo vuoto di disallow lascia entrare il robot di Yahoo! in tutti i file senza restrizioni.

Come utlimo esempio, un file robot che chiude la porta a tutti i bot dei motori di ricerca:

# non voglio il sito in nessun motore di ricerca
User-agent: *
Disallow: /

Condividi questo articolo:
  • Print this article!
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • RSS
  • Segnalo
  • Technorati
  • Twitter
  • Wikio IT
  • Yahoo! Bookmarks

Articoli correlati:

  1. Se google non trova il file robots.txt non indicizza il sito
  2. La User Experience protagonista nel PPC dei motori di ricerca
  3. Guida SEO per Ottimizzare siti in Drupal

1 Responsta a Robots.txt – Guida su come creare un file robot per i motori di ricerca

Mobile SEO prime riflessioni « Stefano Dindo

maggio 8th, 2010 at 17:39

[...] robot.txt: guida al corretto utilizzo del file robot.txt necessario per indicare chi e quali contenuti o [...]

Invia il tuo commento

Calendario

settembre: 2010
L M M G V S D
« mag    
 12345
6789101112
13141516171819
20212223242526
27282930  

Sponsor

Advertising