Robots.txt – Guida su come creare un file robot per i motori di ricerca

Il file robots.txt è un file utilizzato per negare o autorizzare l’accesso agli spider dei motori di ricerca nel sito o in alcune pagine e risorse web.

Il file deve chiamarsi robots.txt e deve essere inserito nella root principale del sito: http://www.tuosito.com/robots.txt.

Il formato del file robots.txt

La formattazione e la semantica del file “/robots.txt è così come segue:

Il file consiste in uno o più linee e ogni record contiene linee formate da “:”. Il nome del campo è case insensitive (puoi usare sia il maiuscolo o il minuscolo).

I commenti possono essere utilizzati inserendo il carattere  ‘#’ (usando codifica UNIX). Tutto ciò nel campo del carattere  ‘#’ non viene considerato dalla macchina che legge il file.

Il record inizia con la prima linea User-agent seguita da una linea Disallow come dettagliato appena qui sotto:

User-agent

– Il valore di questo campo è il nome del robot a cui il record sta descrivendo l’accesso.
– Se si inseriscono più robot, tutti i robot sottoscritti avranno lo stesso trattamento.
– Se si asegna il valore come ‘*’ , nel campo user-agent tutti i robot avranno quella descrizione d’accesso.

Disallow

– Il valore di questo campo specifica una parte di URL che non deve essere visitata. Ad esempio: Disallow: /login
– Almeno un campo deve essere presente.

Sitemap

Il valore di questo campo serve per dire al robot dove si trova la sitemap del sito.
Non è un valore obbligatorio e se si ha più sitemap si possono inserire più linee.

Esempio:
Sitemap: http://www.miosito.com/sitemap.xml

E’ da tenere conto che un file robots.txt vuoto sarà considerato come se non esistesse dai motori di ricerca, quindi i robots si consideranno “benvenuti” ad ogni file del sito.

Esempi chiarificatrici di vari file robot

# robots.txt scritto da simone per http://www.esempio.com/

User-agent: *
Disallow: /admin/login/ # Questo è uno spazio virtuale infinito per URL
Disallow: /tmp/ # cartella temporanea
Disallow: /quelchetipare.html
Sitemap: http://www.miosito.com/sitemap.xml

Questo file robots specifica che nessun robot può visitare gli URL che iniziano per “/admin/login/” o “/tmp/” o la pagina  /quelchetipare.html. Indica inoltre la location della sitemap.

Tutto quello nel campo scritto dopo “#” è solo un mio commento e non viene letto dai robots.

Ecco un caso più complesso con l’autorizzazione di uno o più robots:

# File robots.txt scritto da Simone per  http://www.esempio.com/

User-agent: *
Disallow: /admin/login/ # Questo è uno spazio virtuale infinito per URL
Disallow: /tmp/ # cartella temporanea
Disallow: /quelchetipare.html

# Yahoo! può indicizzare tutto.
User-agent: Yahoo! Slurp
Disallow:

Il campo vuoto di disallow lascia entrare il robot di Yahoo! in tutti i file senza restrizioni.

Come utlimo esempio, un file robot che chiude la porta a tutti i bot dei motori di ricerca:

# non voglio il sito in nessun motore di ricerca
User-agent: *
Disallow: /

  • http://www.onlinecasinoselite.com/it/ Guida

    Ho creato una sitemap per google ed una per bing, mi chiedo se sia possibile escludere la scansione da parte di google bot della sitemap fatta per bing tramite robots.txt. Intendo qualcosa tipo:

    User-agent: Googlebot
    disallow: /bing-sitemap.xml

  • http://www.respawn.it/sito/ Nino

    Grazie mille dell’articolo!