Archivio tag: file robots

Robots.txt – Guida su come creare un file robot per i motori di ricerca

Il file robots.txt è un file utilizzato per negare o autorizzare l’accesso agli spider dei motori di ricerca nel sito o in alcune pagine e risorse web.

Il file deve chiamarsi robots.txt e deve essere inserito nella root principale del sito: http://www.tuosito.com/robots.txt.

Il formato del file robots.txt

La formattazione e la semantica del file “/robots.txt è così come segue:

Il file consiste in uno o più linee e ogni record contiene linee formate da “:”. Il nome del campo è case insensitive (puoi usare sia il maiuscolo o il minuscolo).

I commenti possono essere utilizzati inserendo il carattere  ‘#’ (usando codifica UNIX). Tutto ciò nel campo del carattere  ‘#’ non viene considerato dalla macchina che legge il file. Continua a leggere

Se google non trova il file robots.txt non indicizza il sito

Attenzione: questa notizia è vecchia e proviene dal vecchio database di RankFirst.

Ha del clamoroso questa notizia, che ho trovato spulciando alcuni blog di Search Marketing americani. Google ha fatto sapere che se il file robots.txt non è raggiungibile dal bot, potrebbe non indicizzare l’intero sito. Per non raggiungibile si intende una risposta del server con un time out durante il passaggio di Googlebot. Ma che assurdità è questa, vi chiederete, e mi sono chiesto prima di approfondire l’argomento.

Un responsabile di Google, John Mueller, ha detto che questa scelta è dovuta ad una politica di “sicurezza”. Se Google non può leggere il file che dice a Googlebot cosa non indicizzare, allora il bot escludi per sicurezza l’intero sito. Pensandoci bene il ragionamento non è poi così sbagliato.

Se Google non riesce a leggere cosa è “proibito” indicizzare, non può rischiare di indicizzare file che potrebbero essere esclusi dal passaggio del bot, volutamente dal webmaster.

Come ho specificato all’inizio, per file robots non raggiungibile, Google intende una risposta di time out del server. Se il file robots.txt non è presente e il server risponde con un errore 404 – not found, non ci sono problemi. In poche parole, un sito non deve avere per forza il file robots.txt per essere indicizzato, basta che il server risponda con errore 404.

Il problema è solamente quando Google chiede al server il file robots.txt, e non riceve risposta. Caso abbastanza raro – speriamo.

Simone