Se google non trova il file robots.txt non indicizza il sito

Attenzione: questa notizia è vecchia e proviene dal vecchio database di RankFirst.

Ha del clamoroso questa notizia, che ho trovato spulciando alcuni blog di Search Marketing americani. Google ha fatto sapere che se il file robots.txt non è raggiungibile dal bot, potrebbe non indicizzare l’intero sito. Per non raggiungibile si intende una risposta del server con un time out durante il passaggio di Googlebot. Ma che assurdità è questa, vi chiederete, e mi sono chiesto prima di approfondire l’argomento.

Un responsabile di Google, John Mueller, ha detto che questa scelta è dovuta ad una politica di “sicurezza”. Se Google non può leggere il file che dice a Googlebot cosa non indicizzare, allora il bot escludi per sicurezza l’intero sito. Pensandoci bene il ragionamento non è poi così sbagliato.

Se Google non riesce a leggere cosa è “proibito” indicizzare, non può rischiare di indicizzare file che potrebbero essere esclusi dal passaggio del bot, volutamente dal webmaster.

Come ho specificato all’inizio, per file robots non raggiungibile, Google intende una risposta di time out del server. Se il file robots.txt non è presente e il server risponde con un errore 404 – not found, non ci sono problemi. In poche parole, un sito non deve avere per forza il file robots.txt per essere indicizzato, basta che il server risponda con errore 404.

Il problema è solamente quando Google chiede al server il file robots.txt, e non riceve risposta. Caso abbastanza raro – speriamo.

Simone

Lascia un Commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati *

È possibile utilizzare questi tag ed attributi XHTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>