Google indicizza il robots.txt

| 14 Commenti | Nessun TrackBack

Qualche settimana fa ho notato alcune anomalie da parte di Google nell'indicizzazione delle pagine.
In molte SERP, al posto dei titoli, comparivano parole assurde, a volte addirittura il DOCTYPE della pagina.

Oggi ho notato un altro aspetto altrettanto assurdo!

Google indicizza il robots.txt

Google indicizza il file robots.txt analizzandolo come semplice testo. Non solo, anche il suo è in SERP: allinurl:/robots.txt.
Strano, non è per nulla un comportamento normale...

No TrackBacks

TrackBack URL: http://www.simonecarletti.com/mt4/mt-script-tb.cgi/420

14 Commenti

Penso succede quando c'e' un link verso robots.txt, a quel punto lo spider segue il link ed indicizza il file..

È come dice Benedetto, infatti c'è sempre qualche BL che porta a quel robots.txt. Per trovare i BL del robots di google basta cercarlo con yahoo.

Ed uno dei robots.txt più lincati è quello del sito ufficiale della casa bianca. Questo robots.txt viene subito fuori cercando "robots.txt" su google.com. Il motivo è che qualche tempo
fa i webmaster della casa bianca lo utilizzarono per impedire ai motori di indicizzare alcune pagine scottanti sull'Iraq. Nè parlo anche punto informatico: http://punto-informatico.it/p.aspx?i=45749

A prescindere dal fatto che se anche è linkato non dovrebbe essere in SERP (e così era fino a poco tempo fa), assicuro che lo screenshot che vedete sopra è preso da un sito dove il robots.txt non è linkato. :)

Infatti Simone, non è per nulla normale il comportamento.

Vediamo se è un discorso temporaneo oppure no. Provo a fare qualche test e poi ti dico.

Indicizzare il robots.txt equivale ad indicizzare i file del sistema operativo! Stessa cosa!

No, non è affatto regolare.

è comunque un file destinato ai MdR, Google lo ha indicizzato come avrebbe indicizzato un qualsiasi altro file txt linkato

appunto, Simone dice che quello che lui ha trovato non è linkato, questo è strano... forse lo è stato per un breve periodo ?

è comunque un file destinato ai MdR, Google lo ha indicizzato come avrebbe indicizzato un qualsiasi altro file txt linkato

appunto, Simone dice che quello che lui ha trovato non è linkato, questo è strano... forse lo è stato per un breve periodo ?

I file robots.txt sono normali file di testo, Google li indicizza da sempre.

Ovviamente è necessario che lo spider arrivi al robots.txt attraverso un link.

Convengo con Rinzi sul fatto che probabilmente esisteva in passato un link a quel robots.txt.

Tra l'altro, la presenza di "Supplemental Results" lascerebbe pensare proprio al fatto che una volta il file era raggiungibile attraverso link, a differenza di adesso.

Esatto, propendo anche io per il fatto che il robots.txt debba essere stato linkato, prima o poi... e, essendo stato linkato, mi sembra normale che Google lo indicizzi... se mangia e digerisce anche le password, figuriamoci con un file di testo...

Esatto, propendo anche io per il fatto che il robots.txt debba essere stato linkato, prima o poi...

Mi sfugge l'utilità.

forse lo è stato per un breve periodo ?

Sono certo di no. :)

> Sono certo di no. :)

Hmm.. Forse l'URL del robots.txt sta/stava in un file XML Sitemap inviato a Google?

Hmm.. Forse l'URL del robots.txt sta/stava in un file XML Sitemap inviato a Google?

Absolutely no.
Come credo avrai parzialmente capito si tratta di un sito di un cliente, tra l'altro anche discretamente nuovo che poco ha ancora avuto a che fare con il SEO. :)

Tutto testato, basta un link ed il file txt viene digerito

Scrivi un commento

Iscriviti al feed

Feed Non conosci i feed RSS? Hai paura che sia una fregatura? Questa breve presentazione fa al caso tuo... prenditi 5 minuti, è divertente! :)

Ultimi commenti

  • TheMonster: Tutto testato, basta un link ed il file txt viene continua...
  • Simone Carletti: Hmm.. Forse l'URL del robots.txt sta/stava in un file XML continua...
  • LowLevel: > Sono certo di no. :) Hmm.. Forse l'URL del continua...
  • Simone Carletti: Esatto, propendo anche io per il fatto che il robots.txt continua...
  • SitiOnWeb: Esatto, propendo anche io per il fatto che il robots.txt continua...
  • LowLevel: I file robots.txt sono normali file di testo, Google li continua...
  • Rinzi: è comunque un file destinato ai MdR, Google lo continua...
  • Rinzi: è comunque un file destinato ai MdR, Google lo continua...
  • fradefra: Indicizzare il robots.txt equivale ad indicizzare i file del sistema continua...
  • shiftzero: Infatti Simone, non è per nulla normale il comportamento. Vediamo continua...
Powered by Movable Type 4.2-en