Qualche settimana fa ho notato alcune anomalie da parte di Google nell'indicizzazione delle pagine.
In molte SERP, al posto dei titoli, comparivano parole assurde, a volte addirittura il DOCTYPE della pagina.
Oggi ho notato un altro aspetto altrettanto assurdo!
Google indicizza il file robots.txt analizzandolo come semplice testo. Non solo, anche il suo è in SERP: allinurl:/robots.txt.
Strano, non è per nulla un comportamento normale...

Penso succede quando c'e' un link verso robots.txt, a quel punto lo spider segue il link ed indicizza il file..
È come dice Benedetto, infatti c'è sempre qualche BL che porta a quel robots.txt. Per trovare i BL del robots di google basta cercarlo con yahoo.
Ed uno dei robots.txt più lincati è quello del sito ufficiale della casa bianca. Questo robots.txt viene subito fuori cercando "robots.txt" su google.com. Il motivo è che qualche tempo
fa i webmaster della casa bianca lo utilizzarono per impedire ai motori di indicizzare alcune pagine scottanti sull'Iraq. Nè parlo anche punto informatico: http://punto-informatico.it/p.aspx?i=45749
A prescindere dal fatto che se anche è linkato non dovrebbe essere in SERP (e così era fino a poco tempo fa), assicuro che lo screenshot che vedete sopra è preso da un sito dove il robots.txt non è linkato. :)
Infatti Simone, non è per nulla normale il comportamento.
Vediamo se è un discorso temporaneo oppure no. Provo a fare qualche test e poi ti dico.
Indicizzare il robots.txt equivale ad indicizzare i file del sistema operativo! Stessa cosa!
No, non è affatto regolare.
è comunque un file destinato ai MdR, Google lo ha indicizzato come avrebbe indicizzato un qualsiasi altro file txt linkato
appunto, Simone dice che quello che lui ha trovato non è linkato, questo è strano... forse lo è stato per un breve periodo ?
è comunque un file destinato ai MdR, Google lo ha indicizzato come avrebbe indicizzato un qualsiasi altro file txt linkato
appunto, Simone dice che quello che lui ha trovato non è linkato, questo è strano... forse lo è stato per un breve periodo ?
I file robots.txt sono normali file di testo, Google li indicizza da sempre.
Ovviamente è necessario che lo spider arrivi al robots.txt attraverso un link.
Convengo con Rinzi sul fatto che probabilmente esisteva in passato un link a quel robots.txt.
Tra l'altro, la presenza di "Supplemental Results" lascerebbe pensare proprio al fatto che una volta il file era raggiungibile attraverso link, a differenza di adesso.
Esatto, propendo anche io per il fatto che il robots.txt debba essere stato linkato, prima o poi... e, essendo stato linkato, mi sembra normale che Google lo indicizzi... se mangia e digerisce anche le password, figuriamoci con un file di testo...
Mi sfugge l'utilità.
Sono certo di no. :)
> Sono certo di no. :)
Hmm.. Forse l'URL del robots.txt sta/stava in un file XML Sitemap inviato a Google?
Tutto testato, basta un link ed il file txt viene digerito