E' ufficiale, prima o poi pubblicherò un post dal nome "quante cose si possono capire solo dagli header HTTP", magari seguito da un'altro intitolato "quanti errori si possono leggere negli header HTTP".
Ad ogni modo, dopo la curiosità di Google Web Server, ho appena scoperto un'altra chicca veramente interessante: il portale Italia.it non si definisce italiano ma inglese!
Premesso che mi sono sempre astenuto dal pubblicare giudizi relativi al progetto in questione, anche quando qualche mese fa è andato online il portale.
La mia segnalazione attuale vale per Italia.it come per un qualsiasi altro progetto... solo che in questo caso è particolarmente curioso.
Dunque, se voi analizzate gli header restituiti dalla homepage di Italia.it noterete che alla voce Content-language restituisce en
Content-language: en
Perché no, considerando che quella welcome page è in realtà un punto di accesso per diverse lingue. Ma se io analizzo gli header della pagina italiana, perché continuo a vedere
Content-language: en
e non
Content-language: it
Insomma, il portale Italia.it non si sente così italiano.
In realtà, la struttura del sito contiene il valore corretto nel codice HTML delle pagine.
Analizzando il codice è possibile identificare sia la specifica al codice HTML
<html lang="it">
sia il corrispettivo meta tag a valore header HTTP.
<meta name="Content-Language" content="it">
Ma allora perché il tool ha fornito questo valore?
Semplicemente perché nel mio caso, come in quello di diversi altri, le richieste inviate sono di tipo HEAD e non GET dunque il contenuto della pagina viene ignorato e solo gli header sono analizzati.
Poiché i settaggi che sovrascrivono il valore predefinito si trovano solo nel contenuto della pagina, ecco che il valore restituito dal webserver trae in inganno il crawler.
Formalismi a parte, in genere fornire un header linguistico non corretto non è un errore da poco.
Non tutti i motori di ricerca sono così evoluti da eseguire un'identificazione completa basata sul contenuto del sito ed un header errato può comportare problemi per la corretta gestione delle informazioni da parte dei crawler.

La svista è clamorosa, ma la cosa non è di per sé sorprendente per questo sito faraonico e (giustamente) contestatissimo.
Non mi spiego come mai utilizzando il tuo tool ed effettuando la ricerca su altre pagine talvolta il valore Content-language non viene restituito, anche se negli header è presente.
Ciao Alberto,
il mio tool legge i dati restituiti.
Sta al webserver fornire o meno quell'header.
Potresti farmi un esempio nel quale ritieni ci sia un bug? :)
Provvedo a verificare.
il meta tag Content-Language non dovrebbe essere di tipo NAME ma di tipo HTTP-EQUIV (Equivalente HTTP) per essere interpretato dal server come intestazione HTTP.