Quanti dati indicizza Google?

| | Commenti (3) | TrackBack (1)

Sono sempre rimasto affascinato nell'immaginare l'enorme quantità di dati gestita ed immagazzinata da Google: GMail offre oltre 2Gb di spazio gratuito a chiunque, Google Analytics succhia log e visite a tutto andare, Google Base non vede l'ora di fagocitare nuovi contenuti ed i crawler di Google non vanno in ferie neppure a ferragosto... ma quanto tiene tutto questo spazio?

A maggio Eric Schmidt comunicò che Google era in crisi... troppi dati!
Ma quantificandolo, cosa significa troppi?


Sebbene non sono mai stati pubblicati documenti ufficiali sullo spazio occupato dai server di Google, Google Operating System ha pubblicato alcune informazioni che veramente fanno immaginare quanto sia ridicolo il mio nuovo hard disk appena comprato da 400Gb!

I dati sono estratti da una pubblicazione intitolata Bigtable: A Distributed Storage System for Structured Data, pubblicata su Google Labs, con argomento la trattazione di un nuovo sistema di gestione distribuita dei dati che permette il salvataggio di enormi quantità di Gb di informazioni.

Tornando a Google, si scopre così che i crawler di Google ad oggi utilizzano circa 850 TB di dati (TB = Terabyte, ovvero 1024 GB) per immagazzinare i dati grezzi delle scansioni.
Google Analytics utilizza 220 TB di dati suddividi in due gruppi: 200 TB per i log grezzi e 20 TB per i dati aggregati.

Google Heart utilizza 70,5 TB suddivisi in 70 TB di immagini e cartine e 500 GB di indici.
Più discreto l'indice di Google Personalized Search che occupa "solamente" 4 TB, il doppio rispetto ai 2 TB di Google base e 9 TB per Orkut.

Ah, per completare il quadretto c'è da considerare che a tutti i dati salvati è applicato un fattore di compressione (11% per i dati di Google Search) e che tutti questi dati sono disponibili in numerose copie in mirroring sui vari datacenter.

Sconvolgente ed affascinante...

1 TrackBacks

Listed below are links to blogs that reference this entry: Quanti dati indicizza Google?.

TrackBack URL for this entry: http://www.simonecarletti.com/mt4/mt-script-tb3.cgi/474

» L'architettura di Wikipedia nel dettaglio from Simone Carletti's Blog

Uno sguardo da vicino all'architettura server di Wikipedia e Wikimedia. Read More

3 Comments

Massy said:

[code]TB = Terabyte, ovvero 1024 Mb[/code]

Sicuro? :)

Btw: non vedo dati sulla Gmail che secondo me occcupa da sola molto più spazio degli altri servizi.

Son d'accordo con te: sconvolgente!

ps. ti segnalo anche quest'altro refuso:
utilizza 70,5 TB suddivisi in 70 TB di immagini e cartine e 500 TB di indici.

Napolux said:

TB = Terabyte, ovvero 1024 GB

Correggi! ;)

Scusate, erano le 2 e mi si sono incrociati gli occhi tra TB, GB e MB ;)

Leave a comment

Disclaimer:
SPAM comments or messages posted just in order to take advantage of search engines popularity might be removed without any notice.
Comments are filtered against Akismet antispam service, keyword filters and blacklists.

FeedBurner Network

Questo blog è parte del network Web Marketing e Motori di ricerca (a FeedBurner Network).

Scopri di cosa si tratta (sì, lo so, il post introduttivo è un po' lungo...)

Non perderti gli aggiornamenti

Feed Sottoscrivi il feed

Non conosci i feed RSS? Hai paura che sia una fregatura? Questa breve presentazione fa al caso tuo... prenditi 5 minuti, è divertente! :)

servizi e curiosità

Add to Technorati Favorites
Aggiungi il blog al tuo elenco di preferiti su Technorati.

Creative Commons License
This weblog is licensed under a Creative Commons License.
Powered by
Movable Type 4.1