Quanti dati indicizza Google?
Sono sempre rimasto affascinato nell'immaginare l'enorme quantità di dati gestita ed immagazzinata da Google: GMail offre oltre 2Gb di spazio gratuito a chiunque, Google Analytics succhia log e visite a tutto andare, Google Base non vede l'ora di fagocitare nuovi contenuti ed i crawler di Google non vanno in ferie neppure a ferragosto... ma quanto tiene tutto questo spazio?
A maggio Eric Schmidt comunicò che Google era in crisi... troppi dati!
Ma quantificandolo, cosa significa troppi?
Sebbene non sono mai stati pubblicati documenti ufficiali sullo spazio occupato dai server di Google, Google Operating System ha pubblicato alcune informazioni che veramente fanno immaginare quanto sia ridicolo il mio nuovo hard disk appena comprato da 400Gb!
I dati sono estratti da una pubblicazione intitolata Bigtable: A Distributed Storage System for Structured Data, pubblicata su Google Labs, con argomento la trattazione di un nuovo sistema di gestione distribuita dei dati che permette il salvataggio di enormi quantità di Gb di informazioni.
Tornando a Google, si scopre così che i crawler di Google ad oggi utilizzano circa 850 TB di dati (TB = Terabyte, ovvero 1024 GB) per immagazzinare i dati grezzi delle scansioni.
Google Analytics utilizza 220 TB di dati suddividi in due gruppi: 200 TB per i log grezzi e 20 TB per i dati aggregati.
Google Heart utilizza 70,5 TB suddivisi in 70 TB di immagini e cartine e 500 GB di indici.
Più discreto l'indice di Google Personalized Search che occupa "solamente" 4 TB, il doppio rispetto ai 2 TB di Google base e 9 TB per Orkut.
Ah, per completare il quadretto c'è da considerare che a tutti i dati salvati è applicato un fattore di compressione (11% per i dati di Google Search) e che tutti questi dati sono disponibili in numerose copie in mirroring sui vari datacenter.
Sconvolgente ed affascinante...
1 TrackBacks
Listed below are links to blogs that reference this entry: Quanti dati indicizza Google?.
TrackBack URL for this entry: http://www.simonecarletti.com/mt4/mt-script-tb3.cgi/474
Uno sguardo da vicino all'architettura server di Wikipedia e Wikimedia. Read More
3 Comments
Leave a comment
Disclaimer:
SPAM comments or messages posted just in order to take advantage of search engines popularity might be removed without any notice.
Comments are filtered against Akismet antispam service, keyword filters and blacklists.
Cerca nel Blog
Annoiato delle solite ricerche? Prova un tag cloud!
FeedBurner Network
Questo blog è parte del network Web Marketing e Motori di ricerca (a FeedBurner Network).
Scopri di cosa si tratta (sì, lo so, il post introduttivo è un po' lungo...)
Non perderti gli aggiornamenti
Non conosci i feed RSS? Hai paura che sia una fregatura? Questa breve presentazione fa al caso tuo... prenditi 5 minuti, è divertente! :)
Ultimi commenti
- Simone Carletti commenta
Quanti dati indicizza Google? - Napolux commenta
Quanti dati indicizza Google? - Massy commenta
Quanti dati indicizza Google?
Ultimi post
- Benvenuto Ruby.HTML.it
- The SuckRank ®
- Quale framework PHP utilizzare?
- Libro Ship it! A Practical Guide to Successful Software Projects
- C'è (34.821) posta per te
- Versione evoluta dei Google Sitelinks: sitelinks e form di ricerca
- Guida completa a Google AdSense
- Libro TextMate - Power Editing for the Mac
- Convertire un feed da RSS 0.91 a RSS 2.0
- Blogger, iscriviti al tuo feed!
Movable Type 4.1


[code]TB = Terabyte, ovvero 1024 Mb[/code]
Sicuro? :)
Btw: non vedo dati sulla Gmail che secondo me occcupa da sola molto più spazio degli altri servizi.
Son d'accordo con te: sconvolgente!
ps. ti segnalo anche quest'altro refuso:
utilizza 70,5 TB suddivisi in 70 TB di immagini e cartine e 500 TB di indici.
TB = Terabyte, ovvero 1024 GB
Correggi! ;)
Scusate, erano le 2 e mi si sono incrociati gli occhi tra TB, GB e MB ;)