Libro Webbot e spider - I ragni della rete
Webbot e Spider è un libro pubblicato recentemente dalla Apogeo, come traduzione italiana di Webbots, Spiders and Screen Scrapers di Michael Schrenk.
Il libro è, nel suo piccolo, estremamente originale poiché si tratta di una delle uniche pubblicazioni che abbia trovato fino ad oggi ad analizzare in crawler dal lato di chi li deve sviluppare e non da quello del fornitore di dati, come normalmente avviene per un webmaster che desidera rendere il proprio sito ottimizzato per i motori di ricerca.
Webbot e spider è fortemente orientato a lettori con un discreto background tecnico, meglio ancora se con competenze di PHP.
Fin dalle prime pagine infatti il libro scende subito nel pratico fornendo esempi e codice di webbot completamente funzionanti. Tutti i crawler pubblicati come esempio sono sviluppati in PHP 4 sfruttando le funzioni del linguaggio ed un set di librerie personalizzate messe a disposizione dall'autore e scaricabili liberamente.
Il libro è suddiviso in 4 parti e quasi 30 capitoli.
Ogni capitolo è, di norma, orientato a descrivere un tipo di webbot analizzando un esempio reale e funzionante.
Concetti e tecniche fondamentali
Concetti e tecniche fondamentali è il primo capitolo ed include la consueta introduzione al libro.
Già dal secondo capitolo si entra nel vivo con alcune idee per sviluppare webbot in casa mentre dal terzo ci si tuffa completamente in codici ed esempi PHP per scaricare pagine da siti internet e gestire header, cookie ed elementi correlati.
Questa prima parte prosegue poi con un capitolo dedicato alle tecniche di parsing, all'invio ed emulazione dei form ed alla gestione dei dati scaricati.
Applicazioni
La seconda parte, Applicazioni, fornisce 11 esempi reali e funzionanti di webbot.
Nell'ordine, l'autore presenta ed analizza un webbot per monitorare i prezzi, per catturare immagini, verificare i link, navigare anonimamente sul web, valutare il rank delle proprie pagine sui motori di ricerca, aggregare contenuti, scambiare dati via FTP e NNTP, leggere ed inviare email.
Per darvi un'idea della qualità, ogni webbot è disponibile al download ed è accompagnato da librerie personalizzate messe a disposizione dei lettori.
Considerazioni tecniche avanzate
Considerazioni tecniche avanzate è il capitolo ideale per chi non ne ha ancora avuto abbastanza.
Fornisce indicazioni più dettagliate sul funzionamento degli spider, sui procurament webbot, crittografia ed autenticazione, gestione dei cookie e pianificazione automatica dell'avvio dei crawler.
Considerazioni più ampie
L'ultimo capitolo, chiamato Considerazioni più ampie, è quello che personalmente ho trovato più interessante.
Non che gli altri non lo fossero, ma programmo in PHP da tempo ed ho avuto il piacere di sviluppare diversi webbot. Molte delle informazioni presenti negli altri capitoli erano un ripasso per me, quanto pubblicato in questa era invece come un piacevole scambio di opinioni.
Michael include in quest'area alcune considerazioni su come scrivere webbot affidabili senza dare nell'occhio, come bloccare gli spider ed evitare che vengano bloccati ed infine alcune curiosità SEO. Curioso vero? In questo libro meno del 5% è SEO, per il 95% avrete la sensazione di trovarvi per una volta dall'altra parte della barricata!
L'autore conclude il libro con un capitolo interamente dedicato a consigli legali e comportamentali per prevenire un uso non corretto dei vostri webbot.
In conclusione
Per quanto mi riguarda, Webbot e Spider è stata una piacevolissima lettura.
Personalmente lo consiglio a quanti desiderano comprendere meglio il comportamento dei crawler analizzandone lo sviluppo e le caratteristiche tecniche. Difficilmente troverete informazioni per sviluppare un nuovo crawler superdeluxe, tuttavia Webbot e Spider è un complemento ideale per fornire le basi ideali sul funzionamento dei bot a quanti lavorano nel campo dei motori di ricerca.
I programmatori, soprattutto PHP, non avranno particolari difficoltà a leggere i codici d'esempio che, seppur volutamente semplificati, sono sufficienti a fornire la giusta direzione per consentirvi di scrivere autonomamente processi per automatizzare operazioni frequenti.
Ottimo acquisto!
0 TrackBacks
Listed below are links to blogs that reference this entry: Libro Webbot e spider - I ragni della rete.
TrackBack URL for this entry: http://www.simonecarletti.com/mt4/mt-script-tb3.cgi/702
2 Comments
Leave a comment
Disclaimer:
SPAM comments or messages posted just in order to take advantage of search engines popularity might be removed without any notice.
Comments are filtered against Akismet antispam service, keyword filters and blacklists.
Cerca nel Blog
Annoiato delle solite ricerche? Prova un tag cloud!
FeedBurner Network
Questo blog è parte del network Web Marketing e Motori di ricerca (a FeedBurner Network).
Scopri di cosa si tratta (sì, lo so, il post introduttivo è un po' lungo...)
Non perderti gli aggiornamenti
Non conosci i feed RSS? Hai paura che sia una fregatura? Questa breve presentazione fa al caso tuo... prenditi 5 minuti, è divertente! :)
Ultimi commenti
Ultimi post
- Benvenuto Ruby.HTML.it
- The SuckRank ®
- Quale framework PHP utilizzare?
- Libro Ship it! A Practical Guide to Successful Software Projects
- C'è (34.821) posta per te
- Versione evoluta dei Google Sitelinks: sitelinks e form di ricerca
- Guida completa a Google AdSense
- Libro TextMate - Power Editing for the Mac
- Convertire un feed da RSS 0.91 a RSS 2.0
- Blogger, iscriviti al tuo feed!
Movable Type 4.1


Ciao Simone,
mi ha fatto piacere leggere la tua recensione perché questo libro l'ho comprato un po ad occhi chiusi (per pura curiostià).
Ce l'ho da una settimana sul comodino e ancora non ho avuto l'occasione di iniziarlo.
Concordo pienamente su tutti i punti. Io mastico un pò di php e ho trovato il libro molto istruttivo. Decisamente un modo stimolante di imparare il php! ;)