Strategie per un filtro anti-splog
Qualche mese fa ero alla ricerca di approfondimenti per conoscere meglio Kailash Nadh, autore di Pingoat e SplogSpot.
Curiosando sul suo sito sono capitato in un documento chiamato Fighting spam blogs.
Il documento, disponibile in formato Word, HTML e Pdf, è una preliminare analisi su come è possibile realizzare un iniziale filtro antispam contro lo SPLOG.
Nella prima parte del documento Kailash illustra il concetto di Spam Blog (SPLOG) motivando il perché è necessario porre un freno a questo fenomeno oramai in continua crescita.
How to possibly tackle?
Now the question is how to track/detect a spam blog? We could employ the tactics that anti-spam (email) systems use. The very popular SpamAssassin is the best example. It works by performing a series of tests on an email, assigning scores and then using the Bayesian theorem to predict the probability of an email being spam.Before performing any tests or arriving at any conclusions, I started off by collecting around a hundred spam blogs and closely studying their characteristics. I found that 90% of the spam blogs have certain features in common, which could be well used against them.
Nella seconda parte, immediatamente preceduta dal passo quotato sopra, Kailash descrive quali siano le possibili strade, in termini di tattiche, per escludere i blog realizzati al solo scopo di SPAM.
E' probabile, se non quasi certo, che almeno una parte di questi concetti siano alla base del filtro applicato a Pingoat per flaggare i siti in fase di propagazione dei ping e popolare il database di SplogSpot.
Gli aspetti analizzati da Kailash sono diversi e vanno dal semplice controllo dell'URL alla verifica delle unità di AdSense pubblicate sul blog.
E' possibile controllare la densità e la rindondanza delle parole e valutare il numero di volte in cui le entità monetarie compaiono.
La parte più affascinante di tutto il documento, a mio avviso, è l'analisi della compressione della pagina. Tanto semplice quanto ingegnosa.
Il sistema si basa sul principio che è possibile applicare una compressione sostituendo i termini più ricorrenti con una referenza e mantenendo una tavola delle sostituzioni. Così facendo, sostituendo ad esempio il carattere A ogni qual volta compare il termine blog e referenziando l'azione, è possibile risparmiare spazio e caratteri riducendo di conseguenza il peso finale della pagina.
Cosa centra tutto questo discorso con lo SPAM? Pensate per un attimo alle email che affollano le vostre caselle di posta elettronica.
Cosa? Voi non ricevete SPAM? Uff, i soliti fortunati... vabbé, pensate per un attimo alle email che affollano la mia casella elettronica e quella dei vostri amici. Di certo non sarà difficile verificare come la densità di certe parole chiave è estremamente elevata.
Immaginate di applicare una compressione alla pagina e comparare il peso della pagina iniziale con quella compressa. Affinando il rapporto di confronto sarà possibile isolare una buona percentuale di SPLOGS semplicemente verificando la percentuale di compressione.
Come dicevo inizialmente, tanto semplice quanto affascinante.
Ovviamente è necessario avere un pannello di blog di test estremamente ampio per trovare il giusto rapporto ed il valore dovrà essere continuamente adattato e rivalutato, oltre che affiancato ad altri sistemi di analisi.
Affascinati? Approfondite la lettura.
1 TrackBacks
Listed below are links to blogs that reference this entry: Strategie per un filtro anti-splog.
TrackBack URL for this entry: http://www.simonecarletti.com/mt4/mt-script-tb3.cgi/262
Avevo sentito spesso parlare di splog negli scorsi mesi, grazie anche ai numerosi post di Simone Carletti sull’argomento (qui uno dei più interessanti), ma ammetto di non aver prestato molta attenzione al fenomeno dei blog spam, ovvero dei blog real... Read More
Cerca nel Blog
Annoiato delle solite ricerche? Prova un tag cloud!
FeedBurner Network
Questo blog è parte del network Web Marketing e Motori di ricerca (a FeedBurner Network).
Scopri di cosa si tratta (sì, lo so, il post introduttivo è un po' lungo...)
Non perderti gli aggiornamenti
Non conosci i feed RSS? Hai paura che sia una fregatura? Questa breve presentazione fa al caso tuo... prenditi 5 minuti, è divertente! :)
Ultimi commenti
Ultimi post
- Recensione libro Interface Oriented Design
- Buoni motivi per non togliere il www dall'URL
- Installare contemporaneamente Firefox 2 e Firefox 3 su Mac OSX
- Il mio talk al phpDay 2008 (video)
- Nuovo sito per ASP Stats Generator
- Questa sera, leggendo i log, ho scoperto che...
- Zend Framework ed i Web Service
- Non lo faccio perché ci vuole tempo... ma lo so fare!
- Ruby WWW::Delicious
- Benvenuto Ruby.HTML.it
Movable Type 4.1


Leave a comment
Disclaimer:
SPAM comments or messages posted just in order to take advantage of search engines popularity might be removed without any notice.
Comments are filtered against Akismet antispam service, keyword filters and blacklists.