Strategie per un filtro anti-splog

| | Commenti (0) | TrackBack (1)

Qualche mese fa ero alla ricerca di approfondimenti per conoscere meglio Kailash Nadh, autore di Pingoat e SplogSpot.
Curiosando sul suo sito sono capitato in un documento chiamato Fighting spam blogs.

Il documento, disponibile in formato Word, HTML e Pdf, è una preliminare analisi su come è possibile realizzare un iniziale filtro antispam contro lo SPLOG.
Nella prima parte del documento Kailash illustra il concetto di Spam Blog (SPLOG) motivando il perché è necessario porre un freno a questo fenomeno oramai in continua crescita.

Kailash Nadh

How to possibly tackle?
Now the question is how to track/detect a spam blog? We could employ the tactics that anti-spam (email) systems use. The very popular SpamAssassin is the best example. It works by performing a series of tests on an email, assigning scores and then using the Bayesian theorem to predict the probability of an email being spam.

Before performing any tests or arriving at any conclusions, I started off by collecting around a hundred spam blogs and closely studying their characteristics. I found that 90% of the spam blogs have certain features in common, which could be well used against them.

Fighting spam blogs

Nella seconda parte, immediatamente preceduta dal passo quotato sopra, Kailash descrive quali siano le possibili strade, in termini di tattiche, per escludere i blog realizzati al solo scopo di SPAM.
E' probabile, se non quasi certo, che almeno una parte di questi concetti siano alla base del filtro applicato a Pingoat per flaggare i siti in fase di propagazione dei ping e popolare il database di SplogSpot.

Gli aspetti analizzati da Kailash sono diversi e vanno dal semplice controllo dell'URL alla verifica delle unità di AdSense pubblicate sul blog.
E' possibile controllare la densità e la rindondanza delle parole e valutare il numero di volte in cui le entità monetarie compaiono.

La parte più affascinante di tutto il documento, a mio avviso, è l'analisi della compressione della pagina. Tanto semplice quanto ingegnosa.
Il sistema si basa sul principio che è possibile applicare una compressione sostituendo i termini più ricorrenti con una referenza e mantenendo una tavola delle sostituzioni. Così facendo, sostituendo ad esempio il carattere A ogni qual volta compare il termine blog e referenziando l'azione, è possibile risparmiare spazio e caratteri riducendo di conseguenza il peso finale della pagina.

Cosa centra tutto questo discorso con lo SPAM? Pensate per un attimo alle email che affollano le vostre caselle di posta elettronica.
Cosa? Voi non ricevete SPAM? Uff, i soliti fortunati... vabbé, pensate per un attimo alle email che affollano la mia casella elettronica e quella dei vostri amici. Di certo non sarà difficile verificare come la densità di certe parole chiave è estremamente elevata.
Immaginate di applicare una compressione alla pagina e comparare il peso della pagina iniziale con quella compressa. Affinando il rapporto di confronto sarà possibile isolare una buona percentuale di SPLOGS semplicemente verificando la percentuale di compressione.

Come dicevo inizialmente, tanto semplice quanto affascinante.
Ovviamente è necessario avere un pannello di blog di test estremamente ampio per trovare il giusto rapporto ed il valore dovrà essere continuamente adattato e rivalutato, oltre che affiancato ad altri sistemi di analisi.

Affascinati? Approfondite la lettura.

1 TrackBacks

Listed below are links to blogs that reference this entry: Strategie per un filtro anti-splog.

TrackBack URL for this entry: http://www.simonecarletti.com/mt4/mt-script-tb3.cgi/262

» Lo splog nooooo! from TSW Blog

Avevo sentito spesso parlare di splog negli scorsi mesi, grazie anche ai numerosi post di Simone Carletti sull’argomento (qui uno dei più interessanti), ma ammetto di non aver prestato molta attenzione al fenomeno dei blog spam, ovvero dei blog real... Read More

Leave a comment

Disclaimer:
SPAM comments or messages posted just in order to take advantage of search engines popularity might be removed without any notice.
Comments are filtered against Akismet antispam service, keyword filters and blacklists.

FeedBurner Network

Questo blog è parte del network Web Marketing e Motori di ricerca (a FeedBurner Network).

Scopri di cosa si tratta (sì, lo so, il post introduttivo è un po' lungo...)

Non perderti gli aggiornamenti

Feed Sottoscrivi il feed

Non conosci i feed RSS? Hai paura che sia una fregatura? Questa breve presentazione fa al caso tuo... prenditi 5 minuti, è divertente! :)

servizi e curiosità

Add to Technorati Favorites
Aggiungi il blog al tuo elenco di preferiti su Technorati.

Ultimi commenti

Creative Commons License
This weblog is licensed under a Creative Commons License.
Powered by
Movable Type 4.1