Some internals, and further reading

Antispam decision

Clapf uses a statistical algorithm* to decide whether the incoming email is spam or not. It only marks the message by inserting a new message header called “X-Clapf-spamicity” indicating what probability the email has. If the probability is above a certain limit clapf also adds the “X-Clapf-spamicity: Yes” flag to the message header. This second header is just for the easy spam recognition.

*: inverse chi-square

You may use the following snippet in ~/.mailfilter with maildrop to put spam to your junk folder:

if(/^X-Clapf-spamicity: Yes/:h)
{
        to "mail/junk"
}

Clapf only marks the message instead rejecting or removing it. Though statistical filters are famous for their high accuracy, there is no 100.00% perfect anti-spam measure. It is up to the user what to do with messages marked as spam: can be delivered to the user and put into the junk folder or move it to the spam quarantine.

Training

Before using any statistical filter it must be trained. Read the training paper how to create the initial token database and how to train it further.

You may test the antispam decision mechanism with a single RFC-822 format message:

# test with your current unix uid as the clapf uid
spamdrop -D < messagefile

# test for jim@aaaa.fu
spamdrop -D -r jim@aaaa.fu < messagefile

Statistical internals

ham probability = (the number of ham emails containing the word w) / (the total number of ham emails)
spam probability = (the number of spam emails containing the word w) / (the total number of spam emails)

probability of a given word (pn) = spam probability / (ham probability + spam probability)

Then clapf counts the spaminess and the haminess of the most interesting tokens:

spaminess: P = (1-p1) * (1-p2) * .... * (1-pn)

non-spaminess: Q = p1 * p2 * .... *pn

Now clapf applies the inverse chi-square algorithm and computes a combined indicator (I):

H = chi2inv(-2 * ln Q, 2*n);

S = chi2inv(-2 * ln P, 2*n);

I = (1 + H - S) / 2;

What to do with rare words?

p(w) = ( s * x + n * p(w) ) / (s+n)

where x=0.5, s=1, n: number of word occurence

Implementation issues

Clapf parses and tokenize the incoming message. For better accuracy clapf creates additional phrases from consecutive tokens. Look at the following text: “How nice day!”

Now we have 5 tokens: “How”, “nice”, “day!”, “How+nice” and “nice+day!”

Clapf creates two tables: one for only phrases and one for phrases and single tokens. First it calculates a spamicity value from the phrase table and uses the 'mix' table only if it's unsure. Then it chooses the value with the greater deviation from the neutral 0.5

Clapf discards some tokens:

  • numeric only tokens
  • tokens with shorter length than 3
  • tokens with longer length then MAX_WORD_LEN
  • tokens occuring only once in the spam or in the ham folder

By default clapf converts all token to lower case. It can be override with the --enable-case configure option.

Clapf degenerates a token to a simpler form if it ends with a punctuation character, eg. both “Free!!!!!” and “FrEE!!” become “free!”

Performance

You should put clapf's tmp/ directory to a separate (lightly loaded) disk. If you want even better performance put it to a memory filesystem or SSD.

You need at least max_message_size * (max_paralel_delivery + 1). Eg. 8M * (10+1) = 88M

/etc/fstab:

/dev/shm        /var/lib/clapf/tmp       tmpfs   defaults,size=128M       0	0

Notes on parsing email

There is a custom tailorable array - called invalid_junk_characters (look ijc.h) - you can fill with garbage characters occuring messages with a completely invalid characters for your language, display. I myself fill it with Chinese, Korean, Japanese, … stuff. If this junk exceeds a certain (configurable) limit clapf marks the message as spam.

Recommended reading

Bayesian Filtering Example, Using Bayes' Formula to keep spam out of your Inbox: http://www.process.com/precisemail/bayesian_example.htm

Spam Detection: http://radio.weblogs.com/0101454/stories/2002/09/16/spamDetection.html

A Statistical Approach to the Spam Problem: http://www.linuxjournal.com/article/6467

A Plan for Spam: http://www.paulgraham.com/spam.html

Better Bayesian Filtering: http://www.paulgraham.com/better.html

Filters vs. Blacklists: http://www.paulgraham.com/falsepositives.html

The Spam-Filtering Accuracy Plateau at 99.9% Accuracy and How to Get Past It: http://crm114.sourceforge.net/Plateau_Paper.html

hirlevel@rothermetal.hu robi@rothermetal.hu ajandekkaracsonyra@medtron.hu dms@medtron.hu lipot.andrea@string.hu string@string.hu bearlock@bearlock.hu info@bestlogistics.hu bestoffice@citromail.hu oncz.illes@actel.hu kosakft@kosakft.hu loginadmin@wtcd.eu wtcd@wtcd.eu info@zebrasoftev.hu szalon@chevroletgyulai.hu ckdelta@iol.sk siklosi.zoltan@autogrid.hu info@mosolypontok.hu info@hykomm.hu info@eGlobalSurveys.com eurolock@t-online.hu info-hu@computerlinks.hu tavam@tavam.hu hotelinfo@haromsarkany.hu info@implantatum.hu nevess@nevetosok.hu info@usznp.hu tag@usznp.hu helyielnok@usznp.hu taginfo@usznp.hu adomany@usznp.hu korrupcio@usznp.hu partner@usznp.hu pszota@peugeotfabian.hu flotta@peugeotfabian.hu info@fabianbudaors.hu info@peugeotfabian.hu ertekesites@peugeotfabian.hu vevoszolgalat@peugeotfabian.hu alkatresz@peugeotfabian.hu hasznaltauto@peugeotfabian.hu varga@peugeotfabian.hu biroandras@peugeotfabian.hu biztositas@peugeotfabian.hu alkatresz@peugeotfabian.hu pappz@peugeotfabian.hu ertekesites@peugeotfabian.hu galambos@peugeotfabian.hu info@tintakiado.hu info@szakemberlista.hu dora.durjanc@dft-hungaria.hu szabo.judit@vasar.info info@csicsergo.hu info@vamdesign.hu info@civilmozgalom.hu uveges.szilvia@operagardenhotel.hu g.faska@operagardenhotel.hu sales@operagardenhotel.hu operagarden@operagardenhotel.hu sprinter@sprinterkiado.hu info@csicsergo.hu iwiw@civilmozgalom.hu ruzsicsm@csicsergo.hu hejja@csicsergo.hu seres@seresmaria.hu cmiroda@gmail.com civilmozgalom@gmail.com civilek@civilmozgalom.hu hibajelzesek@gmail.com kovari.erika@sprintmotorsport.com info@sprintmotorsport.com horvath.lazar@sprintmotorsport.com stiefel@stiefel.hu nagyker@stiefel.hu iskola@stiefel.hu ceges@stiefel.hu grafika@stiefel.hu grafika@stiefel.hu mintabolt@stiefel.hu info@natureshade.hu akcio@ssi-schaefer.hu info@ssi-schaefer.hu info@siodigit.hu sales@moziakertben.hu info@tunderkertkiado.hu diana.balogh@tunderkertkiado.hu ugyfelszolgalat@tunderkertkiado.hu info@netadmin.hu marketing@netadmin.hu helpdesk@netadmin.hu 7even@7even.hu regdony.jozsef@7even.hu 7even@affero.hu papp.csaba@7even.hu info@gumipark.hu marketing@ajandekozz.hu ugyfelszolgalat@maxxoutlet.hu info@ugyfelszolgalat@maxxoutlet.hu trainex@trainex.hu info@trainex.hu kcswolf@freemail.hu info@boldogjovo.eu nyomda@sprinternyomda.hu iroda@sprinternyomda.hu kepviselet@civilmozgalom.hu info@bidstorm.eu havancsak@havancsak.hu laszlo.havancsak@havancsak.hu aniko@havancsak.hu hirlevel@havancsak.hu hambek@havancsak.hu diadvd@diadvd.hu ugyvezeto@gyalog-h.hu info@fiszmedia.hu info@sabanorm.hu szfvar@sabanorm.hu bp@sabanorm.hu fodor.geza@yokozuna.hu info@yokozuna.hu ugyfelszolgalat@edmax.hu info@kazanwebaruhaz.hu info@klimawebaruhaz.hu info@dolphio.hu hr@dolphio.hu gasztonyi.peter@dolphio.hu support@news.dolphio.hu info@khf.hu info@cid.hu kozponti@ceg-info.hu info@1gomboc.hu info@magicice.hu marketing@magicice.hu eszekid@epitoforum.hu mek@epitoforum.hu szalaip@epitoforum.hu ferovicsz@epitoforum.hu dancsod@epitoforum.hu epkontroll@gmail.com info@brandshop24.hu pipoly@kizmantravel.com office@tanacsos.hu koveteles@tanacsos.hu edmbudapest@yahoo.com igazgyongy@dravanet.hu bathori@bathori.hu kincskereso@geniuszegyuttes.hu mesterember2010@gmail.com lykosmelas@gmail.com pongraczgabor@t-online.hu hello@marketingcommando.hu info@spp.hu info@lapszemle.hu register@re-search.hu info@re-search.hu info@uzletitervek.hu info@plutoreklam.hu plutoreklam@plutoreklam.hu leskovicspiro@t-online.hu tuzijatek-varazs@tuzijatek-varazs.hu ertekesites@crevo.hu info@crevocorp.hu gero.daniel@crevo.hu bonyar.miklos@crevo.hu support@crevo.hu tanacs.gabriella@crevo.hu gyartas@crevo.hu ksv@ksv.hu ugyfelszolgalat@ksv.hu voros.szilvia@ksv.hu balazs.eszter@ksv.hu info@forpsi.hu emailleiratkozas@freemail.hu domain@forpsi.hu admin@forpsi.hu szamlazas@forpsi.hu claim@forpsi.hu info@diamondtopconsult.hu berecz@diamondtopconsult.hu morocz@diamondtopconsult.hu den@opinionleaders.hu info@hirmedia.hu info@infosierra.hu tollasroland@gmail.com klimaklub@klimaklub.hu servian@t-online.hu fazekas.laszlo@borturak.hu info@borturak.hu simon.ariann@borturak.hu info@kftmarketing.hu marketing@hunguest-fenyo.ro fenyo@hr.astral.ro reserve@hunguest-fenyo.ro info@kolyokangol.hu hnemeth.viktoria@gmail.com katalin.welker@samling.hu balazs.sutka@samling.hu nora.sandor@samling.hu stella.erenyi@samling.hu peter.szabo@samling.hu katalin.kormos@samling.hu eva.sandor@samling.hu vera.tuba@samling.hu info@samling.hu info@neosoft.hu karasz.balazs@neosoft.hu bernadett@neosoft.hu viktor@neosoft.hu hirlevel@samling.hu info@kockazatertekeles.info munkavedelem@kockazatertekeles.info hepplaszlo@mediatime.hu hiba@szexpartnerem.net adooptimalizalas2010@gmail.com tollrol@vipmail.hu profitkommando@freemail.hu info@yourlife2000.hu info@mall.hu replyhu@nrholding.com info@konyvnet.hu konyvnetrendeles@gmail.com konyvnet.hu@gmail.com mail@fitmail.hu wellonline.hu@gmail.com info@lightmedia.hu kortvelyesi@t-online.hu info@i-business.hu director@caramell.hu titkarsag@caramell.hu salesdirector@caramell.hu marketing@caramell.hu info@caramell.hu info@elonyelvek.hu info@toeflibt.hu elonyelv@t-online.hu dmleiratkozas@freemail.hu uzemeltetes@evisual.eu elonyelvek@yahoo.com info@honlapteszt.hu hello@verdesjanos.hu info@zug.hu szerkesztoseg@zug.hu rolesz.tollaroand@citromail.hu info@jampub.hu informacio@cegnezo.hu ugyvezeto@cegnezo.hu marketing@cegnezo.hu jog@cegnezo.hu ertekesites@cegnezo.hu rendszerfejlesztes@cegnezo.hu tech@cegnezo.hu webmester@cegnezo.hu info@cegnezo.hu info@zarrud.hu henczi@enternet.hu henczi@mnyomozo.hu office@sport-gala.hu rendezvenyszervezes@sport-gala.hu hegyi@sport-gala.hu ferenczi.gabor@diotimail.com hirdetes@pont24.hu info@pont24.hu informacio@pont24.hu ugyfelszolgalat@alkupiac.hu ugyfelszolgalat@ingatlan24.com mail@holisztikusszalloda.hu bukfurdorally2010@gmail.com reklammegoldasok2011@gmail.com admin@marketingexpressz.hu ugyfelszolgalat@marketingexpressz.hu info@performia.hu informacio@netkozvetito.hu webszerk@pafi.hu szerklist@pafi.hu informacio@hitelzona.hu ugyfelszolgalat@hitelzona.com ugyfelszolgalat@szabadeuropa.com info@szabadeuropa.com info@nmsnet.hu valasz@nmsnet.hu info@horizonttitletrust.com megrendel@civilhirlap.hu civilhir.szerkesztoseg@gmail.com ugyfelszolgalat@netkozvetito.hu info@webrandi.hu czehmeiszter.j@gmail.com info@csillagvarazslo.hu leiratkoz.relaxa@t-online.hu relaxa.titkarsag@t-online.hu info@ingyenhivo.hu pfarago@skawa.hu info@skawa.hu info@tozsdeeloadasok.hu info@innoiq.hu support@innoiq.hu info@elemzeskozpont.hu info@civilhirlap.hu kerdes@gyorspenzonline.com ceginfonet@ceginfonet.hu info@ceginfobudapest.hu info@siofoknights.hu siofoknights@gmail.com tivadar.aron@arindex.hu info@arindex.hu feketem@arindex.hu zsoszeg@gmail.com info@hirlevelmegoldas.hu noreply@hitel.co.hu info@hitel.co.hu szombathely@hitel.co.hu horvath.beatrix@hitel.co.hu info@ingatlan1.hu hirdetes@ingatlan1.hu info@pannontoner.hu orsolya.rak@migaltranslations.com iroda@migal.hu ugyfelszolgalat@hitelek24.hu info@autocentrumszabo.hu info@fiatszabo.hu info@renaultszabo.hu info@fordszabo.hu info@catconsulting.hu info@zseron.com magabiztosanangolul@gmail.com csaba.schreiber@gmail.com schreibercsaba.angoltanar@gmail.com gyuratzkft@gmail.hu gyuratz@chello.hu gyuratz@upcmail.hu hirlevel@otthonteremto.hu info@otthonteremto.hu hu@migaltranslations.com info@neuronline.net iroda@kifogyott.hu error@blackservice.hu ajanlat@nyomda-nyomda.hu arajanlat@nyomda-nyomda.hu info@geonet.hu info@work24.hu bergerkonyvelo@gmail.com ingyen-konyveles@ingyen-konyveles.hu info@webmediainfo.hu hello@veddolcson.hu apongi77@gmail.com info@e-designer.hu gpek@visionext.hu gpek@gpek.hu szerkesztoseg@liferecycle.hu info@fxbulls.hu info@komarnoinyomda.hu sara.balazs@stability.hu info@mitegyek.eu info@zvk.hu office@fulldomain.hu gifton@gifton.hu pendrive_betakaritas@gifton.hu info@galoppfutar.com info@olinera.hu info@traveloutlet.hu mail@traveloutlet.hu info@mobil-homes.hu info@weblapkeszites.org.hu info@driveinstore.hu litomedia@gmail.com k.litomedia@upcmail.hu info@lineelectronic.hu ugyfelszolg@lineelectronic.hu polus@lineelectronic.hu mammut@lineelectronic.hu helpdesk@lineelectronic.hu ajanlatkeres@lineelectronic.hu csalami.janos@lineelectronic.hu hungexpo@hungexpo.hu info@hungexpo.hu pakozdi.jozsef1@hungexpo.hu sprinternyomda.kartyanaptar@happycard.hu tomibohoc@upcmail.hu varionett@upcmail.hu andrejszki.tamas@upcmail.hu info@orvoshop.hu e-dm@orvoshop.hu ranc-stop@ranc-stop.hu info@ekszershop.eu ekszershop@velvet.hu info.hu@calivary.com info@myskins.hu info@vilagszam.hu autoprofi@autoprofikft.hu karg@kargauto.hu office@mobiltelefonelado.hu will.krisztian@mobiltelefonelado.hu info@mobiltelefonelado.hu info@sztarportre.hu info@cegwebtar.hu info@havasweb.hu megrendel@zoldujsag.hu info@zoldujsag.hu zoldujsag@zoldujsag.hu andrea.farkas@servian.hu info@servian.hu hirlevel@servian.hu sprinternyomda.kartyanaptar@happycard.hu info@armada.hu parallel@parallel.hu hirlevel@bormesterek.hu cashback@mosaic.co.hu info@mosaic.co.hu konyv.ba@gmail.com info@businessmails.info bosszicica@gmail.com kapcsolat@sajatnaptar2012.com kapcsolat@mypet.hu info@e-designer.hu noreply@sajatnaptar2012.com richpoinews@gmail.com hirlevel@canonshop.hu info@canonshop.hu llumar@thomyfolia.hu info@jazzypub.hu hirlevel@jazzy.hu csaba.mezei@lightmedia.hu info@lightmedia.hu jurinovics@gmail.com mail@sikereskarterites.com info@jovotervezes.hu info@minibolt.hu info@ingyenhonlapkeszites.info webaruhazkeszites2@profiknak.info webaruhazkeszites@profiknak.info info@profiknak.info info@kupongroup.hu info@szepseg-egeszsegkozpont.hu support@earnsocialeasy.com info@earnsocialeasy.com rp@navipro.hu info@gpsreklam.hu ugyfelszolg@gpsreklam.hu marketing@gpsreklam.hu ertekesites@gpsreklam.hu penzugy@gpsreklam.hu info@egikamera.hu nyomda@kimsen.hu modositas@szerszambirodalom.hu info@szerszambirodalom.hu szerviz@szerszambirodalom.hu szerszam@szerszambirodalom.hu mtz@szerszambirodalom.hu kerteszet@szerszambirodalom.hu viztisztitok@szerszambirodalom.hu info@szerszambirodalom.hu info@energiaszolgaltatok.hu ugyfelszolg@globalfaktor.hu ertekesites@klimaklub.hu info@vizmegoldas.hu dmcentrum@yahoo.com info@gronlandklima.hu bounce@gronlandklima.hu kapcsolat@onlinelevel.hu info2@heted7nyelven.hu info@heted7nyelven.hu iroda.presentgroup@gmail.com contact@akcioswellness.com andrea.farkas@granatalma.eu andrea.farkas@granatalma.hu webkozmetikus@t-online.hu gyongyip@t-online.hu info@quantumresearch.hu viktor.posa@quantumresearch.hu r.mitko62@gmail.com sales@7eveninstant.com info@kenlas.hu mosterdemese@ixor.hu mosterdemes@ixor.hu info@mosterdemes.hu kapcsolat@mosterdemes.hu partner@mosterdemes.hu job@7even.hu klausz.beata@7even.hu contact@akciosakcio.com info@cwds.hu info@vendeglatoshop.hu ugyfelszolgalat@clubkaros.hu foglalas@clubkaros.hu info@clubkaros.hu sales@karos-spa.hu marketing@karos-spa.hu iroda@nginnova.hu hirdetes@nginnova.hu hiba@nginnova.hu nginnova@gmail.com info@greenfuel.hu info@solvitzrt.com andras.szilagyi@co3app.com tunde.magyar@co3app.com tamas.gal@co3app.com peter.flamich@co3app.com support@co3app.com feri@kokinyomda.hu grafika@kokinyomda.hu nyomda@kokinyomda.hu sokshop1@gmail.com info@bonitermalpanzio.hu ugyfelszolgalat@onlinemarketing247.hu info@onlinemarketing247.hu

© 2008-2012 SPAMtelenül. All rights reserved.  |  Feedback: sj@acts.hu  (public key) Atlassian JIRA