This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Bayesian filtering in SpamAssassin

I have some queries on Bayesian filtering in SpamAssassin in latest ASL.

Tom wrote this a while ago:
"The next Up2Date has SpamAssassin 2.55, that has a self-learning bayesian component. It does not require user interaction, so it is easy to implement. We do not currently plan to put in a bayesian component that requires user feedback."

1) Is this currently implemented ?
2) Tom states "self-learning" how does this work with no user feedback ?
3) Would Astaro reconsider the "no user feedback" statement ?  It seems to me a few extra options in the SMTP proxy content manager such as "Delete as Spam" etc would be easy to implement ?

I have implemented SpamBayes (see SourceForge) in my MS Outlook client and it works FANTASTICALLY.  I'd say it catches 99% of all spam at a guess and I think something like this would be well worth the effort.

(I trained SpamBayes on around 600 spam emails and 800 or so "ham" messages).

 


This thread was automatically locked due to age.
  • >Tom wrote this a while ago:
    >"The next Up2Date has SpamAssassin 2.55, that has a self-
    >learning bayesian component. It does not require user 
    >interaction, so it is easy to implement. We do not currently 
    >plan to put in a bayesian component that requires user 
    >feedback."

    sounds perfect. where did tom write this ? here on the forum ?

    Bayesian filtering on the gateway is what we are waiting for. our users are still complainig about false positives/negatives ...

    greets,

    gnjb  
  • Yes, was written on the forum a while ago.

    Use the search function  [;)] 
  • If Astaro is using SpamAssassin as is with it's default auto-learning capabilities, here's how it works:

    If the SA rules generate enough positive points on an email where it's positive that it's SPAM, it will parse and insert the message into the bayes database.

    Conversely, if the SA rules generate enough of negative points on an email, it will automatically train it's bayes database with the message as ham.

    In theory, what this will do is re-inforce the rules that SA comes with while adding new words which may be detected as spam or ham.

    In practice, I haven't found that this makes SA much more effective than stock.  In order to really prevent SA from generating false positives and negatives, you need to train most messages into the bayes database.

    FWIW, I've also found that SA 2.55 lets a lot more spam through than SA 2.60.

    IMO, Auto-learning bayes filters are pretty useless.  If you want to try an adaptable Bayes filter give POPFile a shot.  If you really want to use spamassassin, use it on your internal mail server there where you can train it a bit easier.

    The Spamassassin website has tons of online documentation describing how things work in detail, check it out.  
  • Thanks for the post, you confirmed what I suspected, without actual training the Bayesian filter lacks a lot of punch.

    A few extra options in the SMTP queue page to delete mail as spam or dequeue as ham would probably make a world of difference.

    SpamBayes works brilliantly after training.  I have had maybe 2-3 false positives out of 1000's of mails and 99% hits on spam. 
  • I agree, autolearning bayesian is not so great... It'd be nice if the proxy had a facility to submit folders of ham and spam to train the filter... It's a simple command-line in spamassassin... Although I guess once I see the installation I could write up the commands for you guys, just log in and do it once. Generally, about 1000 messages of each will give good results.

    Another thing about SpamAssassin... Are they going to have Razor2 support in the Up2Date version? I find that Razor2 is a GREAT addition to the base SA rules. On my mail server I have it bumped to 5.0 points, so any spam coming in that is listed as spam with a confidence > 50% gets immediately past the threshold, and that much closer to bayesian auto-learning.

    Of course, I'd like to see 2.60 support instead of 2.55... So many great additions, seems like it'd be worth it to skip 2.55.  
  • i would prefer dcc (http://www.rhyolite.com/anti-spam/dcc/) as online database for spam. we had more hits with dcc than with razor.

    gnjb   
  • gnujuba
    Oooh, DCC... You know, I didn't know SA supported DCC. I'm gonna go install that on my box right away. Thanks! 
  • Was looking around in the diffrent threads, And found this thread.

    I posted an wichlist this summer, where i was asking for an bayersian component. 

    The reason why i now reply to this thread is, A friend of mine has en standalone box for spam (NOT ASL)

    It is based on three functions. 
    Spamassassin
    Bayesian (No user feedback)
    DCC

    When he installed the product he activated all functions but choose not to tag spam mails if they got there points from the bayesian component. After 45-60 days he swiched the tagging on. Becource after that time the learning system had learnd about there company (1000-1500 users)

    Before they had an spamprotection he got around 100 spammails a day,

    Before the activation/tagging by bayesian the system killed about 90% of his spam. I asked him as late as last week how good the system is now. Well he said that the system now has an hit rate about 99% (Amazing!!)


    According to him is thanks to the bayesian component.