This discussion has been locked.
You can no longer post new replies to this discussion. If you have a question you can start a new discussion

Bayesian filtering in SpamAssassin

I have some queries on Bayesian filtering in SpamAssassin in latest ASL.

Tom wrote this a while ago:
"The next Up2Date has SpamAssassin 2.55, that has a self-learning bayesian component. It does not require user interaction, so it is easy to implement. We do not currently plan to put in a bayesian component that requires user feedback."

1) Is this currently implemented ?
2) Tom states "self-learning" how does this work with no user feedback ?
3) Would Astaro reconsider the "no user feedback" statement ?  It seems to me a few extra options in the SMTP proxy content manager such as "Delete as Spam" etc would be easy to implement ?

I have implemented SpamBayes (see SourceForge) in my MS Outlook client and it works FANTASTICALLY.  I'd say it catches 99% of all spam at a guess and I think something like this would be well worth the effort.

(I trained SpamBayes on around 600 spam emails and 800 or so "ham" messages).

 


This thread was automatically locked due to age.
Parents
  • If Astaro is using SpamAssassin as is with it's default auto-learning capabilities, here's how it works:

    If the SA rules generate enough positive points on an email where it's positive that it's SPAM, it will parse and insert the message into the bayes database.

    Conversely, if the SA rules generate enough of negative points on an email, it will automatically train it's bayes database with the message as ham.

    In theory, what this will do is re-inforce the rules that SA comes with while adding new words which may be detected as spam or ham.

    In practice, I haven't found that this makes SA much more effective than stock.  In order to really prevent SA from generating false positives and negatives, you need to train most messages into the bayes database.

    FWIW, I've also found that SA 2.55 lets a lot more spam through than SA 2.60.

    IMO, Auto-learning bayes filters are pretty useless.  If you want to try an adaptable Bayes filter give POPFile a shot.  If you really want to use spamassassin, use it on your internal mail server there where you can train it a bit easier.

    The Spamassassin website has tons of online documentation describing how things work in detail, check it out.  
  • Was looking around in the diffrent threads, And found this thread.

    I posted an wichlist this summer, where i was asking for an bayersian component. 

    The reason why i now reply to this thread is, A friend of mine has en standalone box for spam (NOT ASL)

    It is based on three functions. 
    Spamassassin
    Bayesian (No user feedback)
    DCC

    When he installed the product he activated all functions but choose not to tag spam mails if they got there points from the bayesian component. After 45-60 days he swiched the tagging on. Becource after that time the learning system had learnd about there company (1000-1500 users)

    Before they had an spamprotection he got around 100 spammails a day,

    Before the activation/tagging by bayesian the system killed about 90% of his spam. I asked him as late as last week how good the system is now. Well he said that the system now has an hit rate about 99% (Amazing!!)


    According to him is thanks to the bayesian component.
      
Reply
  • Was looking around in the diffrent threads, And found this thread.

    I posted an wichlist this summer, where i was asking for an bayersian component. 

    The reason why i now reply to this thread is, A friend of mine has en standalone box for spam (NOT ASL)

    It is based on three functions. 
    Spamassassin
    Bayesian (No user feedback)
    DCC

    When he installed the product he activated all functions but choose not to tag spam mails if they got there points from the bayesian component. After 45-60 days he swiched the tagging on. Becource after that time the learning system had learnd about there company (1000-1500 users)

    Before they had an spamprotection he got around 100 spammails a day,

    Before the activation/tagging by bayesian the system killed about 90% of his spam. I asked him as late as last week how good the system is now. Well he said that the system now has an hit rate about 99% (Amazing!!)


    According to him is thanks to the bayesian component.
      
Children
No Data