March 14, 2003

ベイジアン・フィルタ

●前にここで紹介したポール・グレアムの「スパムへの対策 ---A Plan for Spam」、久しぶりに見るとその続編「ベイジアン・フィルタの改善 --- Better Bayesian Filtering」が掲載されていた。門外漢にもわかりやすく読める話で、おもしろいっすよ。少なくとも英語スパムに関してはこの手法でほとんどブロックできそうだ。
●で、こういうベイジアン・フィルタを用いたメーラーがあるのかというと、実はもういくつもある。Windows用のオンラインソフトも海外ではいくつもあるようで、一つ挙げるとPOPFileなんかがそう。ただし、それなりに敷居は高くて知識のある人向け。あと、英語ソフトなので日本語の扱いがどうなるかって心配もあるので、ワタシは採用していない。
●それから同様の手法を用いたスパム・フィルタがMozzilaにも実装されているようである。これは期待できるけど、でもMozzilaを常用のメーラーにするのはまだためらわれるなあ。
●で、ワタシは結局どうしているかっていうと、これがなんとかいい方法を思いついたんである。99%はムリだけど、たぶん90%近くはシャットアウトできてる。日本語産オンラインソフトSpam Mail Killerを使っていろいろなフィルタ設定を試みた後で、結局そこで作った振り分け条件を全部常用のメーラー(鶴亀メールだ)の振り分け条件に移すことにした。これ、正規表現が使えないのは惜しいんだけど、うまくフィルタを設定してやるとなかなか気持ちよくスパムをゴミ箱に放り込んでくれるのだ。
●どんなフィルタを書いたかっていう話は機会があればまた改めて。ベイジアン・フィルタのような統計的手法なんか使えないので、ヘッダと本文情報から特定語句を条件検索するだけの原始的な代物っす。(03/14)

●追伸。現在ではPOPFileは日本語対応されてて、最強のスパム・フィルタであります。(2004/01/18)

Posted by iio at March 14, 2003 05:02 AM

What's New! Archives
July 2006
June 2006
May 2006
April 2006
March 2006
February 2006
January 2006
December 2005
November 2005
October 2005
September 2005
August 2005
July 2005
June 2005
May 2005
April 2005
March 2005
February 2005
January 2005
December 2004
November 2004
October 2004
September 2004
August 2004
July 2004
June 2004
May 2004
April 2004
March 2004
February 2004
January 2004
December 2003
November 2003
October 2003
September 2003
August 2003
July 2003
June 2003
May 2003
April 2003
March 2003
February 2003
January 2003
December 2002
November 2002
October 2002
September 2002
August 2002
July 2002
June 2002
May 2002
April 2002
March 2002
February 2002
January 2002
July 2001