March 14, 2003

ベイジアン・フィルタ

●前にここで紹介したポール・グレアムの「スパムへの対策 ---A Plan for Spam」、久しぶりに見るとその続編「ベイジアン・フィルタの改善 --- Better Bayesian Filtering」が掲載されていた。門外漢にもわかりやすく読める話で、おもしろいっすよ。少なくとも英語スパムに関してはこの手法でほとんどブロックできそうだ。
●で、こういうベイジアン・フィルタを用いたメーラーがあるのかというと、実はもういくつもある。Windows用のオンラインソフトも海外ではいくつもあるようで、一つ挙げるとPOPFileなんかがそう。ただし、それなりに敷居は高くて知識のある人向け。あと、英語ソフトなので日本語の扱いがどうなるかって心配もあるので、ワタシは採用していない。
●それから同様の手法を用いたスパム・フィルタがMozzilaにも実装されているようである。これは期待できるけど、でもMozzilaを常用のメーラーにするのはまだためらわれるなあ。
●で、ワタシは結局どうしているかっていうと、これがなんとかいい方法を思いついたんである。99%はムリだけど、たぶん90%近くはシャットアウトできてる。日本語産オンラインソフトSpam Mail Killerを使っていろいろなフィルタ設定を試みた後で、結局そこで作った振り分け条件を全部常用のメーラー(鶴亀メールだ)の振り分け条件に移すことにした。これ、正規表現が使えないのは惜しいんだけど、うまくフィルタを設定してやるとなかなか気持ちよくスパムをゴミ箱に放り込んでくれるのだ。
●どんなフィルタを書いたかっていう話は機会があればまた改めて。ベイジアン・フィルタのような統計的手法なんか使えないので、ヘッダと本文情報から特定語句を条件検索するだけの原始的な代物っす。(03/14)

●追伸。現在ではPOPFileは日本語対応されてて、最強のスパム・フィルタであります。(2004/01/18)

このブログ記事について

ひとつ前の記事は「アヤックスvsバレンシア」です。

次の記事は「マリノスvsFC東京」です。

最新のコンテンツはインデックスページへ。過去に書かれた記事はアーカイブのページへ。

ショップ

国内盤は日本語で、輸入盤は欧文で検索。