ランダムワード法ではベイジアンフィルタは破れない

http://med-legend.com/mt/archives/2004_07.html#000403

MT のスパムコメントにランダムワードスパムが来たという話。医学都市伝説管理人曰く:

スパムとしての目的なら、はじめの三行ですでに達せられているはずなのに、なんでこんな単語の羅列を付け加える必要があるのだろう。無意味な文章でフィルタリングを避けるという目的なのかなと考えたりするが、それならはじめからない方がましだろう。

フィルタによるかと思いますが最近流行のベイジアンフィルタはランダムワード法では突破できないそうです。ソフトウェア板 POPFile スレより(改行位置は修正):

From: [558] 名無しさん@お腹いっぱい。 <sage>
Date: 04/01/15 19:56 id:wm3IYQfg

なんか最近こんな感じのspamが来るんだが…

Text/Plain のパート:
benson downey cathedral pirate cockroach tigris rowland dnieper aggregate cozen citrus borough circumsphere rabbit carven episode conic engle bobcat bowfin cryptography

Text/Html のパート:
<HTML><HEAD>
<BODY>
<p>Fr</asterisk>ee Ca</constantine>ble%RND_SYB TV</p>
<a href="http://xxxxxxxxxxx/cable/">
<img border="0" src="http://xxxxxxxxxxx/xxx.jpg"></a>
hyacinth hold anomaly distort introvert sauce boca edge horseshoe coequal luger sage jill deductible provide tomb around cautionary kiva winkle tidewater firepower medford shan't fateful mutineer contradict dodge revertive parasol portrait demonstrate audio catatonia augean matroid implicant victual doldrum <BR> brazen drawbridge were levis twist privy mundane diffusion icky stewart adulthood guarantee gog mug propensity robotic hefty durrell soffit sonority megalomania blitz executrix neumann nit lineup crocodilian <BR>
</BODY>
</HTML>

英文のところはランダムな単語を並べただけっぽい。
今のところ spam に分類されてくれるけど、こういうのをいっぱい学習してしまうと、無関係な単語と spam を関連づけるようになって分類精度が低下してしまう気がする。
________________________________________

From: [559] 名無しさん@お腹いっぱい。 <sage>
Date: 04/01/15 20:09 id:OwBbl66b

>>558 気にするな。
http://shiro.dreamhost.com/scheme/trans/ffb-j.html

(追記) 上の http://shiro.dreamhost.com/scheme/trans/ffb-j.html にあるように、通常ランダムワードや無関係な引用文などはフィルタ突破に効果はないとされているのですが、こんな記事もあるようです(via: [id:b4-tt:20040706#1089074006]):

http://internet.watch.impress.co.jp/cda/event/2004/07/05/3774.html

● もはやベイジアンフィルタは不要どころか有害?
 前半は吉村氏による、サーバーレベルでのスパムフィルタリングの実際についての解説が主となった。
(中略)
 その上で、スパムメールを排除するためのフィルタリング技術について、最近多くのメールソフトやアンチスパムソフトに採用されつつあるベイジアンフィルタを「以前はスパムメールを1万通、非スパムメールを1万通学習させればほとんど誤認識はなくなると言われていたが、最近は全然関係ない長い文章をメールの後ろにくっつけるなど、スパムの送信者がベイジアンフィルタをかく乱してくるようになった」として、有効性が低下しているとの認識を示した。

これはたぶん「サーバーレベル」でのフィルタリングというところに問題があるのかと想像。クライアントレベルだと特定のユーザに届くメールの単語分布には一定の傾向があるけど、サーバレベルで多数のユーザのメールを使ってフィルタ用辞書を作ると個人毎の傾向が打ち消し合って単語の分布が平均化されてランダムワードや引用文などにマッチしやすくなってしまうのでは?