誤判定

自宅のマシン、最近どうも誤判定が多いようだ。[work]に分類されるべきメールが[spam]になってしまう。元々[work]は出現の割合自体が低く(1.38%)分類精度もよくはないのだが、[work]に分類されるべき今日のメール13通のうち11通が[spam]に分類されているのはちとひど過ぎる。
バケツ毎の単語数が

  1. mlist    3340(出現率は高い(62%)がその内90%がマグネット)
  2. personal  2321(出現率は0.53%)
  3. spam   16648(出現率は36%)
  4. work  164748(出現率が1.38%なのにどうしてこんなに必要なのか?)

となっておりバランスが悪そうな感じはするが。