RWCP 形態素解析実験結果(前進 MEMM)

マシン

indigo (Athlon XP 2500+, 1.5GB メモリ)

素性

RWCP 標準設定.

実験設定

  • 5文字未知語全展開
  • 1回出現の単語を全て擬似未知語として学習
  • 3回以上出現する素性のみ
  • 学習停止条件:log likelihood の相対変化が 1.0e-3 以下

その他パラメータ

素性数:122025
ユニークな単語数:18023
1回のみ出現した単語数:8928 (49.5%)

学習モデル

前進 MEMM,prior なし

学習速度

学習イテレーション回数:13
時間:30950s
1イテレーション平均時間:2380s

モデルファイル名

indigo 上 rwcp_memm_5_100_3_3

評価結果

precision for sentences with correct segmentations: 1013 / 7336 = 0.138086
precision for sentences with correct words: 468 / 7336 = 0.063795

precision for segmentations: 143301 / 172812 = 0.829231
recall for segmentations: 143301 / 186414 = 0.768724
F-measure for segmentations: 0.797832

precision for POS: 136240 / 172812 = 0.788371
recall for POS: 136240 / 186414 = 0.730846
F-measure for POS: 0.75852

precision for fine POS: 130682 / 172812 = 0.756209
recall for fine POS: 130682 / 186414 = 0.701031
F-measure for fine POS: 0.727575

precision for words: 129822 / 172812 = 0.751233
word recall per words: 129822 / 186414 = 0.696418
F-measure for words: 0.722787

recall for unknown words: 3306 / 8748 = 0.377915

考察

恐らく学習回数が根本的に不足している.
学習停止条件を 1.0e-4 で再度実験予定.