RWCP 形態素解析実験結果(前進 MEMM)
マシン
indigo (Athlon XP 2500+, 1.5GB メモリ)
素性
RWCP 標準設定.
実験設定
- 5文字未知語全展開
- 1回出現の単語を全て擬似未知語として学習
- 3回以上出現する素性のみ
- 学習停止条件:log likelihood の相対変化が 1.0e-3 以下
その他パラメータ
素性数:122025
ユニークな単語数:18023
1回のみ出現した単語数:8928 (49.5%)
学習モデル
前進 MEMM,prior なし
モデルファイル名
indigo 上 rwcp_memm_5_100_3_3
評価結果
precision for sentences with correct segmentations: 1013 / 7336 = 0.138086
precision for sentences with correct words: 468 / 7336 = 0.063795
precision for segmentations: 143301 / 172812 = 0.829231
recall for segmentations: 143301 / 186414 = 0.768724
F-measure for segmentations: 0.797832
precision for POS: 136240 / 172812 = 0.788371
recall for POS: 136240 / 186414 = 0.730846
F-measure for POS: 0.75852
precision for fine POS: 130682 / 172812 = 0.756209
recall for fine POS: 130682 / 186414 = 0.701031
F-measure for fine POS: 0.727575
precision for words: 129822 / 172812 = 0.751233
word recall per words: 129822 / 186414 = 0.696418
F-measure for words: 0.722787
recall for unknown words: 3306 / 8748 = 0.377915
考察
恐らく学習回数が根本的に不足している.
学習停止条件を 1.0e-4 で再度実験予定.