RWCP 形態素解析実験結果(前進 MEMM)

マシン

elm (XEON 2.8G, 4.0GB, Gentoo Linux 2005.1)

素性

RWCP 標準設定
コーパス中の出現頻度3回未満の素性を破棄

未知語処理

5文字未知語全展開
1回出現の単語を全て擬似未知語として学習

その他パラメータ

素性数:
ユニークな単語数:18023
1回のみ出現した単語数:8928 (49.5%)

学習モデル

前進 MEMM
Gaussian prior, 全素性の分散を0.3で固定

学習

Likelihood: 0.00581434 -> 0.00583248 (relative change: 0.00311974)
Log likelihood: -120815 -> -120742 (relative change: 0.0006055)
# of iterations: 54
Elapsed time: 4573.94
Elapsed time per iteration: 84.7026

定量評価

Precision of segmentation: 176739 / 187836 = 0.940922
Recall of segmentation: 176739 / 186414 = 0.948099
F-measure of segmentation: 0.944497

Unknown word recall: 4593 / 8748 = 0.525034

考察

variance に対する精度の傾向がつかめてきたので収束条件強めますか.