RWCP 形態素解析実験結果(Gaussian prior 付前進 MEMM)

マシン

fir (XEON 2.8G, 4.0GB, Gentoo Linux 2005.1)

素性

RWCP 標準設定
コーパス中の出現頻度3回未満の素性を破棄

未知語処理

5文字未知語全展開
1回出現の単語を全て擬似未知語として学習

その他パラメータ

素性数:
ユニークな単語数:18023
1回のみ出現した単語数:8928 (49.5%)

学習モデル

前進 MEMM
Gaussian prior, 全素性の分散を0.2で固定

モデルファイル

fir上 rwcp_memm_5_100_3_gaussian_02_3

学習

学習停止条件:log likelihood の相対変化が 1.0e-3 以下
Likelihood: 0.00422954 -> 0.00424362 (relative change: 0.00332914)
Log likelihood: -128285 -> -128207 (relative change: 0.000608459)
# of iterations: 46
Elapsed time: 3890.22
Elapsed time per iteration: 84.57

デコード

MEMM 用前進 Viterbi

定量評価

Precision of segmentation: 176343 / 187114 = 0.942436
Recall of segmentation: 176343 / 186414 = 0.945975
F-measure of segmentation: 0.944202

Unknown word recall: 4669 / 8748 = 0.533722

考察