■
マシン
elm (XEON 2.8G, 4.0GB, Gentoo Linux 2005.1)
素性
RWCP 標準設定
全コーパス中の出現頻度3回未満の素性を破棄
未知語処理
5文字未知語全展開
1回出現の単語を全て擬似未知語として学習
その他パラメータ
素性数:
ユニークな単語数:18023
1回のみ出現した単語数:8928 (49.5%)
学習モデル
前進 MEMM
Gaussian prior, 全素性の分散を0.08で固定
学習
Likelihood: 0.0015309 (relative change: 0.00436969)
Log likelihood: -152137 -> -152034 (relative change: 0.000673122)
# of iterations: 25
Elapsed time: 2057.86
Elapsed time per iteration: 82.3144
定量評価
Precision of segmentation: 176454 / 189024 = 0.933501
Recall of segmentation: 176454 / 186414 = 0.946571
F-measure of segmentation: 0.93999
Unknown word recall: 4446 / 8748 = 0.50823
考察
variance をこれ(0.08)以下にするとたぶん精度下がりっぱと予想.