2006-04-16

■

マシン

elm

モデルファイル

elm 上 rwcp_memm_5_100_3_gaussian_007_3

学習

Likelihood: 0.00161736 -> 0.00162545 (relative change: 0.00500255)
Log likelihood: -150847 -> -150730 (relative change: 0.000777033)
# of iterations: 29
Elapsed time: 2409.75
Elapsed time per iteration: 83.0948

定量評価

Precision of segmentation: 175268 / 186480 = 0.939876
Recall of segmentation: 175268 / 186414 = 0.940208
F-measure of segmentation: 0.940042

Unknown word recall: 0.521376

2006-04-16

■

Research Whitepaper Experiment

マシン

vine

モデルファイル

vine 上 rwcp_memm_5_100_6_3

学習

Likelihood: 0.00843418 -> 0.00841299 (relative change: 0.00251864)
Log likelihood: -112085 -> -112144 (relative change: 0.000526751)
# of iterations: 54
Elapsed time: 5159.95
Elapsed time per iteration: 95.5546

定量評価

Precision of segmentation: 176593 / 187056 = 0.944065
Recall of segmentation: 176593 / 186414 = 0.947316
F-measure of segmentation: 0.945688

Unknown word recall: 0.578875

考察

ありゃ？有意に良くなってる？やはり素性頻度の足きりラインはもうちょい上にすべきか．一応他の素性頻度足きりでの結果待ち．
あと，前々から聞いてはいたけれど prior かけないと収束に致命的に時間がかかるね．

2006-04-16

■

Reseach Whitepaper Experiment

マシン

fir (XEON 2.8G, 4.0GB, Gentoo Linux 2005.1)

素性

RWCP 標準設定
全コーパス中の出現頻度3回未満の素性を破棄

未知語処理

5文字未知語全展開
1回出現の単語を全て擬似未知語として学習

その他パラメータ

素性数：
ユニークな単語数：18023
1回のみ出現した単語数：8928 (49.5%)

学習モデル

前進 MEMM
Gaussian prior, 全素性の分散を0.09で固定

学習

Likelihood: 0.00203316 -> 0.00203898 (relative change: 0.00286099)
Log likelihood: -120815 -> -120742 (relative change: 0.00046114)
# of iterations: 31
Elapsed time: 2598.67
Elapsed time per iteration: 83.8281

定量評価

Precision of segmentation: 176075 / 187001 = 0.941573
Recall of segmentation: 176075 / 186414 = 0.944537
F-measure of segmentation: 0.943053

Unknown word recall: 0.544582

考察

2006-04-16

RWCP 形態素解析実験結果（前進 MEMM）

Research Whitepaper Experiment

マシン

elm (XEON 2.8G, 4.0GB, Gentoo Linux 2005.1)

素性

RWCP 標準設定
全コーパス中の出現頻度3回未満の素性を破棄

未知語処理

5文字未知語全展開
1回出現の単語を全て擬似未知語として学習

その他パラメータ

素性数：
ユニークな単語数：18023
1回のみ出現した単語数：8928 (49.5%)

学習モデル

前進 MEMM
Gaussian prior, 全素性の分散を0.3で固定

学習

Likelihood: 0.00581434 -> 0.00583248 (relative change: 0.00311974)
Log likelihood: -120815 -> -120742 (relative change: 0.0006055)
# of iterations: 54
Elapsed time: 4573.94
Elapsed time per iteration: 84.7026

定量評価

Precision of segmentation: 176739 / 187836 = 0.940922
Recall of segmentation: 176739 / 186414 = 0.948099
F-measure of segmentation: 0.944497

Unknown word recall: 4593 / 8748 = 0.525034

考察

variance に対する精度の傾向がつかめてきたので収束条件強めますか．

2006-04-16

しっぱいしちゃった

Misc

なんか学習のイテレーションが異様に遅いプロセスが1個あると思ってたらオプション間違えてCRF学習させてた．めっ！

2006-04-16

RWCP 形態素解析実験結果（Gaussian prior 付前進 MEMM）

Research Whitepaper Experiment

マシン

fir (XEON 2.8G, 4.0GB, Gentoo Linux 2005.1)

素性

RWCP 標準設定
全コーパス中の出現頻度3回未満の素性を破棄

未知語処理

5文字未知語全展開
1回出現の単語を全て擬似未知語として学習

その他パラメータ

素性数：
ユニークな単語数：18023
1回のみ出現した単語数：8928 (49.5%)

学習モデル

前進 MEMM
Gaussian prior, 全素性の分散を0.2で固定

モデルファイル

fir上 rwcp_memm_5_100_3_gaussian_02_3

学習

学習停止条件：log likelihood の相対変化が 1.0e-3 以下
Likelihood: 0.00422954 -> 0.00424362 (relative change: 0.00332914)
Log likelihood: -128285 -> -128207 (relative change: 0.000608459)
# of iterations: 46
Elapsed time: 3890.22
Elapsed time per iteration: 84.57

デコード

MEMM 用前進 Viterbi

定量評価

Precision of segmentation: 176343 / 187114 = 0.942436
Recall of segmentation: 176343 / 186414 = 0.945975
F-measure of segmentation: 0.944202

Unknown word recall: 4669 / 8748 = 0.533722

考察

2006-04-16

RWCP 形態素解析実験結果（前進 MEMM）

Research Whitepaper Experiment

http://d.hatena.ne.jp/ai_azuma/20060416#1145178502 と同じ実験設定でマシンだけ変えたもの

マシン

elm

モデルファイル

elm 上 rwcp_memm_5_100_3_3

学習

Likelihood: 0.000430434 -> 0.000429505 (relative change: 0.00216254)
Log likelihood: -181917 -> -181968 (relative change: 0.00027871)
# of iteration: 14
Elapsed time: 1108.87
Elapsed time per iteration: 79.205

定量評価

precision of segmentation: 172306 / 185447 = 0.929139
recall of segmentation: 172306 / 186414 = 0.924319
F-measure of segmentation: 0.926723

unknown word recall: 4864 / 8748 = 0.556013

考察

さすがに学習の終端条件が1.0e-3と1.0e-4じゃ精度に致命的に効いてくるにゃー．