RWCP 形態素解析実験(Gaussian prior 付前進 MEMM)

マシン indigo (Athlon XP 2500+, 1.5GB メモリ, WindowsXP Professional SP2) 素性 RWCP 標準設定 全コーパス中の出現頻度3回未満の素性を破棄 未知語処理 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 その他パラメータ 素性数:122025 ユ…

RWCP 形態素解析実験結果(前進 MEMM)

マシン indigo (Athlon XP 2500+, 1.5GB メモリ, WindowsXP Professional SP2) 素性 RWCP 標準設定 全コーパス中の出現頻度3回未満の素性を破棄 未知語処理 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 その他パラメータ 素性数:122025 ユ…

マシン elm (XEON 2.8G, 4.0GB, Gentoo Linux 2005.1) 素性 RWCP 標準設定 全コーパス中の出現頻度3回未満の素性を破棄 未知語処理 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 その他パラメータ 素性数: ユニークな単語数:18023 1回のみ…

モデルファイル fir 上 rwcp_memm_5_100_3_gaussian_006_4 学習 Likelihood: 0.00161002 -> 0.00160954 (relative change: 0.000299355) Log likelihood: -150954 -> -150961 (relative change: 4.6538e-05) # of iterations: 43 Elapsed time: 3478.64 Elap…

モデルファイル vine 上 rwcp_memm_5_100_4_gaussian_01_4 学習 Likelihood: 0.00246398 -> 0.00246451 (relative change: 0.000217275) Log likelihood: -140966 -> -140961 (relative change: 3.61738e-05) # of iterations: 39 Elapsed time: 3680.56 Ela…

モデルファイル elm 上 rwcp_memm_5_100_3_gaussian_007_4 学習 Likelihood: 0.0018627 -> 0.00186286 (relative change: 8.72443e-05) Log likelihood: -147532 -> -147530 (relative change: 1.38793e-05) # of iterations: 45 Elapsed time: 4045.44 Elap…

モデルファイル vine 上 rwcp_memm_5_100_7_3 定量評価 Precision of segmentation: 0.946886 Recall of segmentation: 0.950304 F-measure of segmentation: 0.948592Unknown word recall: 5061 / 8748 = 0.578532 学習 Likelihood: 0.0175425 -> 0.0176104…

定量評価

Precision of segmentation: 0.944547 Recall of segmentation: 0.949285 F-measure of segmentation: 0.94691Unknown word recall: 4810 / 8748 = 0.54984

モデルファイル elm 上 rwcp_memm_5_100_3_gaussian_03_4 学習 Likelihood: 0.00654227 -> 0.0065402 (relative change: 0.000317038) Log likelihood: -118047 -> -118054 (relative change: 6.30261e-05) # of iterations: 77 Elapsed time: 6805.8 Elapse…

モデルファイル oak 上 rwcp_memm_5_100_5_3 学習 Likelihood: 0.0203931 -> 0.0204643 Log likelihood: -91362.3 -> -91280.5 # of iterations: 116 Elapsed time: 9879.52 Elapsed time per iteration: 85.16883 定量評価 Precision of segmentation: 0.94…

モデルファイル oak 上 rwcp_memm_5_100_4_3 学習 Likelihood: 0.0112001 -> 0.0112158 (relative change: 0.00139805) Log likelihood: -105428 -> -105395 (relative change: 0.000311123) # of iterations: 67 Elapsed time: 5740.31 Elapsed time per it…

マシン fir モデルファイル fir 上 rwcp_memm_5_100_3_gaussian_009_4 学習 Likelihood: 0.00208771 -> 0.00208778 (relative change: 3.29562e-05) Log likelihood: -144856 -> -144855 (relative change: 5.33984e-06) # of iterations: 45 Elapsed time: …

マシン fir モデルファイル fir 上 rwcp_memm_5_100_3_gaussian_01_4 学習 Likelihood: 0.00249952 -> 0.00249805 (relative change: 0.000589109) Log likelihood: -140630 -> 140644 (relative change: 9.82926e-05) # of iterations: 54 Elapsed time: 46…

RWCP 形態素解析実験結果(前進 MEMM)

マシン indigo (Athlon XP 2500+, 1.5GB メモリ) 素性 RWCP 標準設定. 実験設定 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 3回以上出現する素性のみ 学習停止条件:log likelihood の相対変化が 1.0e-4 以下 その他パラメータ 素性数:12…

論文枠組み構築開始

何か並行して3つのこと(実験・実装・論文)やってるっぽ.論文は箇条書きを始めたものの,なんか trigram CRF みたいなキラーな実験の結果が出ないと単に内元さんのを CRF でやっただけと言われるっぽ.

Node/Arc -> Feature Vector のプロパティマップを独立に設計・実装したいけれど, MEMM も CRF も同一の unigram に対する素性ベクトル生成を頻繁に要求するから,やっぱ先に unigram 素性(node の素性)の抽出だけ pre-flight して, forward/backward の…

後進 Viterbi 実装完了

後進 Viterbi 実装完了. Multi BOS/EOS に対応したので N-gram Lattice で走らせることができるはずっぽ.

N-gram Lattice 拡張のための Multi BOS/EOS

N-gram Lattice 拡張に向けていろんな設計方針があるけれど, BOS/EOS 状態(正確には BOS/EOS を含む状態)が現行のように1つであると仮定するのではなくて, Lattice 中に複数存在できるようにするのが多分一番楽な感じだし,一般的な気がするのでそれで行…

gramity

N-gram でいくつの語履歴を見るかっていうその数値あるでしょ. unigram なら 1 で bigram なら 2 で trigram なら 3 っていう.この数値のことを表す単語が欲しい.なんか探しても見つからないのでここに gramity という言葉を提案してみるテスト. だめぽ?

後進 MEMM 実装完了

後進 MEMM (単に後ろ向きになっただけの MEMM)実装終わり.実装って言うか,前進 MEMM のうちの数行を書き換えただけ. っていうかこれ作ったなら後ろ向きの Viterbi 要るよねっていう.

train_memm.cpp の実装変更

train_memm.cpp で素性抽出のコードを変更. feature_vector に直接出力するようにした.

RWCP 形態素解析実験結果(前進 MEMM)

マシン indigo (Athlon XP 2500+, 1.5GB メモリ) 素性 RWCP 標準設定. 実験設定 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 3回以上出現する素性のみ 学習停止条件:log likelihood の相対変化が 1.0e-3 以下 その他パラメータ 素性数:12…