マシン indigo (Athlon XP 2500+, 1.5GB メモリ, WindowsXP Professional SP2) 素性 RWCP 標準設定 全コーパス中の出現頻度3回未満の素性を破棄 未知語処理 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 その他パラメータ 素性数:122025 ユ…
マシン indigo (Athlon XP 2500+, 1.5GB メモリ, WindowsXP Professional SP2) 素性 RWCP 標準設定 全コーパス中の出現頻度3回未満の素性を破棄 未知語処理 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 その他パラメータ 素性数:122025 ユ…
マシン elm (XEON 2.8G, 4.0GB, Gentoo Linux 2005.1) 素性 RWCP 標準設定 全コーパス中の出現頻度3回未満の素性を破棄 未知語処理 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 その他パラメータ 素性数: ユニークな単語数:18023 1回のみ…
モデルファイル fir 上 rwcp_memm_5_100_3_gaussian_006_4 学習 Likelihood: 0.00161002 -> 0.00160954 (relative change: 0.000299355) Log likelihood: -150954 -> -150961 (relative change: 4.6538e-05) # of iterations: 43 Elapsed time: 3478.64 Elap…
モデルファイル vine 上 rwcp_memm_5_100_4_gaussian_01_4 学習 Likelihood: 0.00246398 -> 0.00246451 (relative change: 0.000217275) Log likelihood: -140966 -> -140961 (relative change: 3.61738e-05) # of iterations: 39 Elapsed time: 3680.56 Ela…
モデルファイル elm 上 rwcp_memm_5_100_3_gaussian_007_4 学習 Likelihood: 0.0018627 -> 0.00186286 (relative change: 8.72443e-05) Log likelihood: -147532 -> -147530 (relative change: 1.38793e-05) # of iterations: 45 Elapsed time: 4045.44 Elap…
モデルファイル vine 上 rwcp_memm_5_100_7_3 定量評価 Precision of segmentation: 0.946886 Recall of segmentation: 0.950304 F-measure of segmentation: 0.948592Unknown word recall: 5061 / 8748 = 0.578532 学習 Likelihood: 0.0175425 -> 0.0176104…
Precision of segmentation: 0.944547 Recall of segmentation: 0.949285 F-measure of segmentation: 0.94691Unknown word recall: 4810 / 8748 = 0.54984
モデルファイル elm 上 rwcp_memm_5_100_3_gaussian_03_4 学習 Likelihood: 0.00654227 -> 0.0065402 (relative change: 0.000317038) Log likelihood: -118047 -> -118054 (relative change: 6.30261e-05) # of iterations: 77 Elapsed time: 6805.8 Elapse…
モデルファイル oak 上 rwcp_memm_5_100_5_3 学習 Likelihood: 0.0203931 -> 0.0204643 Log likelihood: -91362.3 -> -91280.5 # of iterations: 116 Elapsed time: 9879.52 Elapsed time per iteration: 85.16883 定量評価 Precision of segmentation: 0.94…
モデルファイル oak 上 rwcp_memm_5_100_4_3 学習 Likelihood: 0.0112001 -> 0.0112158 (relative change: 0.00139805) Log likelihood: -105428 -> -105395 (relative change: 0.000311123) # of iterations: 67 Elapsed time: 5740.31 Elapsed time per it…
マシン fir モデルファイル fir 上 rwcp_memm_5_100_3_gaussian_009_4 学習 Likelihood: 0.00208771 -> 0.00208778 (relative change: 3.29562e-05) Log likelihood: -144856 -> -144855 (relative change: 5.33984e-06) # of iterations: 45 Elapsed time: …
マシン fir モデルファイル fir 上 rwcp_memm_5_100_3_gaussian_01_4 学習 Likelihood: 0.00249952 -> 0.00249805 (relative change: 0.000589109) Log likelihood: -140630 -> 140644 (relative change: 9.82926e-05) # of iterations: 54 Elapsed time: 46…
マシン indigo (Athlon XP 2500+, 1.5GB メモリ) 素性 RWCP 標準設定. 実験設定 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 3回以上出現する素性のみ 学習停止条件:log likelihood の相対変化が 1.0e-4 以下 その他パラメータ 素性数:12…
何か並行して3つのこと(実験・実装・論文)やってるっぽ.論文は箇条書きを始めたものの,なんか trigram CRF みたいなキラーな実験の結果が出ないと単に内元さんのを CRF でやっただけと言われるっぽ.
Node/Arc -> Feature Vector のプロパティマップを独立に設計・実装したいけれど, MEMM も CRF も同一の unigram に対する素性ベクトル生成を頻繁に要求するから,やっぱ先に unigram 素性(node の素性)の抽出だけ pre-flight して, forward/backward の…
後進 Viterbi 実装完了. Multi BOS/EOS に対応したので N-gram Lattice で走らせることができるはずっぽ.
N-gram Lattice 拡張に向けていろんな設計方針があるけれど, BOS/EOS 状態(正確には BOS/EOS を含む状態)が現行のように1つであると仮定するのではなくて, Lattice 中に複数存在できるようにするのが多分一番楽な感じだし,一般的な気がするのでそれで行…
N-gram でいくつの語履歴を見るかっていうその数値あるでしょ. unigram なら 1 で bigram なら 2 で trigram なら 3 っていう.この数値のことを表す単語が欲しい.なんか探しても見つからないのでここに gramity という言葉を提案してみるテスト. だめぽ?
後進 MEMM (単に後ろ向きになっただけの MEMM)実装終わり.実装って言うか,前進 MEMM のうちの数行を書き換えただけ. っていうかこれ作ったなら後ろ向きの Viterbi 要るよねっていう.
train_memm.cpp で素性抽出のコードを変更. feature_vector に直接出力するようにした.
マシン indigo (Athlon XP 2500+, 1.5GB メモリ) 素性 RWCP 標準設定. 実験設定 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 3回以上出現する素性のみ 学習停止条件:log likelihood の相対変化が 1.0e-3 以下 その他パラメータ 素性数:12…