Research

昔から「名前が必殺技っぽいなー」って思ってたんですよ

input method 飲み会

usata くん経由で input method 飲み会なるものに誘われましたですよ? Anthy/uim 開発している田畑さんという方とお会いして, uim について色々話すことになったような.なんでも,最近 uim の内部が HMM から MEMM になったそうで,今後 CRFs にするかも…

Elapsed time: 81003[s] (869.326[s] in this iteration) Likelihood: 0.0129992 -> 0.0129968 (relative change: 0.000189496) Log likelihood: -101936 -> -101940 (relative change: 4.36298e-005) # of iterations: 95 Elapsed time: 81003 Elapsed time…

RWCP 形態素解析実験結果

RWCP 学習 64%, 開発 16%, 評価 20% 全コーパス中に基本形が1回しか現れない単語を全て未知語として学習.ただし,学習時に対応する未知語処理が存在しない場合は既知語として学習,評価時は未知語として扱う(すなわち絶対に正解できない).単語未知語全展…

うがーっ!!実験やり直しーーっ!! っつーかこんな難しいことさせてたらそら MEMM で95%いかないなんて精度になるわな.ぶーぶーぶー.

昨日のまとめ その2

5文字未知語展開,前進 MEMM,Gaussian prior 付,収束条件1.0e-4の条件を揃えて,prior の variance と 素性の頻度のスレッショルドを変えた場合 1 2 3 4 5 6 7 8 9 10 0.5 0.6 0.7 0.94573 0.8 0.9 0.94251 1.0 0.94425 0.94391 0.94324 1.1 0.94244 1.2 0…

昨日のまとめ

5文字未知語展開,前進 MEMM,prior なし,1.0e-03の条件を揃えて,素性の回数のスレッショルドのみを変えた場合 3 4 5 6 7 0.92431 0.94657 0.95028 0.945688 0.94859

マシン elm モデルファイル elm 上 rwcp_memm_5_100_3_gaussian_007_3 学習 Likelihood: 0.00161736 -> 0.00162545 (relative change: 0.00500255) Log likelihood: -150847 -> -150730 (relative change: 0.000777033) # of iterations: 29 Elapsed time: 2…

マシン vine モデルファイル vine 上 rwcp_memm_5_100_6_3 学習 Likelihood: 0.00843418 -> 0.00841299 (relative change: 0.00251864) Log likelihood: -112085 -> -112144 (relative change: 0.000526751) # of iterations: 54 Elapsed time: 5159.95 Elap…

RWCP 形態素解析実験結果(前進 MEMM)

マシン elm (XEON 2.8G, 4.0GB, Gentoo Linux 2005.1) 素性 RWCP 標準設定 全コーパス中の出現頻度3回未満の素性を破棄 未知語処理 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 その他パラメータ 素性数: ユニークな単語数:18023 1回のみ…

RWCP 形態素解析実験結果(Gaussian prior 付前進 MEMM)

マシン fir (XEON 2.8G, 4.0GB, Gentoo Linux 2005.1) 素性 RWCP 標準設定 全コーパス中の出現頻度3回未満の素性を破棄 未知語処理 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 その他パラメータ 素性数: ユニークな単語数:18023 1回のみ…

RWCP 形態素解析実験結果(前進 MEMM)

http://d.hatena.ne.jp/ai_azuma/20060416#1145178502 と同じ実験設定でマシンだけ変えたもの マシン elm モデルファイル elm 上 rwcp_memm_5_100_3_3 学習 Likelihood: 0.000430434 -> 0.000429505 (relative change: 0.00216254) Log likelihood: -181917 …

RWCP 形態素解析実験結果(Gaussian prior 付前進 MEMM)

http://d.hatena.ne.jp/ai_azuma/20060416#1145183826 と同等の実験設定でマシンだけ変えたもの マシン fir (XEON 2.8G x2 (Hyper Threading), 4.0GB, Gentoo Linux 2005.1) モデルファイル fir 上 rwcp_memm_5_100_3_gaussian_01_3 学習 Likelihood: 0.0020…

いったん commit

とりあえずこの状態でいったん commit して, Unix 系サーバでパラメータ変えて大量に回しましょう.

RWCP 形態素解析実験(Gaussian prior 付前進 MEMM)

マシン indigo (Athlon XP 2500+, 1.5GB メモリ, WindowsXP Professional SP2) 素性 RWCP 標準設定 全コーパス中の出現頻度3回未満の素性を破棄 未知語処理 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 その他パラメータ 素性数:122025 ユ…

モデルファイル fir 上 rwcp_memm_5_100_3_gaussian_006_4 学習 Likelihood: 0.00161002 -> 0.00160954 (relative change: 0.000299355) Log likelihood: -150954 -> -150961 (relative change: 4.6538e-05) # of iterations: 43 Elapsed time: 3478.64 Elap…

モデルファイル vine 上 rwcp_memm_5_100_4_gaussian_01_4 学習 Likelihood: 0.00246398 -> 0.00246451 (relative change: 0.000217275) Log likelihood: -140966 -> -140961 (relative change: 3.61738e-05) # of iterations: 39 Elapsed time: 3680.56 Ela…

モデルファイル elm 上 rwcp_memm_5_100_3_gaussian_007_4 学習 Likelihood: 0.0018627 -> 0.00186286 (relative change: 8.72443e-05) Log likelihood: -147532 -> -147530 (relative change: 1.38793e-05) # of iterations: 45 Elapsed time: 4045.44 Elap…

モデルファイル vine 上 rwcp_memm_5_100_7_3 定量評価 Precision of segmentation: 0.946886 Recall of segmentation: 0.950304 F-measure of segmentation: 0.948592Unknown word recall: 5061 / 8748 = 0.578532 学習 Likelihood: 0.0175425 -> 0.0176104…

モデルファイル elm 上 rwcp_memm_5_100_3_gaussian_03_4 学習 Likelihood: 0.00654227 -> 0.0065402 (relative change: 0.000317038) Log likelihood: -118047 -> -118054 (relative change: 6.30261e-05) # of iterations: 77 Elapsed time: 6805.8 Elapse…

モデルファイル oak 上 rwcp_memm_5_100_5_3 学習 Likelihood: 0.0203931 -> 0.0204643 Log likelihood: -91362.3 -> -91280.5 # of iterations: 116 Elapsed time: 9879.52 Elapsed time per iteration: 85.16883 定量評価 Precision of segmentation: 0.94…

RWCP 形態素解析実験結果(前進 MEMM)

マシン indigo (Athlon XP 2500+, 1.5GB メモリ) 素性 RWCP 標準設定. 実験設定 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 3回以上出現する素性のみ 学習停止条件:log likelihood の相対変化が 1.0e-4 以下 その他パラメータ 素性数:12…

論文枠組み構築開始

何か並行して3つのこと(実験・実装・論文)やってるっぽ.論文は箇条書きを始めたものの,なんか trigram CRF みたいなキラーな実験の結果が出ないと単に内元さんのを CRF でやっただけと言われるっぽ.

Node/Arc -> Feature Vector のプロパティマップを独立に設計・実装したいけれど, MEMM も CRF も同一の unigram に対する素性ベクトル生成を頻繁に要求するから,やっぱ先に unigram 素性(node の素性)の抽出だけ pre-flight して, forward/backward の…

後進 Viterbi 実装完了

後進 Viterbi 実装完了. Multi BOS/EOS に対応したので N-gram Lattice で走らせることができるはずっぽ.

N-gram Lattice 拡張のための Multi BOS/EOS

N-gram Lattice 拡張に向けていろんな設計方針があるけれど, BOS/EOS 状態(正確には BOS/EOS を含む状態)が現行のように1つであると仮定するのではなくて, Lattice 中に複数存在できるようにするのが多分一番楽な感じだし,一般的な気がするのでそれで行…

gramity

N-gram でいくつの語履歴を見るかっていうその数値あるでしょ. unigram なら 1 で bigram なら 2 で trigram なら 3 っていう.この数値のことを表す単語が欲しい.なんか探しても見つからないのでここに gramity という言葉を提案してみるテスト. だめぽ?

後進 MEMM 実装完了

後進 MEMM (単に後ろ向きになっただけの MEMM)実装終わり.実装って言うか,前進 MEMM のうちの数行を書き換えただけ. っていうかこれ作ったなら後ろ向きの Viterbi 要るよねっていう.

train_memm.cpp の実装変更

train_memm.cpp で素性抽出のコードを変更. feature_vector に直接出力するようにした.

RWCP 形態素解析実験結果(前進 MEMM)

マシン indigo (Athlon XP 2500+, 1.5GB メモリ) 素性 RWCP 標準設定. 実験設定 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 3回以上出現する素性のみ 学習停止条件:log likelihood の相対変化が 1.0e-3 以下 その他パラメータ 素性数:12…