2006-04-14から1日間の記事一覧
マシン indigo (Athlon XP 2500+, 1.5GB メモリ) 素性 RWCP 標準設定. 実験設定 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 3回以上出現する素性のみ 学習停止条件:log likelihood の相対変化が 1.0e-4 以下 その他パラメータ 素性数:12…
何か並行して3つのこと(実験・実装・論文)やってるっぽ.論文は箇条書きを始めたものの,なんか trigram CRF みたいなキラーな実験の結果が出ないと単に内元さんのを CRF でやっただけと言われるっぽ.
Node/Arc -> Feature Vector のプロパティマップを独立に設計・実装したいけれど, MEMM も CRF も同一の unigram に対する素性ベクトル生成を頻繁に要求するから,やっぱ先に unigram 素性(node の素性)の抽出だけ pre-flight して, forward/backward の…
後進 Viterbi 実装完了. Multi BOS/EOS に対応したので N-gram Lattice で走らせることができるはずっぽ.
N-gram Lattice 拡張に向けていろんな設計方針があるけれど, BOS/EOS 状態(正確には BOS/EOS を含む状態)が現行のように1つであると仮定するのではなくて, Lattice 中に複数存在できるようにするのが多分一番楽な感じだし,一般的な気がするのでそれで行…
N-gram でいくつの語履歴を見るかっていうその数値あるでしょ. unigram なら 1 で bigram なら 2 で trigram なら 3 っていう.この数値のことを表す単語が欲しい.なんか探しても見つからないのでここに gramity という言葉を提案してみるテスト. だめぽ?
後進 MEMM (単に後ろ向きになっただけの MEMM)実装終わり.実装って言うか,前進 MEMM のうちの数行を書き換えただけ. っていうかこれ作ったなら後ろ向きの Viterbi 要るよねっていう.
train_memm.cpp で素性抽出のコードを変更. feature_vector に直接出力するようにした.
マシン indigo (Athlon XP 2500+, 1.5GB メモリ) 素性 RWCP 標準設定. 実験設定 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 3回以上出現する素性のみ 学習停止条件:log likelihood の相対変化が 1.0e-3 以下 その他パラメータ 素性数:12…