2006-04-14から1日間の記事一覧

RWCP 形態素解析実験結果(前進 MEMM)

マシン indigo (Athlon XP 2500+, 1.5GB メモリ) 素性 RWCP 標準設定. 実験設定 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 3回以上出現する素性のみ 学習停止条件:log likelihood の相対変化が 1.0e-4 以下 その他パラメータ 素性数:12…

論文枠組み構築開始

何か並行して3つのこと(実験・実装・論文)やってるっぽ.論文は箇条書きを始めたものの,なんか trigram CRF みたいなキラーな実験の結果が出ないと単に内元さんのを CRF でやっただけと言われるっぽ.

Node/Arc -> Feature Vector のプロパティマップを独立に設計・実装したいけれど, MEMM も CRF も同一の unigram に対する素性ベクトル生成を頻繁に要求するから,やっぱ先に unigram 素性(node の素性)の抽出だけ pre-flight して, forward/backward の…

後進 Viterbi 実装完了

後進 Viterbi 実装完了. Multi BOS/EOS に対応したので N-gram Lattice で走らせることができるはずっぽ.

N-gram Lattice 拡張のための Multi BOS/EOS

N-gram Lattice 拡張に向けていろんな設計方針があるけれど, BOS/EOS 状態(正確には BOS/EOS を含む状態)が現行のように1つであると仮定するのではなくて, Lattice 中に複数存在できるようにするのが多分一番楽な感じだし,一般的な気がするのでそれで行…

gramity

N-gram でいくつの語履歴を見るかっていうその数値あるでしょ. unigram なら 1 で bigram なら 2 で trigram なら 3 っていう.この数値のことを表す単語が欲しい.なんか探しても見つからないのでここに gramity という言葉を提案してみるテスト. だめぽ?

後進 MEMM 実装完了

後進 MEMM (単に後ろ向きになっただけの MEMM)実装終わり.実装って言うか,前進 MEMM のうちの数行を書き換えただけ. っていうかこれ作ったなら後ろ向きの Viterbi 要るよねっていう.

train_memm.cpp の実装変更

train_memm.cpp で素性抽出のコードを変更. feature_vector に直接出力するようにした.

RWCP 形態素解析実験結果(前進 MEMM)

マシン indigo (Athlon XP 2500+, 1.5GB メモリ) 素性 RWCP 標準設定. 実験設定 5文字未知語全展開 1回出現の単語を全て擬似未知語として学習 3回以上出現する素性のみ 学習停止条件:log likelihood の相対変化が 1.0e-3 以下 その他パラメータ 素性数:12…