#TokyoNLP 4th meeting
日時 / DATE : 2011/01/22 13:00
定員 / LIMIT : 50 人
会場 / PLACE : ECナビ(渋谷) (〒150-0045 東京都渋谷区神泉町8-16 渋谷ファーストプレイス8F )
URL / URL : http://groups.google.com/group/tokyotextmining
管理者 / ADMIN : Default_latent nokuno
概要
自然言語処理(Natural Language Processing; NLP)に関する勉強会です。
理論と実践の両面から深く学び、発表と議論を通じて共有していくことを目的としています。
発表
* 音声認識のためのN-gram言語モデル by @y_shindohさん
* Burst Detection from Stream 〜流行に疎いぼくらが流行を知る方法〜 by @ohkuraさん
* Confidence WeightedをLearning to Rankに適用してみた by @tkngさん
* 統計的機械翻訳入門(仮) by @nokuno
* Discovering Concepts from Word Cooccurrences with a Relational Model 読む by @suzuvie_reさん
参加条件
連絡のため、Googleグループに参加していることが条件です。
自然言語処理勉強会@東京 | Google Groups
会場について
ECナビさん(渋谷)をお借り出来ました。@ajiyoshiさん、ありがとうございます!
参考書
Foundations of Statistical Natural Language Processing
(中略)
このイベントの参加希望者47 / 50 人
参加者47人 / キャンセル9人
第4回 自然言語処理勉強会@東京 : ATND
y_shindoh | 研究所内での稟議処理が完了。 これで問題なく発表できる。 あとは風邪をひかないよう注意するくらいかな? :) #TokyoNLP |
2011-01-18 10:17:46 | |
y_shindoh | 今回の発表では、スムージング手法の詳細 (ディスカウント係数の算出) については、次々回に話すってことで省略させてもらおう。 今回はかなり理想的なコーパスで評価しているので、それを全面に押し出して許しをこおう。 (ぇ #TokyoNLP |
2011-01-18 22:19:15 | |
atndbot_tweet | [Today]: 第4回 自然言語処理勉強会@東京,#TokyoNLP 4th meeting,参加者 50/定員 50/補欠者 3,〒150-0045 東京都渋谷区神泉町8-16 渋谷ファーストプレイス8F ,http://atnd.org/events/11990 | 2011-01-22 04:00:12 | |
suzuvie_re | あげました! http://www.slideshare.net/suzuvie/tokyonlp4-frequency-based-infinite-relational-model #tokyonlp | 2011-01-22 04:55:57 | |
nokuno | 【リマインド】本日 #tokyonlp です。よろしくお願いします。 | 2011-01-22 08:24:24 | |
y_shindoh | RT @atndbot_tweet: [Today]: 第4回 自然言語処理勉強会@東京,#TokyoNLP 4th meeting,参加者 50/定員 50/補欠者 3,〒150-0045 東京都渋谷区神泉町8-16 渋谷ファーストプレイス8F ,http://atnd.org/events/11990 | 2011-01-22 09:04:38 | |
hamadakoichi | 今日は「第4回 自然言語処理勉強会@東京」 #TokyoNLP http://bit.ly/fawVmG 、明日は「第9回 データマイニング+WEB勉強会@東京-2ndW-方法論・ソーシャル祭り-」 #TokyoWebmining http://bit.ly/i21uMO です。 | 2011-01-22 11:46:41 | |
kimukou_26 | RT @hamadakoichi: 今日は「第4回 自然言語処理勉強会@東京」 #TokyoNLP http://bit.ly/fawVmG 、明日は「第9回 データマイニング+WEB勉強会@東京-2ndW-方法論・ソーシャル祭り-」 #TokyoWebmining http://bit.ly/i21uMO です。 | 2011-01-22 11:49:38 | |
shuyo | #tokyonlp 会場到着。って早すぎた! @ajiyoshi さんとダベり中。 | 2011-01-22 12:32:35 | |
kimukou_26 | 今日の #TokyoNLP はUSTあるのかな? | 2011-01-22 12:34:37 | |
kisa12012 | #tokyonlp 会場到着 | 2011-01-22 12:52:56 | |
takesako | 第4回自然言語処理勉強会@東京 #TokyoNLP に参加中 http://atnd.org/events/11990 | 2011-01-22 13:06:19 | |
mansuku | とりあえず会場でオニギリもぐもぐ #TokyoNLP | 2011-01-22 13:07:14 | |
komiya_atsushi | RT @hamadakoichi: 今日は「第4回 自然言語処理勉強会@東京」 #TokyoNLP http://bit.ly/fawVmG 、明日は「第9回 データマイニング+WEB勉強会@東京-2ndW-方法論・ソーシャル祭り-」 #TokyoWebmining http://bit.ly/i21uMO です。 | 2011-01-22 13:07:38 | |
kimukou_26 | #TokyoNLP 会場に着いた。まだ集合待ち状態かな? | 2011-01-22 13:08:15 | |
one_way_baby | RT @hamadakoichi: 今日は「第4回 自然言語処理勉強会@東京」 #TokyoNLP http://bit.ly/fawVmG 、明日は「第9回 データマイニング+WEB勉強会@東京-2ndW-方法論・ソーシャル祭り-」 #TokyoWebmining http://bit.ly/i21uMO です。 | 2011-01-22 13:08:24 | |
nokuno | そろそろ始めます。 #TokyoNLP | 2011-01-22 13:14:40 | |
kimukou_26 | 音声認識のためのN-gram言語モデル by @y_shindohさん 開始 #tokyonlp | 2011-01-22 13:17:51 | |
takesako | 音声認識のためのN-gram言語モデル by @y_shindohさんの発表開始 #TokyoNLP http://atnd.org/events/11990 | 2011-01-22 13:18:05 | |
nokuno | @y_shindoh さんはかなり前から準備していただいていました。 #tokyonlp | 2011-01-22 13:18:34 | |
nokuno | 非可換環! #TokyoNLP | 2011-01-22 13:20:40 | |
kimukou_26 | #TokyoNLP Winアプリ=>機械メーカでロボット作成(音声認識エンジン開発)=>KDDIで音声認識の応用研究されている という方 |
2011-01-22 13:20:55 | |
marblejenka | RT @nokuno: 非可換環! #TokyoNLP | 2011-01-22 13:21:16 | |
cocoatomo | RT @nokuno: 非可換環! #TokyoNLP | 2011-01-22 13:23:05 | |
mansuku | #TokyoNLP あーなんだかどっかでみた図 音声認識 | 2011-01-22 13:23:50 | |
kimukou_26 | #TokyoNLP 音声認識の概要) 音声データ(LPCM=>スペクトル)=>音声認識エンジン(TLP、MFC)<=音響モデル(HMM)、言語モデル(文書のゆう度) |
2011-01-22 13:24:20 | |
sugarlife | 音声データはMFCCではなくMFCなんだ。意味合いは一緒かな?#tokyonlp | 2011-01-22 13:24:48 | |
kimukou_26 | #TokyoNLP ■音素=>モーラ=>単語 の流れ ・単語/モーラ/音素 例)赤い/あ、か、い/a,k,a,i |
2011-01-22 13:27:40 | |
takesako | 参考文献:音声認識を紹介するページ MFCC #TokyoNLP http://recognition.web.fc2.com/ |
2011-01-22 13:28:33 | |
sugarlife | juliusの言語モデルだった。#TokyoNLP | 2011-01-22 13:29:27 | |
kohama | いいね☆RT @takesako: 参考文献:音声認識を紹介するページ MFCC #TokyoNLP http://recognition.web.fc2.com/ | 2011-01-22 13:30:21 | |
hamadakoichi | 「音声認識のためのN-gram言語モデル」 ( @y_shindoh さん) #TokyoNLP | 2011-01-22 13:30:22 | |
hamadakoichi | #TokyoNLP @y_shindoh さん、純粋数学の博士。非可換環。近い。 | 2011-01-22 13:30:42 | |
kanzmrsw | RT @nokuno: 非可換環! #TokyoNLP | 2011-01-22 13:32:43 | |
kimukou_26 | #tokyonlp ・フレミング、ハミング窓、高域強調フィルタ、FFT ・絶対値化、聴覚フィルタ(Mel Freq、Filter)、対数化、DCT ○電話回線を通すと音変わるので、電話音声用の専用フィルタを作成する =>研究としては自然音声を基本に考える |
2011-01-22 13:33:32 | |
sugarlife | 恐らく先ほどの言語モデルはこちらのエンジンのもの 音声認識エンジン julius : http://sourceforge.jp/projects/julius/ #TokyoNLP | 2011-01-22 13:34:55 | |
kimukou_26 | #TokyoNLP 開始=>きつね・うどん カレー・うどん XXX ・そば という形で認識言語の繋がりを推測する。 言語モデルはNgramを使う |
2011-01-22 13:36:16 | |
takesako | 音声認識では一般的に単語 3-Gram を使っていることが多い #TokyoNLP | 2011-01-22 13:36:27 | |
mansuku | #TokyoNLP 音声認識も2-gramがお得らしい | 2011-01-22 13:37:01 | |
kento1218 | 今日は #tokyoNLP の日なのか | 2011-01-22 13:37:12 | |
kimukou_26 | #TokyoNLP ・コーパス(単語例)=>count N-Gram(頻度1以上の物を対象)=>Ngram データベースにない語彙は認識がしづらくなる |
2011-01-22 13:40:13 | |
kimukou_26 | #TokyoNLP 単語N-gram高精度化と0頻度問題) かたいことば(王道) と 柔らかい話し言葉(小手先パターン)<友人同士 で扱いが違う 王道:コーパスを集める 小手先:パラレルコーパスでコーパスから生成 国会の議事録:余計な言葉は落とすイメージ |
2011-01-22 13:42:48 | |
takesako | 不自然言語処理っぽい話題が出たので、質問してみた。 #TokyoNLP | 2011-01-22 13:44:58 | |
sugarlife | 単語N-Gramの高精度化の王道パターンとしてコーパス収集を挙げられている。過去、敢えてコーパスを限定して前向きな言語モデルを作ろうとしたことを思い出した。例:惨事→賛辞 #TokyoNLP | 2011-01-22 13:45:40 | |
kimukou_26 | #TokyoNLP 1)話題適応:LDA,PLSA 2)表現適応:CRL 3)未知N-gram:単語クラスタリングによる Class N-gram化 |
2011-01-22 13:47:32 | |
kimukou_26 | #TokyoNLP 音声合成で歌を歌わせる 等の技術で小手先パターンは使われているかも との事 関西語は難しい!=>標準語 に直して認識させる手も |
2011-01-22 13:48:45 | |
mansuku | “@sugarlife: 恐らく先ほどの言語モデルはこちらのエンジンのもの 音声認識エンジン julius : http://sourceforge.jp/projects/julius/ #TokyoNLP” SnowLeopardになってからmake通らないのよね(ーー;) | 2011-01-22 13:49:39 | |
sano66 | RT @takesako: 音声認識のためのN-gram言語モデル by @y_shindohさんの発表開始 #TokyoNLP http://atnd.org/events/11990 | 2011-01-22 13:52:33 | |
kimukou_26 | #TokyoNLP 認識しにくい物) ・巨大なコーパスでも全て認識網羅できない ・認識内容:内容範囲が広いと難しい =>スムージング(0頻度の単語に確率を付与)をして、強引に認識閾値を上げる |
2011-01-22 13:53:31 | |
nokuno | やっぱりネイザーネイって読むんだ… #TokyoNLP | 2011-01-22 13:53:43 | |
takesako | ゼロ頻度の単語に確率を与えてスムージング。ディスカウント係数λの算出方法 Kneser-Ney #tokyoNLP | 2011-01-22 13:54:33 | |
kimukou_26 | #TokyoNLP 精度に対する指標) 1)音声データ=>コーパス(Word Correct,Word Accuracy)・・音声データとコーパスが1対1に対応してある 2)テキストデータのコーパスを用いる方法(Parplexity) |
2011-01-22 13:57:12 | |
ukyo | #TokyoNLP a)音声データ含む Word Correct, Word Accuracy b)テキストのみPerplexity | 2011-01-22 13:57:50 | |
kimukou_26 | #TokyoNLP ・Perpiexity=>音声認識分野で言語モデル単体の性の評価に用いられる指標 評価実験) ・MeCab =>生成データを後からいじる ・NAIST Japanise Dictonary ・SRLM |
2011-01-22 13:59:28 | |
takesako | SRILM - The SRI Language Modeling Toolkit #TokyoNLP http://www-speech.sri.com/projects/srilm/ |
2011-01-22 13:59:30 | |
hamadakoichi | "NAIST Japanese Dictionary" 形態素解析用辞書。表記ゆれ情報、複合語情報を付与した辞書。 http://bit.ly/e0Lo72 #TokyoNLP | 2011-01-22 14:03:20 | |
mansuku | #TokyoNLP あお得なのは3-gramか | 2011-01-22 14:03:44 | |
kimukou_26 | #TokyoNLP 学習コーパス Wikipedia 凄く多い ・ヒープスの法則(V=KS)・・等比級数的に増加せず <曲線のグラフはMeCab生成データによる曲線色が強い (音声認識だと些末データはしょっている?) |
2011-01-22 14:04:31 | |
shuyo | KN の方が Modified KN より perplexity が低くなることもあるのか-。 #tokyonlp | 2011-01-22 14:06:50 | |
kimukou_26 | #TokyoNLP ・スムージング手法による差ははそれほど大きくない ・コーパス規模に比例する<料理なら料理と分野を限定した上で ■MSは網羅N-GRAMを作っていたが、範囲が広すぎて認識率が悪かった |
2011-01-22 14:09:27 | |
kimukou_26 | #TokyoNLP 音声認識の探索) ・辞書無しに、音素情報だけでやると場合分け(網羅率)が爆発する ・無くても認識に必要がない物(音声)は捨ててる。<全て拾うわけではない? |
2011-01-22 14:13:25 | |
kimukou_26 | #TokyoNLP ・評価コーパスと学習コーパス =>両方が良くなっていくとPerplexityが低くなる |
2011-01-22 14:18:09 | |
nokuno | デモンストレーション! #TokyoNLP | 2011-01-22 14:19:05 | |
nokuno | 大学の時の実験でJulius使ったことあるなあ #TokyoNLP | 2011-01-22 14:19:46 | |
nokuno | クックパッドさんや #TokyoNLP | 2011-01-22 14:21:22 | |
takesako | オープンソースの音声認識エンジンJulius http://julius.sourceforge.jp/ によるデモ #TokyoNLP | 2011-01-22 14:21:42 | |
hamadakoichi | 音声認識エンジン「Julius」 http://sourceforge.jp/projects/julius/ #TokyoNLP | 2011-01-22 14:21:42 | |
sugarlife | ドメイン(話題、トピック)を考慮してWEBテキストから言語モデルを構築し、Preplexityを改善するということもやられてますね。http://www.ar.media.kyoto-u.ac.jp/members/misu/ #TokyoNLP | 2011-01-22 14:22:58 | |
kimukou_26 | #TokyoNLP ・音声エンジン: Julius http://julius.sourceforge.jp/ ・言語モデル: SRILM/32000語 でのデモ(rubyで動いてる?) COOKPADを例にして見てる・・ |
2011-01-22 14:23:19 | |
nokuno | すごい #TokyoNLP | 2011-01-22 14:24:07 | |
hamadakoichi | 「SRILM」 - The SRI Language Modeling Toolkit http://www-speech.sri.com/projects/srilm/ #TokyoNLP | 2011-01-22 14:25:19 | |
yitabashi | RT @hamadakoichi: 音声認識エンジン「Julius」 http://sourceforge.jp/projects/julius/ #TokyoNLP | 2011-01-22 14:25:25 | |
kimukou_26 | #TokyoNLP 音声認識エンジン「Julius」 http://sourceforge.jp/projects/julius/ リアルタイムに結構認識できるんだなー<検索中に2-gram検索中(文字化表示) ■1文毎認識するのでその間は多少間を開ける必要があり |
2011-01-22 14:27:19 | |
asari | RT @sugarlife: ドメイン(話題、トピック)を考慮してWEBテキストから言語モデルを構築し、Preplexityを改善するということもやられてますね。http://www.ar.media.kyoto-u.ac.jp/members/misu/ #TokyoNLP | 2011-01-22 14:27:24 | |
asari | RT @kimukou_26: #TokyoNLP ・音声エンジン: Julius http://julius.sourceforge.jp/ ・言語モデル: SRILM/32000語 でのデモ(rubyで動いてる?) COOKPADを例にして見てる・・ |
2011-01-22 14:27:25 | |
toshikazuwada | うーんとstraightは音声分析かな?RT @_akisato: 音声合成 straight http://bit.ly/hZ5TPn RT @hamadakoichi: 音声認識エンジン「Julius」 http://bit.ly/gVgBCT #TokyoNLP | 2011-01-22 14:28:39 | |
asari | 今日は #TokyoNLP でクックパッドさんが Julius のデモをしているのか? なでしこのやつ? | 2011-01-22 14:28:44 | |
flano_yuki | 不特定話者の音声認識.学習コーパスと相性の良い場合と,良くない場合のデモ.精度すごい.中でやってる事を聞くと,やっぱり楽しい #TokyoNLP | 2011-01-22 14:28:56 | |
takesako | 参考文献:音声認識のためのマイクロホンアレー技術 #TokyoNLP http://www.toshiba.co.jp/tech/review/2004/09/59_09pdf/a10.pdf |
2011-01-22 14:29:48 | |
toru_tashima | 音声認識エンジン"Julius" http://sourceforge.jp/projects/julius/ リアルタイムにやってるすごい #TokyoNLP |
2011-01-22 14:32:37 | |
kimukou_26 | 正確にはKDDIの方が、クックパッドのメニュー例の文書を使ってリアルタイム認識のデモ遣っています RT @asari: 今日は #TokyoNLP でクックパッドさんが Julius のデモをしているのか? なでしこのやつ? | 2011-01-22 14:33:05 | |
kimukou_26 | #TokyoNLP ・話題がずれた学習コーパスで認識させるとやはりボロボロ。 ・「Julius」自体は不特定話者の音声認識に対応しているよ<ぼそぼそ しゃべり方は認識しないかも 今は、食べログ の文章でデモ中 |
2011-01-22 14:36:54 | |
kimukou_26 | #TokyoNLP 末尾に「室蘭」とかの文字で終わると、N-gramで変換できていてもさらに変換がかかって化けてしまう<御認識扱い になってしまった><。難しい |
2011-01-22 14:40:21 | |
mansuku | #TokyoNLP ヤバイ自然言語勉強会だけど、nlpいうより音声認識がオモシロイ | 2011-01-22 14:40:50 | |
flano_yuki | 音声認識は、ゆっくり話されるとうまく処理できない.システムがうまく処理されないと,人間はゆっくり丁寧に話してしまう.どうすれば良いか #tokyonlp | 2011-01-22 14:44:06 | |
kimukou_26 | #TokyoNLP ・「だ~か~ら~」とかは認識しずらい。 ・早口も難しい ・認識しやすい話し方というのはやはりある =>ここが今後の音声認識の課題 ! |
2011-01-22 14:44:33 | |
sugarlife | 雑音はいると面白いぐらい認識率下がるのも悲しみ > 音声認識の課題#TokyoNLP | 2011-01-22 14:51:17 | |
takesako | はじめて #TokyoNLP に参加したけど、面白い。なぜか複数人からスピーチデモを強要されそうになった。こわい。 | 2011-01-22 14:54:20 | |
takesako | Burst Detection from Stream 〜流行に疎いぼくらが流行を知る方法〜 by @ohkuraさんによる発表開始 #TokyoNLP http://atnd.org/events/11990 |
2011-01-22 14:54:40 | |
nokuno | 次は@ohkura さん。Burst Detectionのお話。 #TokyoNLP | 2011-01-22 14:55:31 | |
hamadakoichi | 「Burst Detection from Stream 〜流行に疎いぼくらが流行を知る方法〜」 ( @ohkura さん) #TokyoNLP | 2011-01-22 14:57:18 | |
takesako | 参考文献:Bursty and Hierarchical Structure in Streams. (Jon Kleinberg氏) #TokyoNLP http://www.cs.cornell.edu/home/kleinber/bhs.pdf |
2011-01-22 14:57:23 | |
nokuno | RT @takesako: 参考文献:Bursty and Hierarchical Structure in Streams. (Jon Kleinberg氏) #TokyoNLP http://www.cs.cornell.edu/home/kleinber/bhs.pdf |
2011-01-22 14:58:12 | |
hamadakoichi | #TokyoNLP @ohkura さん、Webmining や Datamining に興味。 #TokyoWebmining もぜひ。 | 2011-01-22 15:01:25 | |
ajiyoshi | RT @takesako: 参考文献:Bursty and Hierarchical Structure in Streams. (Jon Kleinberg氏) #TokyoNLP http://www.cs.cornell.edu/home/kleinber/bhs.pdf |
2011-01-22 15:02:11 | |
mansuku | #TokyoNLP ナゼか例の地震計測の絵でツッコミが!!\(^o^)/ | 2011-01-22 15:03:42 | |
hamadakoichi | 「Bursty and Hierarchical Structure in Streams」 Jon Kleinberg 2003 。元論文PDF: http://bit.ly/eSQNkn #TokyoNLP | 2011-01-22 15:07:19 | |
nokuno | 聞きながらブログ書いてるので今日はTweet少なめですw #TokyoNLP | 2011-01-22 15:08:40 | |
hamadakoichi | 時間あたりのイベント数ではなく、イベント間隔に注目する。より迅速にイベント抽出できる。 #TokyoNLP | 2011-01-22 15:10:11 | |
kimukou_26 | #TokyoNLP シンプルな方法) 1)1日ごとに区切る=>次の日にならないと集計できない>< =>Twitter数の数を考える 2)イベントの範囲に注目 <=2連続でイベントが起きたらそれはバースト(Burst)? //ノイズ問題 |
2011-01-22 15:10:58 | |
kimukou_26 | #TokyoNLP 1)イベント検出・・異常値の検出(地震計の揺れ検出) 正規分布を使ってそれっぽく計算 2)時系列ストリームからのイベント検出・・(TL、Blog、ニュース記事、センサ値)からイベント検出 =>時間とともに遣ってくるデータ |
2011-01-22 15:15:17 | |
hamadakoichi | Burst Detection。オートマトン。「通常状態」と「話題の中心にいる状態(Burst State)」。 #TokyoNLP | 2011-01-22 15:17:09 | |
kimukou_26 | #TokyoNLP バースト状態・・通常の何倍もの頻度で起きる BurstDetection=流行チェック・・ノイズの問題が解決していない ステート遷移: Statable=>Burst / Burst=>Statable の遷移に制限を設ける(時間間隔で) |
2011-01-22 15:21:15 | |
ts_3156 | このハッシュタグが面白いです。 #TokyoNLP | 2011-01-22 15:22:23 | |
kimukou_26 | #TokyoNLP 正規化項×状態遷移確率×積×各時点での状態:q(状態シーケンス)t(時間間隔のシーケンス) で有る確率 |
2011-01-22 15:24:10 | |
hamadakoichi | 各時点でのイベント発生状況が Burst State と Stable State のどちらの確率分布に従うかで推定。 #TokyoNLP | 2011-01-22 15:24:59 | |
hamadakoichi | ノイズ低減は、Burst State と Stable State 間の遷移にペナルティを与え行う。 #TokyoNLP | 2011-01-22 15:26:14 | |
flano_yuki | オンラインアルゴリズム,ストリームアルゴリズムなお話で楽しい. #tokyoNLP | 2011-01-22 15:26:23 | |
mansuku | #TokyoNLP こういう係数は季節性の変数持たせておき楽にやっちゃいたいけど、みんな教育させていく方向で攻めるナァwww | 2011-01-22 15:36:15 | |
toru_tashima | RT @takesako: 参考文献:Bursty and Hierarchical Structure in Streams. (Jon Kleinberg氏) #TokyoNLP http://www.cs.cornell.edu/home/kleinber/bhs.pdf |
2011-01-22 15:40:33 | |
nokuno | どっかで見たことがあると思ったら @beatinaniwa さんのyazztterの発表だ。 http://j.mp/guA7nr #TokyoNLP | 2011-01-22 15:44:35 | |
nilab | RT @kimukou_26: 正確にはKDDIの方が、クックパッドのメニュー例の文書を使ってリアルタイム認識のデモ遣っています RT @asari: 今日は #TokyoNLP でクックパッドさんが Julius のデモをしているのか? なでしこのやつ? | 2011-01-22 15:47:37 | |
nokuno | 次は @tkngさん。Confidence Weightedでランク学習を実装してみた #TokyoNLP | 2011-01-22 16:04:33 | |
toru_tashima | お先に失礼します #TokyoNLP | 2011-01-22 16:05:18 | |
hamadakoichi | 「Confidence Weighted を Learning to Rank に適用してみた」 ( @tkng さん) #TokyoNLP | 2011-01-22 16:10:53 | |
kimukou_26 | #TokyoNLP ページランクの話) Yahoo Search、MS Search から論文が出ている。 <Googleは情報露出が少ない? ■自然言語/ランク学習 ・高次元/低次元 ・スパース/デンス |
2011-01-22 16:11:31 | |
sugarlife | ランク学習として次を紹介:RankingSVM / RankBoost / ListNet / Sofia-ML Sofia-MLはここhttp://code.google.com/p/sofia-ml/ #TokyoNLP | 2011-01-22 16:14:19 | |
takesako | TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230 |
2011-01-22 16:15:43 | |
AE_PerlIsm | RT @takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230 |
2011-01-22 16:15:43 | |
kimukou_26 | #TokyoNLP ランク学習の評価指標) ・NDCG・・上位何件とるか<普通は10件ぐらい ・いいサイトは高くしたい ・良くないサイトは低くしたい |
2011-01-22 16:16:21 | |
takesako | RT @nokuno: どっかで見たことがあると思ったら @beatinaniwa さんのyazztterの発表だ。 http://j.mp/guA7nr #TokyoNLP | 2011-01-22 16:16:28 | |
y_shindoh | RT @takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230 |
2011-01-22 16:16:48 | |
hamadakoichi | Learning to Rank: RankingSVM, RankBoost, ListNet, Sofia-ML #TokyoNLP | 2011-01-22 16:16:53 | |
Dominion525 | RT @takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230 |
2011-01-22 16:17:20 | |
ofuku3f | RT @takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230 |
2011-01-22 16:17:49 | |
takesako | Confidence WeightedをLearning to Rank(ランク学習?)に適用してみた by @tkngさん発表中 #TokyoNLP → PFI岡野原さんとNLP2011で発表するみたい http://atnd.org/events/11990 |
2011-01-22 16:18:27 | |
kimukou_26 | #TokyoNLP ■Bigpartite Learning ・学習データが短時間で簡単に作れる =>自然言語でも学習コーパスを作るのが大変 ■PairWise ・データはペア ■ListWise ・データはリスト型 <=学習データ作るのが難しい |
2011-01-22 16:19:15 | |
manu3da4 | RT @takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230 |
2011-01-22 16:19:58 | |
perlism | RT !takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230 |
2011-01-22 16:20:03 | |
mansuku | RT “@takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230” |
2011-01-22 16:21:00 | |
yujiorama | RT @takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230 |
2011-01-22 16:21:19 | |
kabeiria | RT @takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230 |
2011-01-22 16:22:23 | |
kimukou_26 | #TokyoNLP 学習の簡単さ Bipartite<PairWise<ListWise ・Bipartite・・sampleがある程度ある=>サンプルの組み合わせで実装できる |
2011-01-22 16:24:36 | |
miyayou | RT @kimukou_26: #TokyoNLP ■Bigpartite Learning ・学習データが短時間で簡単に作れる =>自然言語でも学習コーパスを作るのが大変 ■PairWise ・データはペア ■ListWise ・データはリスト型 <=学習データ作るのが難しい |
2011-01-22 16:25:50 | |
hamadakoichi | RankingSVM: 最も基本的。学習時間が超長い。 RankBoost: Boosting のランク学習への学習。 ListNet: 並べ替えた結果のリストから学習。ニューラルネットで学習。 #TokyoNLP | 2011-01-22 16:27:13 | |
hamadakoichi | Large Scale Learning to Rank: 全部のペアを見なくてもランダムサンプリングで 数%ぐらいの数を見ればよい。 #TokyoNLP | 2011-01-22 16:27:50 | |
sugarlife | 数%を見れば良いよ!というLarge Scale Learning to Rankの論文はこちら http://www.eecs.tufts.edu/~dsculley/papers/large-scale-rank.pdf #TokyoNLP | 2011-01-22 16:28:09 | |
sugarlife | これを実装したのがSofia-ML > Large Scale Learning to Rank。 そして話はConfidence Weightedへ。 #TokyoNLP | 2011-01-22 16:33:19 | |
kimukou_26 | #TokyoNLP Pairwise:文章の並び替え・スコアで Confidence Weighted ) ・更新式は γi 正しい:マイナス値=>max:0=>無更新 ・学習が速い=>ループ1回 ・ノイズに弱い=>AROW,NAROWという対策アルゴリズム提案 |
2011-01-22 16:33:58 | |
hamadakoichi | "Confidence-Weighted Linear Classification", Dredze, Crammer, Pereira, 2008 (PDF) : http://bit.ly/ehOhwR #TokyoNLP | 2011-01-22 16:40:26 | |
mansuku | #TokyoNLP ランクの発表結果スゴい勉強になった | 2011-01-22 16:41:23 | |
kimukou_26 | #TokyoNLP Learnig to Rank) ・feature実装が大変 Confidence Weighted ) ・パラメータの変更率がすごい<ノイズデータによる ・伝統的な手法も要考慮 |
2011-01-22 16:42:00 | |
Calcite_CaCO3 | RT @takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230 |
2011-01-22 16:47:55 | |
overlast | みんなゲホゲホ咳してるかと思ったがそんなでもない。たまに鼻水をすする音がする程度。しかし15人くらい暗黙的なキャンセルをしてる人がいる。。。 #TokyoNLP | 2011-01-22 17:11:29 | |
kimukou_26 | #TokyoNLP 統計的機械翻訳入門 by @nokuno さん 始まってます |
2011-01-22 17:12:02 | |
hamadakoichi | 「統計的機械翻訳入門」 ( @nokuno さん) #TokyoNLP | 2011-01-22 17:12:16 | |
tamakoji | RT @hamadakoichi: 今日は「第4回 自然言語処理勉強会@東京」 #TokyoNLP http://bit.ly/fawVmG 、明日は「第9回 データマイニング+WEB勉強会@東京-2ndW-方法論・ソーシャル祭り-」 #TokyoWebmining http://bit.ly/i21uMO です。 | 2011-01-22 17:12:32 | |
takesako | 統計的機械翻訳入門 by 新マックユーザ @nokuno さんによる発表中 #TokyoNLP http://atnd.org/events/11990 |
2011-01-22 17:15:27 | |
kimukou_26 | #TokyoNLP Noisy-Channel Model) ・言語モデル(文の滑らかさ)と翻訳モデル(対訳コーパスから学習:意味の近さ)に分解 翻訳モデル) ・単語ベース ・フレーズベース ・文章ベース |
2011-01-22 17:15:30 | |
inohiro | 自然言語処理勉強会@東京 面白そうだなあ(いまやってるらしい #TokyoNLP | 2011-01-22 17:18:09 | |
shuyo | 統計機械翻訳でよく出てくる e と f は、なんか勝手に English と French と思い込んでた。そうか、foreign か~w #tokyonlp | 2011-01-22 17:19:17 | |
hamadakoichi | "Statistical Machine Translation": 4. Word-Based Models, IBM Models: http://amzn.to/hV0uau #TokyoNLP | 2011-01-22 17:20:25 | |
kimukou_26 | #TokyoNLP 単語アライメント) ・単語の対応づけ(英独対比) das=the has=house ・並び替え ・単語数の増加(1:1とは限らない) |
2011-01-22 17:20:52 | |
y_shindoh | 統計的機械翻訳は筑波大学の山本先生の資料で勉強した記憶がある。 かなり昔に。 http://www.nlp.mibel.cs.tsukuba.ac.jp/pdf/SMT2008.pdf #TokyoNLP |
2011-01-22 17:21:26 | |
kimukou_26 | #TokyoNLP EMアルゴリズム) ・不完全データにより分散された状態を収束させる ・初期化・・全てのアライメントは等確率 ・modル学習 la は the と共起する ○共起・・ある単語がある文章中に出た時その文章中に別の限られた単語が頻繁に出現すること |
2011-01-22 17:29:52 | |
tkng | #TokyoNLP 発表終わりました。むしろ発表者の方が勉強させていただきました。ありがとうございます! | 2011-01-22 17:40:07 | |
sugarlife | 私はいつかのATRさんの言語処理学会チュートリアルで。統計的機械翻訳ことはじめ:http://bit.ly/MAaRJ #TokyoNLP QT: @y_shindoh : 統計的機械翻訳は筑波大学の山本先生の資料で勉強した記憶がある。 かなり昔に。 | 2011-01-22 17:40:41 | |
y_shindoh | GIZE++: a statical machine translation toolkit http://code.google.com/p/giza-pp/ #TokyoNLP |
2011-01-22 17:48:48 | |
y_shindoh | Wikipedia日英京都関連文書対訳コーパス http://alaginrc.nict.go.jp/WikiCorpus/ #TokyoNLP |
2011-01-22 17:50:21 | |
kimukou_26 | #TokyoNLP 日英対訳コーパスの例) ・NICTの日英対訳コーパスで実験 ・GIZA++をつかってアライメント ・セグメーテンションのミスが多い ・フランス語に翻訳する場合は 日本語=>英語=>フランス 英語が対訳コーパスが一番多い(英語を中間言語に) |
2011-01-22 17:56:16 | |
takesako | RT @y_shindoh Wikipedia日英京都関連文書対訳コーパス http://alaginrc.nict.go.jp/WikiCorpus/ #TokyoNLP | 2011-01-22 18:03:11 | |
takesako | Discovering Concepts from Word Cooccurrences with a Relational Model 読む by @suzuvie_reさんの発表 #TokyoNLP http://atnd.org/events/11990 |
2011-01-22 18:17:53 | |
nokuno | 次は @suzuvie_re さん。Frequency based IRMの話し。 #TokyoNLP | 2011-01-22 18:18:16 | |
hamadakoichi | 「Frequency based Infinite Relational Model」 ( @suzuvie_re さん) http://slidesha.re/fy5Yyq #TokyoNLP | 2011-01-22 18:23:57 | |
kimukou_26 | #TokyoNLP ・IRM・・あるかないかでモデルを判定 ・FIRM・・回数をモデルに組み込む =>続けて何回出たかをIRMのモデルに共起の回数を条件として追加するイメージ ・SAM・・単語と単語のペア=>FIRMでは復元できる と論文には書いている |
2011-01-22 18:25:17 | |
kimukou_26 | [2011/01/22 第4回 自然言語処理勉強会@東京]をトゥぎゃりました #tokyonlp http://togetter.com/li/91858 | 2011-01-22 18:47:25 | |
hamadakoichi | 「第4回 自然言語処理勉強会@東京」 終了。みなさん、ありがとうございました。 #TokyoNLP | 2011-01-22 18:47:47 | |
nokuno | 第4回TokyoNLP を開催しました #TokyoNLP http://d.hatena.ne.jp/nokuno/20110122/1295689910 | 2011-01-22 18:51:49 | |
y_shindoh | RT @nokuno: 第4回TokyoNLP を開催しました #TokyoNLP http://d.hatena.ne.jp/nokuno/20110122/1295689910 | 2011-01-22 19:15:08 | |
sakaue | [nlp] RT @hamadakoichi: 音声認識エンジン「Julius」 http://sourceforge.jp/projects/julius/ #TokyoNLP | 2011-01-22 19:23:08 | |
sakaue | [nlp] RT @hamadakoichi: 「SRILM」 - The SRI Language Modeling Toolkit http://www-speech.sri.com/projects/srilm/ #TokyoNLP | 2011-01-22 19:23:26 | |
y_shindoh | @shuyo @nokuno 「クネイザー・ネイ」かなとは思ってますが、私も含め、みな、「ク」をあまりはっきり言わない印象があります。 #TokyoNLP |
2011-01-22 19:24:08 | |
y_shindoh | @sugarlife MFCは「Mel-Frequency Cepstrum」で、係数の「Coefficient」をつければMFCCになりますね。 :) #TokyoNLP |
2011-01-22 19:27:15 | |
y_shindoh | マイク入力で失敗しているなら、要PortAudioです。 http://quruli.ivory.ne.jp/diary/?date=20100605#p07 RT @mansuku: SnowLeopardになってからmake通らないのよね(ーー;) #TokyoNLP |
2011-01-22 19:31:30 | |
y_shindoh | 最初の発表でいきなり長いお時間をいただいてしまい、済みませんでしたが、いろいろとご質問をいただき、個人的にはとても楽しかったです。 参加された皆様、有り難うございました。 #TokyoNLP |
2011-01-22 19:38:58 | |
y_shindoh | #TokyoNLP で @ikkn のweb pageを紹介させていただきました。 RT @takesako: 参考文献:音声認識を紹介するページ MFCC http://recognition.web.fc2.com/ |
2011-01-22 19:43:57 | |
sakaue | [nlp] RT @nokuno: 第4回TokyoNLP を開催しました #TokyoNLP http://d.hatena.ne.jp/nokuno/20110122/1295689910 | 2011-01-22 19:49:09 | |
whym | MeCab単体だと、分割と品詞はあたっても読みがいまいちあたらない、というのはやっぱりそうだったのか。だから読み推定がいる、とおもってたけど、音声認識用なら単に全読みを展開してしまってもそれほど問題ないらしい #tokyonlp | 2011-01-22 19:50:06 | |
mansuku | あざっす!!家で試してみまつ “@y_shindoh: マイク入力で失敗しているなら、要PortAudioです。 http://quruli.ivory.ne.jp/diary/?date=20100605#p07 RT @mansuku: #TokyoNLP |
2011-01-22 20:01:19 | |
y_shindoh | @whym 音響の尤度があるので、それほど問題にはならないのですが、確率を割り当てが方が良いケースもあると思います。 具体的には、音響的に近く言語的に遠い単語列の組を、より適切に探索させるためです (あまり良い例が思いつかない…)。 #TokyoNLP |
2011-01-22 20:22:43 | |
morioka | @mikkio 役立ってますね RT @y_shindoh: 統計的機械翻訳は筑波大学の山本先生の資料で勉強した記憶がある。 かなり昔に。http://www.nlp.mibel.cs.tsukuba.ac.jp/pdf/SMT2008.pdf #TokyoNLP | 2011-01-22 20:25:54 | |
morioka | やっぱり 3-gram > 4-gram を確認した今日だった。 #TokyoNLP | 2011-01-22 20:27:56 | |
nokuno | お疲れ様でした~ #TokyoNLP | 2011-01-22 21:01:48 | |
nokuno | 引き続き、次回の発表者を募集しております。 #TokyoNLP | 2011-01-22 21:02:40 | |
takesako | 皆さまありがとうございました。楽しかったです。 RT @nokuno 第4回TokyoNLP を開催しました #TokyoNLP http://d.hatena.ne.jp/nokuno/20110122/1295689910 | 2011-01-22 21:04:08 | |
y_shindoh | @ikkn 個人的にはMFC, PLP, LPCの分かり易い説明をしていただけると嬉しいです。 ちなみに今日の #TokyoNLP でも「PLPって何?」みたいな質問がありましたよ〜。 :) |
2011-01-22 21:25:48 | |
sugarlife | @y_shindoh MFCCは言わば指標であり、データそのものではありませんねorz 昔の癖で特徴量抽出の方に意識が行っていました。訂正ありがとうございます。#TokyoNLP | 2011-01-22 21:42:19 | |
suzuvie_re | 手直ししてまたアップします。結論だけで逆に分かりづらかったかと思いますので。 #TokyoNLP | 2011-01-22 21:58:07 | |
nokuno | 「第4回 #TokyoNLP」をトゥギャりました。 http://togetter.com/li/92006 | 2011-01-22 22:45:19 | |
langstat | RT @nokuno 「第4回 #TokyoNLP」をトゥギャりました。 http://togetter.com/li/92006 | 2011-01-22 22:55:33 | |
engawa_02 | 第4回 #TokyoNLP http://dlvr.it/DsQWj | 2011-01-22 23:04:13 | |
just_do_neet | RT @nokuno: 「第4回 #TokyoNLP」をトゥギャりました。 http://togetter.com/li/92006 | 2011-01-22 23:09:31 | |
y_shindoh | RT @nokuno: 「第4回 #TokyoNLP」をトゥギャりました。 http://togetter.com/li/92006 | 2011-01-22 23:25:29 | |
koso | RT @hamadakoichi: 「Bursty and Hierarchical Structure in Streams」 Jon Kleinberg 2003 。元論文PDF: http://bit.ly/eSQNkn #TokyoNLP | 2011-01-23 00:11:23 | |
koso | RT @hamadakoichi: 時間あたりのイベント数ではなく、イベント間隔に注目する。より迅速にイベント抽出できる。 #TokyoNLP | 2011-01-23 00:11:27 | |
koso | RT @hamadakoichi: Burst Detection。オートマトン。「通常状態」と「話題の中心にいる状態(Burst State)」。 #TokyoNLP | 2011-01-23 00:11:31 | |
koso | RT @hamadakoichi: 各時点でのイベント発生状況が Burst State と Stable State のどちらの確率分布に従うかで推定。 #TokyoNLP | 2011-01-23 00:11:34 | |
koso | RT @hamadakoichi: ノイズ低減は、Burst State と Stable State 間の遷移にペナルティを与え行う。 #TokyoNLP | 2011-01-23 00:13:26 | |
shuyo | ブログ書いた。眠い。 第4回 自然言語処理勉強会@東京 #tokyonlp http://bit.ly/i4UvP7 | 2011-01-23 01:17:14 | |
overlast | 記事書きました http://diary.overlasting.net/2011-01-22-1.html #TokyoNLP | 2011-01-23 03:55:41 | |
suzuvie_re | ちょっと直しました。まだ分かりづらいかもしれません。すみません! http://www.slideshare.net/suzuvie/frequency-based-infinite-relational-model-6666975 #tokyonlp | 2011-01-23 07:34:16 | |
suzuvie_re | 新しいモデルを作ってもなかなか一般の利用に至らないのが問題だと言っていましたが、どんどん面白いモデルを作っていった先に使いやすいモデルが出てきて広まっていくはずだからどんどん作っていい解法を考えていけばいいと思っています。僕個人としては。#tokyonlp | 2011-01-23 08:05:48 | |
y_shindoh | @nokuno Juliusのようなmulti-passの音声認識エンジンは、通常、探索時のメモリ占有量の削減、後段passの探索アルゴリズムの独自性を狙う形で実装されていると思います。 (と、口頭でお伝えしたつもりでしたが、念のため) #TokyoNLP |
2011-01-23 09:19:40 | |
nokuno | @y_shindoh なるほど。形態素解析やかな漢字変換だとそこまで必要になっていない(単純なビタビでなんとかなる)ので、音声認識ならではの自由度の高さみたいなものがあるなかな~、と思いました。 #tokyonlp | 2011-01-23 09:39:20 | |
nokuno | @y_shindoh 例えば発表でもおっしゃっていた言いよどみの処理、単語の抜け落ちや言い換えなど、スペル訂正に近い処理を入れたりとか。正確なモーラからそのまま単語に直すだけならかな漢字変換と一緒なので。 #TokyoNLP | 2011-01-23 09:42:28 | |
_akisato | RT @shuyo: ブログ書いた。眠い。 第4回 自然言語処理勉強会@東京 #tokyonlp http://bit.ly/i4UvP7 | 2011-01-23 09:48:45 | |
niam | RT @shuyo: ブログ書いた。眠い。 第4回 自然言語処理勉強会@東京 #tokyonlp http://bit.ly/i4UvP7 | 2011-01-23 09:48:59 | |
_akisato | RT @nokuno: 第4回TokyoNLP を開催しました #TokyoNLP http://d.hatena.ne.jp/nokuno/20110122/1295689910 | 2011-01-23 09:49:27 | |
niam | @nokuno さんの #tokyoNLP のまとめを読んでる.こういうまとめは,本当にありがたい.ついつい甘えてしまう….へー,Kleinberg先生って,グラフの人かと思っていたら,バースト研究なんかもやっていらっしゃるんだ.知らなかった. | 2011-01-23 10:04:15 | |
niam | RT @y_shindoh: @nokuno Juliusのようなmulti-passの音声認識エンジンは、通常、探索時のメモリ占有量の削減、後段passの探索アルゴリズムの独自性を狙う形で実装されていると思います。 (と、口頭でお伝えしたつもりでしたが、念のため) #TokyoNLP |
2011-01-23 10:43:35 | |
nokuno | 統計的機械翻訳入門 〜 第4回 #TokyoNLP で発表しました http://d.hatena.ne.jp/nokuno/20110123/1295747083 | 2011-01-23 10:44:43 | |
langstat | RT @nokuno 統計的機械翻訳入門 ~ 第4回 #TokyoNLP で発表しました http://d.hatena.ne.jp/nokuno/20110123/1295747083 | 2011-01-23 12:15:13 | |
nokuno | 第4回 自然言語処理勉強会@東京 #tokyonlp - Mi manca qualche giovedi`? http://htn.to/2CHoNZ | 2011-01-23 12:18:31 | |
kzhr | RT @nokuno: 統計的機械翻訳入門 〜 第4回 #TokyoNLP で発表しました http://d.hatena.ne.jp/nokuno/20110123/1295747083 | 2011-01-23 12:21:15 | |
wk77 | RT @whym: MeCab単体だと、分割と品詞はあたっても読みがいまいちあたらない、というのはやっぱりそうだったのか。だから読み推定がいる、とおもってたけど、音声認識用なら単に全読みを展開してしまってもそれほど問題ないらしい #tokyonlp | 2011-01-23 12:22:59 | |
hiroyukim | RT @overlast: 記事書きました http://diary.overlasting.net/2011-01-22-1.html #TokyoNLP | 2011-01-23 13:42:34 |
とりあえず、ここまで。