第4回自然言語処理勉強会＠東京 Twitterまとめログ #TokyoNLP

#TokyoNLP 4th meeting

日時 / DATE : 2011/01/22 13:00

定員 / LIMIT : 50 人

会場 / PLACE : ECナビ（渋谷）（〒150-0045　東京都渋谷区神泉町8-16　渋谷ファーストプレイス8F ）

URL / URL : http://groups.google.com/group/tokyotextmining

管理者 / ADMIN : Default_latent nokuno

概要

自然言語処理（Natural Language Processing; NLP)に関する勉強会です。
理論と実践の両面から深く学び、発表と議論を通じて共有していくことを目的としています。

発表

* 音声認識のためのN-gram言語モデル by @y_shindohさん
* Burst Detection from Stream 〜流行に疎いぼくらが流行を知る方法〜 by @ohkuraさん
* Confidence WeightedをLearning to Rankに適用してみた by @tkngさん
* 統計的機械翻訳入門（仮） by @nokuno
* Discovering Concepts from Word Cooccurrences with a Relational Model 読む by @suzuvie_reさん

参加条件

連絡のため、Googleグループに参加していることが条件です。

自然言語処理勉強会＠東京 | Google Groups

会場について

ECナビさん（渋谷）をお借り出来ました。@ajiyoshiさん、ありがとうございます！

参考書

Foundations of Statistical Natural Language Processing

(中略)
このイベントの参加希望者47 / 50 人
参加者47人 / キャンセル9人

第4回自然言語処理勉強会＠東京 : ATND

Twitterログ

y_shindoh	研究所内での稟議処理が完了。これで問題なく発表できる。あとは風邪をひかないよう注意するくらいかな? :) #TokyoNLP	2011-01-18 10:17:46
y_shindoh	今回の発表では、スムージング手法の詳細 (ディスカウント係数の算出) については、次々回に話すってことで省略させてもらおう。今回はかなり理想的なコーパスで評価しているので、それを全面に押し出して許しをこおう。 (ぇ #TokyoNLP	2011-01-18 22:19:15
atndbot_tweet	[Today]: 第4回自然言語処理勉強会＠東京,#TokyoNLP 4th meeting,参加者 50/定員 50/補欠者 3,〒150-0045　東京都渋谷区神泉町8-16　渋谷ファーストプレイス8F ,http://atnd.org/events/11990	2011-01-22 04:00:12
suzuvie_re	あげました! http://www.slideshare.net/suzuvie/tokyonlp4-frequency-based-infinite-relational-model #tokyonlp	2011-01-22 04:55:57
nokuno	【リマインド】本日 #tokyonlp です。よろしくお願いします。	2011-01-22 08:24:24
y_shindoh	RT @atndbot_tweet: [Today]: 第4回自然言語処理勉強会＠東京,#TokyoNLP 4th meeting,参加者 50/定員 50/補欠者 3,〒150-0045　東京都渋谷区神泉町8-16　渋谷ファーストプレイス8F ,http://atnd.org/events/11990	2011-01-22 09:04:38
hamadakoichi	今日は「第4回自然言語処理勉強会＠東京」 #TokyoNLP http://bit.ly/fawVmG 、明日は「第９回データマイニング+WEB勉強会＠東京－2ndW－方法論・ソーシャル祭り－」 #TokyoWebmining http://bit.ly/i21uMO です。	2011-01-22 11:46:41
kimukou_26	RT @hamadakoichi: 今日は「第4回自然言語処理勉強会＠東京」 #TokyoNLP http://bit.ly/fawVmG 、明日は「第９回データマイニング+WEB勉強会＠東京－2ndW－方法論・ソーシャル祭り－」 #TokyoWebmining http://bit.ly/i21uMO です。	2011-01-22 11:49:38
shuyo	#tokyonlp 会場到着。って早すぎた！ @ajiyoshi さんとダベり中。	2011-01-22 12:32:35
kimukou_26	今日の #TokyoNLP はUSTあるのかな？	2011-01-22 12:34:37
kisa12012	#tokyonlp 会場到着	2011-01-22 12:52:56
takesako	第4回自然言語処理勉強会@東京 #TokyoNLP に参加中 http://atnd.org/events/11990	2011-01-22 13:06:19
mansuku	とりあえず会場でオニギリもぐもぐ #TokyoNLP	2011-01-22 13:07:14
komiya_atsushi	RT @hamadakoichi: 今日は「第4回自然言語処理勉強会＠東京」 #TokyoNLP http://bit.ly/fawVmG 、明日は「第９回データマイニング+WEB勉強会＠東京－2ndW－方法論・ソーシャル祭り－」 #TokyoWebmining http://bit.ly/i21uMO です。	2011-01-22 13:07:38
kimukou_26	#TokyoNLP 会場に着いた。まだ集合待ち状態かな?	2011-01-22 13:08:15
one_way_baby	RT @hamadakoichi: 今日は「第4回自然言語処理勉強会＠東京」 #TokyoNLP http://bit.ly/fawVmG 、明日は「第９回データマイニング+WEB勉強会＠東京－2ndW－方法論・ソーシャル祭り－」 #TokyoWebmining http://bit.ly/i21uMO です。	2011-01-22 13:08:24
nokuno	そろそろ始めます。 #TokyoNLP	2011-01-22 13:14:40
kimukou_26	音声認識のためのN-gram言語モデル by @y_shindohさん開始 #tokyonlp	2011-01-22 13:17:51
takesako	音声認識のためのN-gram言語モデル by @y_shindohさんの発表開始 #TokyoNLP http://atnd.org/events/11990	2011-01-22 13:18:05
nokuno	@y_shindoh さんはかなり前から準備していただいていました。 #tokyonlp	2011-01-22 13:18:34
nokuno	非可換環！ #TokyoNLP	2011-01-22 13:20:40
kimukou_26	#TokyoNLP Winアプリ＝＞機械メーカでロボット作成（音声認識エンジン開発）＝＞KDDIで音声認識の応用研究されているという方	2011-01-22 13:20:55
marblejenka	RT @nokuno: 非可換環！ #TokyoNLP	2011-01-22 13:21:16
cocoatomo	RT @nokuno: 非可換環！ #TokyoNLP	2011-01-22 13:23:05
mansuku	#TokyoNLP あーなんだかどっかでみた図音声認識	2011-01-22 13:23:50
kimukou_26	#TokyoNLP 音声認識の概要) 音声データ（LPCM＝＞スペクトル）＝＞音声認識エンジン（TLP、MFC）＜＝音響モデル（HMM）、言語モデル（文書のゆう度）	2011-01-22 13:24:20
sugarlife	音声データはMFCCではなくMFCなんだ。意味合いは一緒かな？#tokyonlp	2011-01-22 13:24:48
kimukou_26	#TokyoNLP ■音素＝＞モーラ＝＞単語の流れ・単語/モーラ/音素例)赤い/あ、か、い/a,k,a,i	2011-01-22 13:27:40
takesako	参考文献：音声認識を紹介するページ MFCC #TokyoNLP http://recognition.web.fc2.com/	2011-01-22 13:28:33
sugarlife	juliusの言語モデルだった。#TokyoNLP	2011-01-22 13:29:27
kohama	いいね☆RT @takesako: 参考文献：音声認識を紹介するページ MFCC #TokyoNLP http://recognition.web.fc2.com/	2011-01-22 13:30:21
hamadakoichi	「音声認識のためのN-gram言語モデル」 ( @y_shindoh さん) #TokyoNLP	2011-01-22 13:30:22
hamadakoichi	#TokyoNLP @y_shindoh さん、純粋数学の博士。非可換環。近い。	2011-01-22 13:30:42
kanzmrsw	RT @nokuno: 非可換環！ #TokyoNLP	2011-01-22 13:32:43
kimukou_26	#tokyonlp ・フレミング、ハミング窓、高域強調フィルタ、FFT ・絶対値化、聴覚フィルタ（Mel Freq、Filter）、対数化、DCT ○電話回線を通すと音変わるので、電話音声用の専用フィルタを作成する＝＞研究としては自然音声を基本に考える	2011-01-22 13:33:32
sugarlife	恐らく先ほどの言語モデルはこちらのエンジンのもの音声認識エンジン julius : http://sourceforge.jp/projects/julius/ #TokyoNLP	2011-01-22 13:34:55
kimukou_26	#TokyoNLP 開始＝＞きつね・うどんカレー・うどん XXX ・そばという形で認識言語の繋がりを推測する。言語モデルはNgramを使う	2011-01-22 13:36:16
takesako	音声認識では一般的に単語 3-Gram を使っていることが多い #TokyoNLP	2011-01-22 13:36:27
mansuku	#TokyoNLP 音声認識も2-gramがお得らしい	2011-01-22 13:37:01
kento1218	今日は #tokyoNLP の日なのか	2011-01-22 13:37:12
kimukou_26	#TokyoNLP ・コーパス(単語例)＝＞count N-Gram(頻度1以上の物を対象)=>Ngram データベースにない語彙は認識がしづらくなる	2011-01-22 13:40:13
kimukou_26	#TokyoNLP 単語N-gram高精度化と０頻度問題) かたいことば(王道) と柔らかい話し言葉(小手先パターン)＜友人同士で扱いが違う王道：コーパスを集める小手先：パラレルコーパスでコーパスから生成国会の議事録：余計な言葉は落とすイメージ	2011-01-22 13:42:48
takesako	不自然言語処理っぽい話題が出たので、質問してみた。 #TokyoNLP	2011-01-22 13:44:58
sugarlife	単語N-Gramの高精度化の王道パターンとしてコーパス収集を挙げられている。過去、敢えてコーパスを限定して前向きな言語モデルを作ろうとしたことを思い出した。例：惨事→賛辞 #TokyoNLP	2011-01-22 13:45:40
kimukou_26	#TokyoNLP 1)話題適応：LDA,PLSA 2)表現適応：CRL 3)未知N-gram：単語クラスタリングによる Class N-gram化	2011-01-22 13:47:32
kimukou_26	#TokyoNLP 音声合成で歌を歌わせる等の技術で小手先パターンは使われているかもとの事関西語は難しい！＝＞標準語に直して認識させる手も	2011-01-22 13:48:45
mansuku	“@sugarlife: 恐らく先ほどの言語モデルはこちらのエンジンのもの音声認識エンジン julius : http://sourceforge.jp/projects/julius/ #TokyoNLP” SnowLeopardになってからmake通らないのよね(ｰｰ;)	2011-01-22 13:49:39
sano66	RT @takesako: 音声認識のためのN-gram言語モデル by @y_shindohさんの発表開始 #TokyoNLP http://atnd.org/events/11990	2011-01-22 13:52:33
kimukou_26	#TokyoNLP 認識しにくい物) ・巨大なコーパスでも全て認識網羅できない・認識内容：内容範囲が広いと難しい＝＞スムージング(0頻度の単語に確率を付与)をして、強引に認識閾値を上げる	2011-01-22 13:53:31
nokuno	やっぱりネイザーネイって読むんだ… #TokyoNLP	2011-01-22 13:53:43
takesako	ゼロ頻度の単語に確率を与えてスムージング。ディスカウント係数λの算出方法 Kneser-Ney #tokyoNLP	2011-01-22 13:54:33
kimukou_26	#TokyoNLP 精度に対する指標) 1)音声データ＝＞コーパス（Word Correct,Word Accuracy）・・音声データとコーパスが1対1に対応してある 2)テキストデータのコーパスを用いる方法(Parplexity)	2011-01-22 13:57:12
ukyo	#TokyoNLP a)音声データ含む Word Correct, Word Accuracy b)テキストのみPerplexity	2011-01-22 13:57:50
kimukou_26	#TokyoNLP ・Perpiexity=>音声認識分野で言語モデル単体の性の評価に用いられる指標評価実験) ・MeCab ＝＞生成データを後からいじる・NAIST Japanise Dictonary ・SRLM	2011-01-22 13:59:28
takesako	SRILM - The SRI Language Modeling Toolkit #TokyoNLP http://www-speech.sri.com/projects/srilm/	2011-01-22 13:59:30
hamadakoichi	"NAIST Japanese Dictionary" 形態素解析用辞書。表記ゆれ情報、複合語情報を付与した辞書。 http://bit.ly/e0Lo72 #TokyoNLP	2011-01-22 14:03:20
mansuku	#TokyoNLP あお得なのは3-gramか	2011-01-22 14:03:44
kimukou_26	#TokyoNLP 学習コーパス Wikipedia 凄く多い・ヒープスの法則（V＝KS）・・等比級数的に増加せず＜曲線のグラフはMeCab生成データによる曲線色が強い（音声認識だと些末データはしょっている?）	2011-01-22 14:04:31
shuyo	KN の方が Modified KN より perplexity が低くなることもあるのか－。 #tokyonlp	2011-01-22 14:06:50
kimukou_26	#TokyoNLP ・スムージング手法による差ははそれほど大きくない・コーパス規模に比例する＜料理なら料理と分野を限定した上で ■MSは網羅N-GRAMを作っていたが、範囲が広すぎて認識率が悪かった	2011-01-22 14:09:27
kimukou_26	#TokyoNLP 音声認識の探索) ・辞書無しに、音素情報だけでやると場合分け(網羅率)が爆発する・無くても認識に必要がない物（音声）は捨ててる。＜全て拾うわけではない？	2011-01-22 14:13:25
kimukou_26	#TokyoNLP ・評価コーパスと学習コーパス＝＞両方が良くなっていくとPerplexityが低くなる	2011-01-22 14:18:09
nokuno	デモンストレーション！ #TokyoNLP	2011-01-22 14:19:05
nokuno	大学の時の実験でJulius使ったことあるなあ #TokyoNLP	2011-01-22 14:19:46
nokuno	クックパッドさんや #TokyoNLP	2011-01-22 14:21:22
takesako	オープンソースの音声認識エンジンJulius http://julius.sourceforge.jp/ によるデモ #TokyoNLP	2011-01-22 14:21:42
hamadakoichi	音声認識エンジン「Julius」 http://sourceforge.jp/projects/julius/ #TokyoNLP	2011-01-22 14:21:42
sugarlife	ドメイン（話題、トピック）を考慮してWEBテキストから言語モデルを構築し、Preplexityを改善するということもやられてますね。http://www.ar.media.kyoto-u.ac.jp/members/misu/ #TokyoNLP	2011-01-22 14:22:58
kimukou_26	#TokyoNLP ・音声エンジン: Julius http://julius.sourceforge.jp/ ・言語モデル: SRILM/32000語でのデモ(rubyで動いてる?) COOKPADを例にして見てる・・	2011-01-22 14:23:19
nokuno	すごい #TokyoNLP	2011-01-22 14:24:07
hamadakoichi	「SRILM」 - The SRI Language Modeling Toolkit http://www-speech.sri.com/projects/srilm/ #TokyoNLP	2011-01-22 14:25:19
yitabashi	RT @hamadakoichi: 音声認識エンジン「Julius」 http://sourceforge.jp/projects/julius/ #TokyoNLP	2011-01-22 14:25:25
kimukou_26	#TokyoNLP 音声認識エンジン「Julius」 http://sourceforge.jp/projects/julius/ リアルタイムに結構認識できるんだなー＜検索中に2-gram検索中(文字化表示) ■1文毎認識するのでその間は多少間を開ける必要があり	2011-01-22 14:27:19
asari	RT @sugarlife: ドメイン（話題、トピック）を考慮してWEBテキストから言語モデルを構築し、Preplexityを改善するということもやられてますね。http://www.ar.media.kyoto-u.ac.jp/members/misu/ #TokyoNLP	2011-01-22 14:27:24
asari	RT @kimukou_26: #TokyoNLP ・音声エンジン: Julius http://julius.sourceforge.jp/ ・言語モデル: SRILM/32000語でのデモ(rubyで動いてる?) COOKPADを例にして見てる・・	2011-01-22 14:27:25
toshikazuwada	うーんとstraightは音声分析かな？RT @_akisato: 音声合成 straight http://bit.ly/hZ5TPn RT @hamadakoichi: 音声認識エンジン「Julius」 http://bit.ly/gVgBCT #TokyoNLP	2011-01-22 14:28:39
asari	今日は #TokyoNLP でクックパッドさんが Julius のデモをしているのか? なでしこのやつ?	2011-01-22 14:28:44
flano_yuki	不特定話者の音声認識．学習コーパスと相性の良い場合と，良くない場合のデモ．精度すごい．中でやってる事を聞くと，やっぱり楽しい #TokyoNLP	2011-01-22 14:28:56
takesako	参考文献：音声認識のためのマイクロホンアレー技術 #TokyoNLP http://www.toshiba.co.jp/tech/review/2004/09/59_09pdf/a10.pdf	2011-01-22 14:29:48
toru_tashima	音声認識エンジン"Julius" http://sourceforge.jp/projects/julius/ リアルタイムにやってるすごい #TokyoNLP	2011-01-22 14:32:37
kimukou_26	正確にはKDDIの方が、クックパッドのメニュー例の文書を使ってリアルタイム認識のデモ遣っています RT @asari: 今日は #TokyoNLP でクックパッドさんが Julius のデモをしているのか? なでしこのやつ?	2011-01-22 14:33:05
kimukou_26	#TokyoNLP ・話題がずれた学習コーパスで認識させるとやはりボロボロ。・「Julius」自体は不特定話者の音声認識に対応しているよ＜ぼそぼそしゃべり方は認識しないかも今は、食べログの文章でデモ中	2011-01-22 14:36:54
kimukou_26	#TokyoNLP 末尾に「室蘭」とかの文字で終わると、N-gramで変換できていてもさらに変換がかかって化けてしまう＜御認識扱いになってしまった＞＜。難しい	2011-01-22 14:40:21
mansuku	#TokyoNLP ヤバイ自然言語勉強会だけど、nlpいうより音声認識がオモシロイ	2011-01-22 14:40:50
flano_yuki	音声認識は、ゆっくり話されるとうまく処理できない．システムがうまく処理されないと，人間はゆっくり丁寧に話してしまう．どうすれば良いか #tokyonlp	2011-01-22 14:44:06
kimukou_26	#TokyoNLP ・「だ～か～ら～」とかは認識しずらい。・早口も難しい・認識しやすい話し方というのはやはりある＝＞ここが今後の音声認識の課題！	2011-01-22 14:44:33
sugarlife	雑音はいると面白いぐらい認識率下がるのも悲しみ > 音声認識の課題#TokyoNLP	2011-01-22 14:51:17
takesako	はじめて #TokyoNLP に参加したけど、面白い。なぜか複数人からスピーチデモを強要されそうになった。こわい。	2011-01-22 14:54:20
takesako	Burst Detection from Stream 〜流行に疎いぼくらが流行を知る方法〜 by @ohkuraさんによる発表開始 #TokyoNLP http://atnd.org/events/11990	2011-01-22 14:54:40
nokuno	次は@ohkura さん。Burst Detectionのお話。 #TokyoNLP	2011-01-22 14:55:31
hamadakoichi	「Burst Detection from Stream 〜流行に疎いぼくらが流行を知る方法〜」 ( @ohkura さん) #TokyoNLP	2011-01-22 14:57:18
takesako	参考文献：Bursty and Hierarchical Structure in Streams. (Jon Kleinberg氏) #TokyoNLP http://www.cs.cornell.edu/home/kleinber/bhs.pdf	2011-01-22 14:57:23
nokuno	RT @takesako: 参考文献：Bursty and Hierarchical Structure in Streams. (Jon Kleinberg氏) #TokyoNLP http://www.cs.cornell.edu/home/kleinber/bhs.pdf	2011-01-22 14:58:12
hamadakoichi	#TokyoNLP @ohkura さん、Webmining や Datamining に興味。 #TokyoWebmining もぜひ。	2011-01-22 15:01:25
ajiyoshi	RT @takesako: 参考文献：Bursty and Hierarchical Structure in Streams. (Jon Kleinberg氏) #TokyoNLP http://www.cs.cornell.edu/home/kleinber/bhs.pdf	2011-01-22 15:02:11
mansuku	#TokyoNLP ナゼか例の地震計測の絵でツッコミが！！＼(^o^)／	2011-01-22 15:03:42
hamadakoichi	「Bursty and Hierarchical Structure in Streams」 Jon Kleinberg 2003 。元論文PDF： http://bit.ly/eSQNkn #TokyoNLP	2011-01-22 15:07:19
nokuno	聞きながらブログ書いてるので今日はTweet少なめですｗ #TokyoNLP	2011-01-22 15:08:40
hamadakoichi	時間あたりのイベント数ではなく、イベント間隔に注目する。より迅速にイベント抽出できる。 #TokyoNLP	2011-01-22 15:10:11
kimukou_26	#TokyoNLP シンプルな方法) 1)1日ごとに区切る＝＞次の日にならないと集計できない＞＜＝＞Twitter数の数を考える 2)イベントの範囲に注目＜＝2連続でイベントが起きたらそれはバースト（Burst）? //ノイズ問題	2011-01-22 15:10:58
kimukou_26	#TokyoNLP 1)イベント検出・・異常値の検出（地震計の揺れ検出）正規分布を使ってそれっぽく計算 2)時系列ストリームからのイベント検出・・(TL、Blog、ニュース記事、センサ値)からイベント検出＝＞時間とともに遣ってくるデータ	2011-01-22 15:15:17
hamadakoichi	Burst Detection。オートマトン。「通常状態」と「話題の中心にいる状態（Burst State）」。 #TokyoNLP	2011-01-22 15:17:09
kimukou_26	#TokyoNLP バースト状態・・通常の何倍もの頻度で起きる BurstDetection＝流行チェック・・ノイズの問題が解決していないステート遷移： Statable=>Burst / Burst=>Statable の遷移に制限を設ける（時間間隔で）	2011-01-22 15:21:15
ts_3156	このハッシュタグが面白いです。 #TokyoNLP	2011-01-22 15:22:23
kimukou_26	#TokyoNLP 正規化項×状態遷移確率×積×各時点での状態：ｑ(状態シーケンス)ｔ(時間間隔のシーケンス) で有る確率	2011-01-22 15:24:10
hamadakoichi	各時点でのイベント発生状況が Burst State と Stable State のどちらの確率分布に従うかで推定。 #TokyoNLP	2011-01-22 15:24:59
hamadakoichi	ノイズ低減は、Burst State と Stable State 間の遷移にペナルティを与え行う。 #TokyoNLP	2011-01-22 15:26:14
flano_yuki	オンラインアルゴリズム，ストリームアルゴリズムなお話で楽しい． #tokyoNLP	2011-01-22 15:26:23
mansuku	#TokyoNLP こういう係数は季節性の変数持たせておき楽にやっちゃいたいけど、みんな教育させていく方向で攻めるナァwww	2011-01-22 15:36:15
toru_tashima	RT @takesako: 参考文献：Bursty and Hierarchical Structure in Streams. (Jon Kleinberg氏) #TokyoNLP http://www.cs.cornell.edu/home/kleinber/bhs.pdf	2011-01-22 15:40:33
nokuno	どっかで見たことがあると思ったら @beatinaniwa さんのyazztterの発表だ。 http://j.mp/guA7nr #TokyoNLP	2011-01-22 15:44:35
nilab	RT @kimukou_26: 正確にはKDDIの方が、クックパッドのメニュー例の文書を使ってリアルタイム認識のデモ遣っています RT @asari: 今日は #TokyoNLP でクックパッドさんが Julius のデモをしているのか? なでしこのやつ?	2011-01-22 15:47:37
nokuno	次は @tkngさん。Confidence Weightedでランク学習を実装してみた #TokyoNLP	2011-01-22 16:04:33
toru_tashima	お先に失礼します #TokyoNLP	2011-01-22 16:05:18
hamadakoichi	「Confidence Weighted を Learning to Rank に適用してみた」 ( @tkng さん) #TokyoNLP	2011-01-22 16:10:53
kimukou_26	#TokyoNLP ページランクの話) Yahoo Search、MS Search から論文が出ている。＜Googleは情報露出が少ない? ■自然言語/ランク学習・高次元/低次元・スパース/デンス	2011-01-22 16:11:31
sugarlife	ランク学習として次を紹介：RankingSVM / RankBoost / ListNet / Sofia-ML Sofia-MLはここhttp://code.google.com/p/sofia-ml/ #TokyoNLP	2011-01-22 16:14:19
takesako	TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230	2011-01-22 16:15:43
AE_PerlIsm	RT @takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230	2011-01-22 16:15:43
kimukou_26	#TokyoNLP ランク学習の評価指標) ・NDCG・・上位何件とるか＜普通は10件ぐらい・いいサイトは高くしたい・良くないサイトは低くしたい	2011-01-22 16:16:21
takesako	RT @nokuno: どっかで見たことがあると思ったら @beatinaniwa さんのyazztterの発表だ。 http://j.mp/guA7nr #TokyoNLP	2011-01-22 16:16:28
y_shindoh	RT @takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230	2011-01-22 16:16:48
hamadakoichi	Learning to Rank: RankingSVM, RankBoost, ListNet, Sofia-ML #TokyoNLP	2011-01-22 16:16:53
Dominion525	RT @takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230	2011-01-22 16:17:20
ofuku3f	RT @takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230	2011-01-22 16:17:49
takesako	Confidence WeightedをLearning to Rank（ランク学習?）に適用してみた by @tkngさん発表中 #TokyoNLP → PFI岡野原さんとNLP2011で発表するみたい http://atnd.org/events/11990	2011-01-22 16:18:27
kimukou_26	#TokyoNLP ■Bigpartite Learning ・学習データが短時間で簡単に作れる＝＞自然言語でも学習コーパスを作るのが大変 ■PairWise ・データはペア ■ListWise ・データはリスト型＜＝学習データ作るのが難しい	2011-01-22 16:19:15
manu3da4	RT @takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230	2011-01-22 16:19:58
perlism	RT !takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230	2011-01-22 16:20:03
mansuku	RT “@takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230”	2011-01-22 16:21:00
yujiorama	RT @takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230	2011-01-22 16:21:19
kabeiria	RT @takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230	2011-01-22 16:22:23
kimukou_26	#TokyoNLP 学習の簡単さ Bipartite＜PairWise＜ListWise ・Bipartite・・sampleがある程度ある＝＞サンプルの組み合わせで実装できる	2011-01-22 16:24:36
miyayou	RT @kimukou_26: #TokyoNLP ■Bigpartite Learning ・学習データが短時間で簡単に作れる＝＞自然言語でも学習コーパスを作るのが大変 ■PairWise ・データはペア ■ListWise ・データはリスト型＜＝学習データ作るのが難しい	2011-01-22 16:25:50
hamadakoichi	RankingSVM: 最も基本的。学習時間が超長い。 RankBoost: Boosting のランク学習への学習。 ListNet: 並べ替えた結果のリストから学習。ニューラルネットで学習。 #TokyoNLP	2011-01-22 16:27:13
hamadakoichi	Large Scale Learning to Rank: 全部のペアを見なくてもランダムサンプリングで数%ぐらいの数を見ればよい。 #TokyoNLP	2011-01-22 16:27:50
sugarlife	数％を見れば良いよ！というLarge Scale Learning to Rankの論文はこちら http://www.eecs.tufts.edu/~dsculley/papers/large-scale-rank.pdf #TokyoNLP	2011-01-22 16:28:09
sugarlife	これを実装したのがSofia-ML > Large Scale Learning to Rank。そして話はConfidence Weightedへ。 #TokyoNLP	2011-01-22 16:33:19
kimukou_26	#TokyoNLP Pairwise：文章の並び替え・スコアで Confidence Weighted ) ・更新式は γi 正しい：マイナス値＝＞max:0=>無更新・学習が速い＝＞ループ1回・ノイズに弱い＝＞AROW,NAROWという対策アルゴリズム提案	2011-01-22 16:33:58
hamadakoichi	"Confidence-Weighted Linear Classification", Dredze, Crammer, Pereira, 2008 (PDF) : http://bit.ly/ehOhwR #TokyoNLP	2011-01-22 16:40:26
mansuku	#TokyoNLP ランクの発表結果スゴい勉強になった	2011-01-22 16:41:23
kimukou_26	#TokyoNLP Learnig to Rank) ・feature実装が大変 Confidence Weighted ) ・パラメータの変更率がすごい＜ノイズデータによる・伝統的な手法も要考慮	2011-01-22 16:42:00
Calcite_CaCO3	RT @takesako: TF・IDFより精度のいい情報検索アルゴリズム「BM25」のPerlモジュール #TokyoNLP http://d.hatena.ne.jp/download_takeshi/20091206/1260130230	2011-01-22 16:47:55
overlast	みんなゲホゲホ咳してるかと思ったがそんなでもない。たまに鼻水をすする音がする程度。しかし15人くらい暗黙的なキャンセルをしてる人がいる。。。 #TokyoNLP	2011-01-22 17:11:29
kimukou_26	#TokyoNLP 統計的機械翻訳入門 by @nokuno さん始まってます	2011-01-22 17:12:02
hamadakoichi	「統計的機械翻訳入門」 ( @nokuno さん) #TokyoNLP	2011-01-22 17:12:16
tamakoji	RT @hamadakoichi: 今日は「第4回自然言語処理勉強会＠東京」 #TokyoNLP http://bit.ly/fawVmG 、明日は「第９回データマイニング+WEB勉強会＠東京－2ndW－方法論・ソーシャル祭り－」 #TokyoWebmining http://bit.ly/i21uMO です。	2011-01-22 17:12:32
takesako	統計的機械翻訳入門 by 新マックユーザ @nokuno さんによる発表中 #TokyoNLP http://atnd.org/events/11990	2011-01-22 17:15:27
kimukou_26	#TokyoNLP Noisy-Channel Model）・言語モデル（文の滑らかさ）と翻訳モデル（対訳コーパスから学習：意味の近さ）に分解翻訳モデル) ・単語ベース・フレーズベース・文章ベース	2011-01-22 17:15:30
inohiro	自然言語処理勉強会@東京面白そうだなあ（いまやってるらしい #TokyoNLP	2011-01-22 17:18:09
shuyo	統計機械翻訳でよく出てくる e と f は、なんか勝手に English と French と思い込んでた。そうか、foreign か～ｗ #tokyonlp	2011-01-22 17:19:17
hamadakoichi	"Statistical Machine Translation": 4. Word-Based Models, IBM Models: http://amzn.to/hV0uau #TokyoNLP	2011-01-22 17:20:25
kimukou_26	#TokyoNLP 単語アライメント) ・単語の対応づけ(英独対比) das=the has=house ・並び替え・単語数の増加（1:1とは限らない）	2011-01-22 17:20:52
y_shindoh	統計的機械翻訳は筑波大学の山本先生の資料で勉強した記憶がある。かなり昔に。 http://www.nlp.mibel.cs.tsukuba.ac.jp/pdf/SMT2008.pdf #TokyoNLP	2011-01-22 17:21:26
kimukou_26	#TokyoNLP EMアルゴリズム) ・不完全データにより分散された状態を収束させる・初期化・・全てのアライメントは等確率・modル学習 la は the と共起する ○共起・・ある単語がある文章中に出た時その文章中に別の限られた単語が頻繁に出現すること	2011-01-22 17:29:52
tkng	#TokyoNLP 発表終わりました。むしろ発表者の方が勉強させていただきました。ありがとうございます！	2011-01-22 17:40:07
sugarlife	私はいつかのATRさんの言語処理学会チュートリアルで。統計的機械翻訳ことはじめ：http://bit.ly/MAaRJ #TokyoNLP QT: @y_shindoh : 統計的機械翻訳は筑波大学の山本先生の資料で勉強した記憶がある。かなり昔に。	2011-01-22 17:40:41
y_shindoh	GIZE++: a statical machine translation toolkit http://code.google.com/p/giza-pp/ #TokyoNLP	2011-01-22 17:48:48
y_shindoh	Wikipedia日英京都関連文書対訳コーパス http://alaginrc.nict.go.jp/WikiCorpus/ #TokyoNLP	2011-01-22 17:50:21
kimukou_26	#TokyoNLP 日英対訳コーパスの例) ・NICTの日英対訳コーパスで実験・GIZA++をつかってアライメント・セグメーテンションのミスが多い・フランス語に翻訳する場合は日本語＝＞英語＝＞フランス英語が対訳コーパスが一番多い（英語を中間言語に）	2011-01-22 17:56:16
takesako	RT @y_shindoh Wikipedia日英京都関連文書対訳コーパス http://alaginrc.nict.go.jp/WikiCorpus/ #TokyoNLP	2011-01-22 18:03:11
takesako	Discovering Concepts from Word Cooccurrences with a Relational Model 読む by @suzuvie_reさんの発表 #TokyoNLP http://atnd.org/events/11990	2011-01-22 18:17:53
nokuno	次は @suzuvie_re さん。Frequency based IRMの話し。 #TokyoNLP	2011-01-22 18:18:16
hamadakoichi	「Frequency based Infinite Relational Model」 ( @suzuvie_re さん) http://slidesha.re/fy5Yyq #TokyoNLP	2011-01-22 18:23:57
kimukou_26	#TokyoNLP ・IRM・・あるかないかでモデルを判定・FIRM・・回数をモデルに組み込む＝＞続けて何回出たかをIRMのモデルに共起の回数を条件として追加するイメージ・SAM・・単語と単語のペア＝＞FIRMでは復元できると論文には書いている	2011-01-22 18:25:17
kimukou_26	[2011/01/22 第4回自然言語処理勉強会＠東京]をトゥぎゃりました #tokyonlp http://togetter.com/li/91858	2011-01-22 18:47:25
hamadakoichi	「第4回自然言語処理勉強会＠東京」終了。みなさん、ありがとうございました。 #TokyoNLP	2011-01-22 18:47:47
nokuno	第４回TokyoNLP を開催しました #TokyoNLP http://d.hatena.ne.jp/nokuno/20110122/1295689910	2011-01-22 18:51:49
y_shindoh	RT @nokuno: 第４回TokyoNLP を開催しました #TokyoNLP http://d.hatena.ne.jp/nokuno/20110122/1295689910	2011-01-22 19:15:08
sakaue	[nlp] RT @hamadakoichi: 音声認識エンジン「Julius」 http://sourceforge.jp/projects/julius/ #TokyoNLP	2011-01-22 19:23:08
sakaue	[nlp] RT @hamadakoichi: 「SRILM」 - The SRI Language Modeling Toolkit http://www-speech.sri.com/projects/srilm/ #TokyoNLP	2011-01-22 19:23:26
y_shindoh	@shuyo @nokuno 「クネイザー・ネイ」かなとは思ってますが、私も含め、みな、「ク」をあまりはっきり言わない印象があります。 #TokyoNLP	2011-01-22 19:24:08
y_shindoh	@sugarlife MFCは「Mel-Frequency Cepstrum」で、係数の「Coefficient」をつければMFCCになりますね。 :) #TokyoNLP	2011-01-22 19:27:15
y_shindoh	マイク入力で失敗しているなら、要PortAudioです。 http://quruli.ivory.ne.jp/diary/?date=20100605#p07 RT @mansuku: SnowLeopardになってからmake通らないのよね(ｰｰ;) #TokyoNLP	2011-01-22 19:31:30
y_shindoh	最初の発表でいきなり長いお時間をいただいてしまい、済みませんでしたが、いろいろとご質問をいただき、個人的にはとても楽しかったです。参加された皆様、有り難うございました。 #TokyoNLP	2011-01-22 19:38:58
y_shindoh	#TokyoNLP で @ikkn のweb pageを紹介させていただきました。 RT @takesako: 参考文献：音声認識を紹介するページ MFCC http://recognition.web.fc2.com/	2011-01-22 19:43:57
sakaue	[nlp] RT @nokuno: 第４回TokyoNLP を開催しました #TokyoNLP http://d.hatena.ne.jp/nokuno/20110122/1295689910	2011-01-22 19:49:09
whym	MeCab単体だと、分割と品詞はあたっても読みがいまいちあたらない、というのはやっぱりそうだったのか。だから読み推定がいる、とおもってたけど、音声認識用なら単に全読みを展開してしまってもそれほど問題ないらしい #tokyonlp	2011-01-22 19:50:06
mansuku	あざっす！！家で試してみまつ “@y_shindoh: マイク入力で失敗しているなら、要PortAudioです。 http://quruli.ivory.ne.jp/diary/?date=20100605#p07 RT @mansuku: #TokyoNLP	2011-01-22 20:01:19
y_shindoh	@whym 音響の尤度があるので、それほど問題にはならないのですが、確率を割り当てが方が良いケースもあると思います。具体的には、音響的に近く言語的に遠い単語列の組を、より適切に探索させるためです (あまり良い例が思いつかない…)。 #TokyoNLP	2011-01-22 20:22:43
morioka	@mikkio 役立ってますね RT @y_shindoh: 統計的機械翻訳は筑波大学の山本先生の資料で勉強した記憶がある。かなり昔に。http://www.nlp.mibel.cs.tsukuba.ac.jp/pdf/SMT2008.pdf #TokyoNLP	2011-01-22 20:25:54
morioka	やっぱり 3-gram > 4-gram を確認した今日だった。 #TokyoNLP	2011-01-22 20:27:56
nokuno	お疲れ様でした～ #TokyoNLP	2011-01-22 21:01:48
nokuno	引き続き、次回の発表者を募集しております。 #TokyoNLP	2011-01-22 21:02:40
takesako	皆さまありがとうございました。楽しかったです。 RT @nokuno 第４回TokyoNLP を開催しました #TokyoNLP http://d.hatena.ne.jp/nokuno/20110122/1295689910	2011-01-22 21:04:08
y_shindoh	@ikkn 個人的にはMFC, PLP, LPCの分かり易い説明をしていただけると嬉しいです。ちなみに今日の #TokyoNLP でも「PLPって何?」みたいな質問がありましたよ〜。 :)	2011-01-22 21:25:48
sugarlife	@y_shindoh MFCCは言わば指標であり、データそのものではありませんねorz 昔の癖で特徴量抽出の方に意識が行っていました。訂正ありがとうございます。#TokyoNLP	2011-01-22 21:42:19
suzuvie_re	手直ししてまたアップします。結論だけで逆に分かりづらかったかと思いますので。 #TokyoNLP	2011-01-22 21:58:07
nokuno	「第４回 #TokyoNLP」をトゥギャりました。 http://togetter.com/li/92006	2011-01-22 22:45:19
langstat	RT @nokuno 「第４回 #TokyoNLP」をトゥギャりました。 http://togetter.com/li/92006	2011-01-22 22:55:33
engawa_02	第４回 #TokyoNLP http://dlvr.it/DsQWj	2011-01-22 23:04:13
just_do_neet	RT @nokuno: 「第４回 #TokyoNLP」をトゥギャりました。 http://togetter.com/li/92006	2011-01-22 23:09:31
y_shindoh	RT @nokuno: 「第４回 #TokyoNLP」をトゥギャりました。 http://togetter.com/li/92006	2011-01-22 23:25:29
koso	RT @hamadakoichi: 「Bursty and Hierarchical Structure in Streams」 Jon Kleinberg 2003 。元論文PDF： http://bit.ly/eSQNkn #TokyoNLP	2011-01-23 00:11:23
koso	RT @hamadakoichi: 時間あたりのイベント数ではなく、イベント間隔に注目する。より迅速にイベント抽出できる。 #TokyoNLP	2011-01-23 00:11:27
koso	RT @hamadakoichi: Burst Detection。オートマトン。「通常状態」と「話題の中心にいる状態（Burst State）」。 #TokyoNLP	2011-01-23 00:11:31
koso	RT @hamadakoichi: 各時点でのイベント発生状況が Burst State と Stable State のどちらの確率分布に従うかで推定。 #TokyoNLP	2011-01-23 00:11:34
koso	RT @hamadakoichi: ノイズ低減は、Burst State と Stable State 間の遷移にペナルティを与え行う。 #TokyoNLP	2011-01-23 00:13:26
shuyo	ブログ書いた。眠い。第４回自然言語処理勉強会＠東京 #tokyonlp http://bit.ly/i4UvP7	2011-01-23 01:17:14
overlast	記事書きました http://diary.overlasting.net/2011-01-22-1.html #TokyoNLP	2011-01-23 03:55:41
suzuvie_re	ちょっと直しました。まだ分かりづらいかもしれません。すみません! http://www.slideshare.net/suzuvie/frequency-based-infinite-relational-model-6666975　#tokyonlp	2011-01-23 07:34:16
suzuvie_re	新しいモデルを作ってもなかなか一般の利用に至らないのが問題だと言っていましたが、どんどん面白いモデルを作っていった先に使いやすいモデルが出てきて広まっていくはずだからどんどん作っていい解法を考えていけばいいと思っています。僕個人としては。#tokyonlp	2011-01-23 08:05:48
y_shindoh	@nokuno Juliusのようなmulti-passの音声認識エンジンは、通常、探索時のメモリ占有量の削減、後段passの探索アルゴリズムの独自性を狙う形で実装されていると思います。 (と、口頭でお伝えしたつもりでしたが、念のため) #TokyoNLP	2011-01-23 09:19:40
nokuno	@y_shindoh なるほど。形態素解析やかな漢字変換だとそこまで必要になっていない(単純なビタビでなんとかなる)ので、音声認識ならではの自由度の高さみたいなものがあるなかな～、と思いました。 #tokyonlp	2011-01-23 09:39:20
nokuno	@y_shindoh 例えば発表でもおっしゃっていた言いよどみの処理、単語の抜け落ちや言い換えなど、スペル訂正に近い処理を入れたりとか。正確なモーラからそのまま単語に直すだけならかな漢字変換と一緒なので。 #TokyoNLP	2011-01-23 09:42:28
_akisato	RT @shuyo: ブログ書いた。眠い。第４回自然言語処理勉強会＠東京 #tokyonlp http://bit.ly/i4UvP7	2011-01-23 09:48:45
niam	RT @shuyo: ブログ書いた。眠い。第４回自然言語処理勉強会＠東京 #tokyonlp http://bit.ly/i4UvP7	2011-01-23 09:48:59
_akisato	RT @nokuno: 第４回TokyoNLP を開催しました #TokyoNLP http://d.hatena.ne.jp/nokuno/20110122/1295689910	2011-01-23 09:49:27
niam	@nokuno さんの #tokyoNLP のまとめを読んでる．こういうまとめは，本当にありがたい．ついつい甘えてしまう…．へー，Kleinberg先生って，グラフの人かと思っていたら，バースト研究なんかもやっていらっしゃるんだ．知らなかった．	2011-01-23 10:04:15
niam	RT @y_shindoh: @nokuno Juliusのようなmulti-passの音声認識エンジンは、通常、探索時のメモリ占有量の削減、後段passの探索アルゴリズムの独自性を狙う形で実装されていると思います。 (と、口頭でお伝えしたつもりでしたが、念のため) #TokyoNLP	2011-01-23 10:43:35
nokuno	統計的機械翻訳入門〜第4回 #TokyoNLP で発表しました http://d.hatena.ne.jp/nokuno/20110123/1295747083	2011-01-23 10:44:43
langstat	RT @nokuno 統計的機械翻訳入門～第4回 #TokyoNLP で発表しました http://d.hatena.ne.jp/nokuno/20110123/1295747083	2011-01-23 12:15:13
nokuno	第４回自然言語処理勉強会＠東京 #tokyonlp - Mi manca qualche giovedi`? http://htn.to/2CHoNZ	2011-01-23 12:18:31
kzhr	RT @nokuno: 統計的機械翻訳入門〜第4回 #TokyoNLP で発表しました http://d.hatena.ne.jp/nokuno/20110123/1295747083	2011-01-23 12:21:15
wk77	RT @whym: MeCab単体だと、分割と品詞はあたっても読みがいまいちあたらない、というのはやっぱりそうだったのか。だから読み推定がいる、とおもってたけど、音声認識用なら単に全読みを展開してしまってもそれほど問題ないらしい #tokyonlp	2011-01-23 12:22:59
hiroyukim	RT @overlast: 記事書きました http://diary.overlasting.net/2011-01-22-1.html #TokyoNLP	2011-01-23 13:42:34

とりあえず、ここまで。

第4回 自然言語処理勉強会＠東京 Twitterまとめログ #TokyoNLP

Twitterログ

第4回自然言語処理勉強会＠東京 Twitterまとめログ #TokyoNLP