Geocrawler: 位置情報をもとにした個人サイト向け Web インデクサの開発

Geocrawler: 位置情報をもとにした個人サイト向け Web インデクサの開発

-Geocrawler: 位置情報をもとにした個人サイト向け Web インデクサの開発
-情報処理学会 マルチメディア 分散 協調とモバイル(DICOMO2006)シンポジウム論文集,pp.929--932,Jul,2006
-川口 誠敬, 新井 イスマイル, 藤川 和利, 砂原 秀樹
--ttp://inet-lab.naist.jp/publication/kawaguchi:dicomo2006.pdf

-グルメ検索サイトはホンネが書かれていないので、個人サイト・ブログをターゲットにする。
-HTMLファイルをwgetで収集。
-HTML -> テキスト -> 形態素解析
-「地域」に分類された形態素が4つ以上連続している箇所は住所である可能性が高い。
-Yahoo!Mapsにて住所文字列 -> 緯度・経度変換

->検索語:「ラーメン 住所」で検索を行った場合、検索結果上位400件中64件が個人サイト(ブログ35件、個人HP29件)であった。また既存サイトが323件であった。この結果は、既存サイトを除去し個人サイトのHTMLファイルを収集するという目的にそぐわない。本来求める個人サイトのHTMLファイルを収集するために、検索結果のURLに出現頻度が高かった既存サイトに対して、以下のようなキーワードにマイナスを付けることで検索結果から除去する。
->検索語:「ラーメン 住所 −ぐるナビ −Yahoo!グルメ −グルメウォーカー −all about −MSNグルメ −livedoorグルメ −ラーメンバンク −タウン −NAVITIME」の場合、上位検索結果400件中175件が個人サイト(ブログ151件、個人HP24件)であり、188件が店舗情報、ラーメン総合案内サイトという集計結果が得られた。この集計結果を用いてHTMLファイル収集コンポーネントを使用した場合の既存サイトの割合を求め実験結果とする。表2からも読み取れるように、HTMLファイル収集コンポーネントを用いることで、HTMLファイル400件に対しての既存サイトの割合を0.81から0.47に減少させることに成功した。