Sen - 形態素解析ライブラリ

Sen - 形態素解析ライブラリ

Sen


-Sen は Javaで書かれた形態素解析ライブラリ
--MeCab の Java 移植版

-MeCab: Yet Another Part-of-Speech and Morphological Analyzer
--http://mecab.sourceforge.jp/
--->MeCab (和布蕪)とは
--->MeCab は 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトを通じて開発されたオープンソース形態素解析エンジンです. 言語, 辞書,コーパスに依存しない汎用的な設計を基本方針としています. パラメータの推定に Conditional Random Fields (CRF) を用いており, ChaSenが採用している隠れマルコフモデルに比べ性能が向上しています。また、平均的に ChaSen, Juman, KAKASIより高速に動作します. ちなみに和布蕪(めかぶ)は, 作者の好物です.

-Sen Project - Sen Project
--http://ultimania.org/sen/
--->Sen は、Java で実装された形態素解析器で、工藤拓さんによりオープンソース(LGPL)で開発されている形態素解析器MecabをJavaへポーティングしたライブラリです。ChaSen? やMecab等のC/C++で実装された形態素解析器をJavaから利用する場合、JNIを利用する必要がありますが、JNIを利用すると動作が不安定になることがあり、また、JNIのオーバヘッドによりパフォーマスが低下します。Senは100% Javaで記述されているため、高信頼かつ高パフォーマンスを得ることができます(注:ChaSen?やMecabが安定していない、パフォーマスが低いという訳ではありません。JNIの特性上、そうなるということです)。
--->Senはライブラリとして組み込み易く設計されています。2つ3つのクラスの利用方法さえマスターすれば形態素を簡単に取得できます。また、拡張可能なプロセッサにより機能拡張を行うことができます。Tokenizerを拡張すれば日本語以外の言語にさえ対応可能となっています。Senは完全なオブジェクト指向設計により構築されています。
--->Jakarta で開発されている Java のインデックスサーチエンジン Lucene と組み合わせると、日本語の全文検索を行うことができるようになります。SenはJ2SE/J2EEに対応していますので、Javaを利用したリッチクライアントから J2EEアプリケーションまで、幅広くご利用頂けます。

-sen: ホーム
--https://sen.dev.java.net/

-sen: ファイルの共有: release
--https://sen.dev.java.net/servlets/ProjectDocumentList?folderID=755&expandFolder=755&folderID=0
---プロジェクト配布ファイル一覧。

-Version 1.2.2.1 release. (2006/03/28)
--ttps://sen.dev.java.net/files/documents/1373/31864/sen-1.2.2.1.zip

-[ヅ] 形態素解析ライブラリSenのインストール (2007-01-12)
--http://www.nilab.info/z3/20070112_zlashdot_000493.html

-[ヅ] Senで使う複合語辞書 (2007-01-12)
--http://www.nilab.info/z3/20070112_zlashdot_000494.html

-[ヅ] Sen の PreProcessor や PostProcessor を生成するためのクラス (2007-01-12)
--http://www.nilab.info/z3/20070112_zlashdot_000495.html

-[ヅ] Sen の StringTagger オブジェクトは設定ファイルと 1対1 の対応関係 (2007-01-12)
--http://www.nilab.info/z3/20070112_zlashdot_000496.html

-sen: メール リーダー : Subject: 前処理・後処理
--https://sen.dev.java.net/servlets/ReadMsg?list=dev&msgNo=36
--->予告してからずいぶん経ってしまいましたが、ChaSen にあった以下の機能を
--->Sen でも利用できるようにしたコードをコミットしました。
--->
--->・複合語全体の形態素情報を出力するか、その構成語ごとの形態素情報を
---> 出力するかを選べる機能(複合語出力機能)
--->・指定した品詞の並びをひとまとめにして一つの形態素とする機能(連結品詞機能)
--->・指定した文字列に囲まれた部分を注釈部分として解析の対象から外す機能(注釈機能)
---> 解析結果には注釈部分がひとまとめにされて一つの形態素として出力される。

SenをベースにしたGoSen


-GoSen - Itadaki
--http://itadaki.org/wiki/index.php/GoSen
--->GoSen is a comprehensive rewrite and upgrade of Sen, a pure Java LGPL morphological analysis library for Japanese which in turn was based on MeCab.
--->GoSen is at present a de facto fork of Sen. It would be extremely useful if the work performed to create GoSen could be folded back into the base Sen project; unfortunately, the original authors of Sen seem to be uncontactable at the present time.

-SourceForge.net: Itadaki
--https://sourceforge.net/projects/itadaki/

-Taka Kanji Database
--http://taka.sourceforge.net/

-sen: dev@sen.dev.java.net ふりがなプロセッサーの提出 2007-01-10
--https://sen.dev.java.net/servlets/ReadMsg?list=dev&msgNo=177
--->Senに基づいてふりがなプロセッサーを作っています。OpenOffice拡張機能の基
--->礎として用いる予定です。
--->ソースはもともとSen 1.2.2.1だったが、かなり変わっていました。
--->
--->Senプロジェクトが採用いただければ幸いですが,いかがでしょうか?
--->
--->
--->ソースコードはこちら:
--->ttp://taka.sourceforge.net/temporary/gosen-test.zip
--->
--->スクリーンショット:
--->ttp://taka.sourceforge.net/temporary/readingprocessor.png
--->
--->
--->主な改正点
--->
--->- ふりがなプロセッサー (ReadingProcessor)
--->- ソースをJava 5にアップグレードしました
--->- GPL互換性を改良しました (commons-loggingへの依存を取り除いた)
--->- Javaだけで辞書をコンパイルできるようにしました (Perlへの依存を取り
--->除いた)
--->- 辞書コンパイラーのメモリ使用料を減らしました (ヒープサイズを上げな
--->くてもコンパイルできる)
--->- EUC-JISX0213サポート (IpadicはEUC-JISX0213文字を含むが、Javaがまだ
--->EUC-JPしか読めないようです)
--->- 分析スピードを改善しました
--->- Ipadicで複数の読みのある形態素をすべての読みがアクセスできる
--->- 包括的なJavaDoc (英語ですが…)
--->- JUnitテストスイート

lucene-gosen


-lucene-gosen/lucene-gosen - GitHub
--https://github.com/lucene-gosen/lucene-gosen

Morphological Analyzer


-GitHub - SenMorphologicalAnalyzer/sen: Morphological Analyzer written in Java (no longer maintained)
--https://github.com/SenMorphologicalAnalyzer/sen