お次はJavaでわかち書きをする方法を説明します。 わかち書きにはSenというライブラリを利用します。 Sen は、Java で実装された形態素解析器で、工藤拓さんによりオープンソース(LGPL)で開発されている形態素解析器MecabをJavaへポーティングしたライブラリ、だそうです。 Sen配布ページから「sen-1.2.2.1.zip」をダウンロードして解凍します。 この中にはわかち書きのための辞書は含まれておらず、自分で作成する必要があります。 辞書の作成のためには「Apache Ant」と「Active Perl」が必要です。 AntはApacheAntプロジェクトサイトから「apache-ant-1.7.0-bin.zip」をダウンロードします。 Active PerlはActiveStateサイトから「ActivePerl-5.8.8.820-MSWin32-x86-27
私もGosenに入れ替えようとしたのですが、、、うまく動きません。 クラスもいろいろと書き換えられていて整合性がとれませんし、変わったAPIのどれを使えばよいかもわかりません。 わかるようでしたらどうやって動いたのか書いてくれると助かります。 TokenのgetPosとか、、、。 変更は、StreamTaggerのコンストラクタの引数を、 input, configFileから、 SenFactory.getStringTagger(configFile), inputに tokenがnet.java.sen.Tokenなのを、 net.java.sen.dictionary.Tokenに org.apache.lucene.analysis.Tokenのコンストラクタを final Morpheme m = token.getMorpheme(); return new T
形態素解析は、簡単に言うと文章を単語にばらすことです。たとえば、「これはテストです。」という文章を形態素解析すると、「これ は テスト です 。」のように5つの単語に分割されます。 さらに各単語の品詞も知ることができます。先の例だと、これ(名詞)は(助詞)テスト(名詞)です(助動詞)。(記号)のようになります。単語の品詞が分かると、名詞だけ取り出してその文章の話題を簡単に把握したり「テストは好き?」などユーザが入力した単語を元に質問文を作成する人工無脳が作れそうです。 Sen † Javaで使える形態素解析エンジンにSenというのがあります。実際にSenをダウンロードしてみたのですがコンパイルや辞書の構築などセットアップがややこしく使うまで苦労しました・・・そんなわけで本サイトでエンジン、辞書をまとめたものを用意しました(再配布は許可されています)。Windows前提なので文字コードはすべ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く