NTTデータの日本語解釈ツール「なずき」に興味津々
日本語意味理解製品「なずきTM」を販売開始 〜溢れる日本語テキストから有用な情報を引き出す〜
NTTデータの日本語意味理解製品「なずき」は、徳島大学発ベンチャー企業、株式会社言語理解研究所(代表取締役:青江 順一、本社:徳島県徳島市)との協業により商品化しました。「なずき」では、単語の出現頻度等を利用した統計的な言語処理技術に加え、人の思考と同じように文書の「意味」を踏まえた言語処理技術を用いている点が大きな特長となります。
Amazon Search を作ったときに、形態素解析や日本語解析の製品の調査をしたときから徳島大学発ベンチャー企業のILU言語理解研究所には注目していました。
- スポンサーリンク -
中でも注目している製品は、「類似文書検索エンジン」と「意味概念キーワード抽出エンジン」と「感情理解エンジン」の3つで、これだけで Google AdSense 的にコンテンツマッチ広告や、ブログの記事のテキストマイニングといったビジネスができそうです。まぁ ”これだけで” とは書きましたが、大学の研究の成果物ってのは企業相手にしているのでお値段も非常に高価ってのが通例なので、なかなか手がだせないってのも事実とは思います。
オープンソースでも似たような製品はあります。それぞれのオープンソースを有機的に結合してひとつのアプリケーションとして組み立てたり、精度をだすためのチューニングが大変なので、ビジネスするならやっぱり製品版を購入するのが良いとは思うのですが、個人でやるなら、
- 形態素解析 ChaSen(茶筌) または 形態素解析 MeCab(和布蕪)
- 文章正規化(文章言い換え) KURA(蔵)
- 日本語係り受け解析システム CaboCha(南瓜)
- 汎用連想計算エンジン GETA と 語彙的連鎖計算プログラム Lexical Chainers
- AI アルゴリズムモジュール Algorithm::NaiveBayes などを利用して学習させた感情理解エンジン
と言ったところでしょうか・・・。ちょっと片手間にやるにはシンドイですね。NL な話題やツールを探すには「長岡技科大 自然言語処理研究室さんの公開Bookまーく」からたどると便利です。
- スポンサーリンク -
コメントやシェアをお願いします!
なずきちゃん
SPSSって会社からなのですが、
大学向けで約10万円位
一般企業向けで40万円前後でした
http://www.spss.co.jp/software/pasw_tafs/
なずきちゃん
なずきが搭載された安価なテキストマイニングツール発売になってましたね