« Eclipse Plug-inでFlex Builder 3をインストール | メイン | ガチンコラーメン道 »

Macに形態素解析ツールMeCabのインストール

Mac(10.4 Tiger)に形態素解析ツールMeCabをインストールする

mevab1.png

最新バージョン0.97だとエラー吐くようなので0.96でインストール

mecab0.png

すんなり入る


$ cd mecab-0.96
$ ./configure
$ make
$ make check
$ sudo make install


続いてMeCab 用の辞書(IPA辞書)のインストール

mecab4.png

文字コードをUTF8に指定


$ cd mecab-ipadic-2.7.0-20070801
$ ./configure --with-charset=utf8
$ make
$ sudo make install

ここまでで形態素解析ができる
仮名とカタカナと英語が混じった文章を形態素解析してみる


$ mecab
私はNewYorkに住む青山テルマです。

私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
NewYork 名詞,一般,*,*,*,*,*
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
住む 動詞,自立,*,*,五段・マ行,基本形,住む,スム,スム
青山 名詞,固有名詞,地域,一般,*,*,青山,アオヤマ,アオヤマ
テルマ 名詞,一般,*,*,*,*,*
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。 記号,句点,*,*,*,*,。,。,。
EOS


オモロいw
続いてPythonでMeCabが使えるようにmecab-pythonをインストール

mecab5.png

ビルドしてインストール


$ cd mecab-python-0.97
$ python setup.py build
$ sudo python setup.py install


※ここでコケた…
~/.pydistutils.cfgにpythonのsite-packagesのパスが書いてあり、その先には
インストールするためのヘッダーファイルがあるのだが存在せずエラーを吐いてた
消してやったらうまくインストールできた


$ rm ~/.pydistutils.cfg

最後にPythonでMeCabを動かせるか確認


$ python
>>> import sys
>>> import MeCab
>>> m = MeCab.Tagger ("-Ochasen")
>>> print m.parse ("すもももももももものうち")

すもも スモモ すもも 名詞-一般
も モ も 助詞-係助詞
もも モモ もも 名詞-一般
も モ も 助詞-係助詞
もも モモ もも 名詞-一般
の ノ の 助詞-連体化
うち ウチ うち 名詞-非自立-副詞可能
EOS


できたw

コメントを投稿

(いままで、ここでコメントしたことがないときは、コメントを表示する前にこのブログのオーナーの承認が必要になることがあります。承認されるまではコメントは表示されません。そのときはしばらく待ってください。)

Profile

tomoharu.jpg
千田 智治
Tomoharu Senda

Homepage hp.jpg

Ad Clip adclip_blog.jpg

About

2008年11月26日 00:01に投稿されたエントリーのページです。

ひとつ前の投稿は「Eclipse Plug-inでFlex Builder 3をインストール」です。

次の投稿は「ガチンコラーメン道」です。

他にも多くのエントリーがあります。メインページアーカイブページも見てください。

Powered by Movable Type banner_01.gif ブログランキング・にほんブログ村へ