Mac(10.4 Tiger)に形態素解析ツールMeCabをインストールする
最新バージョン0.97だとエラー吐くようなので0.96でインストール
すんなり入る
$ cd mecab-0.96
$ ./configure
$ make
$ make check
$ sudo make install
続いてMeCab 用の辞書(IPA辞書)のインストール
文字コードをUTF8に指定
$ cd mecab-ipadic-2.7.0-20070801
$ ./configure --with-charset=utf8
$ make
$ sudo make install
ここまでで形態素解析ができる
仮名とカタカナと英語が混じった文章を形態素解析してみる
$ mecab
私はNewYorkに住む青山テルマです。
私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
NewYork 名詞,一般,*,*,*,*,*
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
住む 動詞,自立,*,*,五段・マ行,基本形,住む,スム,スム
青山 名詞,固有名詞,地域,一般,*,*,青山,アオヤマ,アオヤマ
テルマ 名詞,一般,*,*,*,*,*
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。 記号,句点,*,*,*,*,。,。,。
EOS
オモロいw
続いてPythonでMeCabが使えるようにmecab-pythonをインストール
ビルドしてインストール
$ cd mecab-python-0.97
$ python setup.py build
$ sudo python setup.py install
※ここでコケた…
~/.pydistutils.cfgにpythonのsite-packagesのパスが書いてあり、その先には
インストールするためのヘッダーファイルがあるのだが存在せずエラーを吐いてた
消してやったらうまくインストールできた
$ rm ~/.pydistutils.cfg
最後にPythonでMeCabを動かせるか確認
$ python
>>> import sys
>>> import MeCab
>>> m = MeCab.Tagger ("-Ochasen")
>>> print m.parse ("すもももももももものうち")
すもも スモモ すもも 名詞-一般
も モ も 助詞-係助詞
もも モモ もも 名詞-一般
も モ も 助詞-係助詞
もも モモ もも 名詞-一般
の ノ の 助詞-連体化
うち ウチ うち 名詞-非自立-副詞可能
EOS
できたw