nosnosnos nosnosnosnosnosnosnosnosnosnosnosnosnosnosnos

fastTextのインストール

絶対後で忘れるので、残しておく

fastTextのインストール


FacebookのfastTextでFastに単語の分散表現を獲得する を参考にする

日本語wikipediaのダンプデータをダウンロード


ここではqiitaの例を参考にwikipediaのデータを使ってモデルを作成します

wikiextractorでテキストを抽出


cd ~/git/wikiextractor
mkdir corpus
cd ~/git/fastTextJapaneseTutorial/
python3 ~/git/wikiextractor/WikiExtractor.py -b 500M -o corpus ~/git/wikiextractor/source/jawiki-20170320-pages-articles-multistream.xml.bz2


一つにまとめる,分かち書き変換


fastTextで分散表現を取得


cd ~/git/fastTextJapaneseTutorial/
mkdir fastText
../fastText/fasttext.exe skipgram -input corpus/wiki_all_wakati.txt -output fastText/model -dim 200
#dimは最大300まで指定できます


単語モデルであれこれ


fastTextJapaneseTutorialに同梱されているeval.pyで似たような単語を列挙

辞書を追加する


未知語が多かったので形態素解析のために Wikipedia とはてなキーワードからユーザー辞書を生成し利用する を参考に辞書を追加してみました