準備編:MacでspaCyを使ったPython開発環境を作成する
ここでは、MacにspaCyをインストールして、Pythonで使える環境を作成します。
目次
- spaCyをインストール
- spaCyとは
- spaCyのインストール方法
- パイプラインをインストール
- パイプラインとは
- パイプラインのダウンロード方法
- 参考
spaCyをインストール
spaCyとは
spaCyは、Pythonのための高速で実用向けの自然言語処理ライブラリです。spaCyは、実用的な応用と実務での使用を目的として設計されており、多くの言語に対応する強力な前処理機能を持ちます。
日本語を扱う自然言語処理ライブラリとしては、同様の機能を提供するMeCabよりも環境構築が簡単というメリットがあります。
spaCyのインストール方法
■zsh
pip install -U pip setuptools wheel pip install -U spacy
M1 Macの場合は以下のように記述します。
■zsh
pip install -U 'spacy[apple]'
パイプラインをインストール
パイプラインとは
spaCyのパイプラインは、自然言語処理の一連のタスクを効率的に処理するための仕組みです。具体的には、以下のような処理を行うための機能を提供します。
- 品詞タグ付け
- 依存構造解析
- 固有表現抽出
パイプラインのダウンロード方法
spaCyが使用するspaCyのパイプラインをダウンロードします。今回は日本語を扱うための小規模パイプラインであるja_core_news_smをダウンロードします。
■zsh
python -m spacy download ja_core_news_sm
パイプラインの種類
ja_core_news_sm以外にも、日本語向けに利用可能な学習済みパイプラインは複数存在します。spaCy公式ドキュメントでは、以下の4種類が紹介されています。
モデル名 | 詳細 |
---|---|
ja_core_news_sm | 日本語向けの小規模モデル |
ja_core_news_md | 日本語向けの中規模モデル |
ja_core_news_lg | 日本語向けの大規模モデル |
ja_core_news_trf | 日本語向けのTransformerベースのモデル |
公式ドキュメント二紹介されたモデル以外にも、spaCyで使用できるモデルは存在します。最も有名なもののひとつに、GiNZAがあります。
※ GiNZAは、記事執筆時点の最新バージョンであるspaCy==3.6.0では動作しないため、バージョン指定が必要であることに注意が必要です。