File Icons
BLOG
(ch-2) 準備編:MacでspaCyを使ったPython開発環境を作成する

準備編:MacでspaCyを使ったPython開発環境を作成する

ここでは、MacにspaCyをインストールして、Pythonで使える環境を作成します。

目次

  1. spaCyをインストール
    1. spaCyとは
    2. spaCyのインストール方法
  2. パイプラインをインストール
    1. パイプラインとは
    2. パイプラインのダウンロード方法
  3. 参考

spaCyをインストール

spaCyとは

spaCyは、Pythonのための高速で実用向けの自然言語処理ライブラリです。spaCyは、実用的な応用と実務での使用を目的として設計されており、多くの言語に対応する強力な前処理機能を持ちます。

日本語を扱う自然言語処理ライブラリとしては、同様の機能を提供するMeCabよりも環境構築が簡単というメリットがあります。

spaCyのインストール方法

■zsh

pip install -U pip setuptools wheel
pip install -U spacy

M1 Macの場合は以下のように記述します。

■zsh

pip install -U 'spacy[apple]'

パイプラインをインストール

パイプラインとは

spaCyのパイプラインは、自然言語処理の一連のタスクを効率的に処理するための仕組みです。具体的には、以下のような処理を行うための機能を提供します。

  • 品詞タグ付け
  • 依存構造解析
  • 固有表現抽出

パイプラインのダウンロード方法

spaCyが使用するspaCyのパイプラインをダウンロードします。今回は日本語を扱うための小規模パイプラインであるja_core_news_smをダウンロードします。

■zsh

python -m spacy download ja_core_news_sm

パイプラインの種類

ja_core_news_sm以外にも、日本語向けに利用可能な学習済みパイプラインは複数存在します。spaCy公式ドキュメントでは、以下の4種類が紹介されています。

モデル名詳細
ja_core_news_sm日本語向けの小規模モデル
ja_core_news_md日本語向けの中規模モデル
ja_core_news_lg日本語向けの大規模モデル
ja_core_news_trf日本語向けのTransformerベースのモデル

公式ドキュメント二紹介されたモデル以外にも、spaCyで使用できるモデルは存在します。最も有名なもののひとつに、GiNZAがあります。

※ GiNZAは、記事執筆時点の最新バージョンであるspaCy==3.6.0では動作しないため、バージョン指定が必要であることに注意が必要です。

参考

CONTACT
ご依頼やご相談、サービスについてのご質問やご要望がございましたら、お気軽にお問い合わせください。
送付いただいた内容を確認の上、担当者からご連絡させていただきます。
お問い合わせ