Platform for AI (PAI) を使用したテキスト分割（モデル生成）コンポーネントの構成 - PAI

このトピックでは、Designer が提供する「ワード分割（モデル生成）」アルゴリズムコンポーネントについて説明します。

「ワード分割（モデル生成）」アルゴリズムコンポーネントは、Alibaba Word Segmenter（AliWS）の形態素解析システムに基づいており、パラメーターおよびカスタム辞書を用いてワード分割モデルを生成します。

「ワード分割（モデル生成）」コンポーネントは、タオバオおよびインターネット領域における中国語のワード分割をサポートします。

「ワード分割」との違い：

「ワード分割」コンポーネントは、入力テキストを直接分割します。
「ワード分割（モデル生成）」コンポーネントは、ワード分割モデルを生成します。テキストを分割するには、まずモデルをデプロイしたうえで、予測実行またはオンライン API を呼び出す必要があります。

コンポーネントの構成

「ワード分割（モデル生成）」コンポーネントは、以下のいずれかの方法で構成できます。

方法 1：GUI を使用する

コンポーネントのパラメーターは、Designer のワークフローページから設定できます。

タブ	パラメーター	説明
フィールド設定	選択したフィールド列	モデル生成に使用するフィールド列です。
パラメーター設定	認識済みオプション	検出対象のコンテンツタイプです。有効な値は以下のとおりです。単純エンティティの検出氏名の検出組織名の検出電話番号の検出時刻の検出検出日数字および英字の検出デフォルト：「単純エンティティの検出」「電話番号の検出」「時刻の検出」「日付の検出」「数字および英字の検出」が選択されています。
	マージ対象オプション	マージ対象のコンテンツタイプです。有効な値は以下のとおりです。中国語数字のマージアラビア数字のマージ中国語日付のマージ中国語時刻のマージデフォルト：「アラビア数字のマージ」が選択されています。
	トークナイザー	フィルターの種類です。有効な値：TAOBAO_CHN、INTERNET_CHN。デフォルト：TAOBAO_CHN。
	品詞タガー	品詞タグ付けを実行するかどうかを指定します。デフォルトでは無効です。
	セマンティックタガー	意味タグ付けを実行するかどうかを指定します。デフォルトでは無効です。
	数字のみを含む単語の除外	分割された単語のうち、数字のみで構成されるものを除外するかどうかを指定します。デフォルトでは無効です。
	英字のみを含む単語の除外	分割された単語のうち、英字のみで構成されるものを除外するかどうかを指定します。デフォルトでは無効です。
	句読点のみを含む単語の除外	分割された単語のうち、句読点のみで構成されるものを除外するかどうかを指定します。デフォルトでは無効です。
実行チューニング	コア数	デフォルトでは、システムが自動的に割り当てます。
実行チューニング	コアあたりのメモリ量	システムがリソースを自動的に割り当てます。

方法 2：PAI コマンドを使用する

SQL Script コンポーネント内で PAI コマンドを実行して、コンポーネントを構成できます。詳細については、「SQL Script」をご参照ください。

pai -name split_word_model
    -project algo_public
    -DoutputModelName=aliws_model
    -DcolName=content
    -Dtokenizer=TAOBAO_CHN
    -DenableDfa=true
    -DenablePersonNameTagger=false
    -DenableOrgnizationTagger=false
    -DenablePosTagger=false
    -DenableTelephoneRetrievalUnit=true
    -DenableTimeRetrievalUnit=true
    -DenableDateRetrievalUnit=true
    -DenableNumberLetterRetrievalUnit=true
    -DenableChnNumMerge=false
    -DenableNumMerge=true
    -DenableChnTimeMerge=false
    -DenableChnDateMerge=false
    -DenableSemanticTagger=true

パラメーター名	必須	説明	デフォルト値
userDictTableName	いいえ	カスタム辞書テーブルを使用するかどうかを指定します。カスタム辞書テーブルは 1 列のみで、各行に 1 単語が格納されます。	なし
outputModelName	はい	出力モデルの名称です。	なし
colName	いいえ	予測対象のテキストが格納されている列名です。	context
dictTableName	いいえ	カスタム辞書テーブルを使用するかどうかを指定します。カスタム辞書テーブルは 1 列のみで、各行に 1 単語が格納されます。	なし
tokenizer	いいえ	フィルターの種類です。有効な値：TAOBAO_CHN、INTERNET_CHN。	TAOBAO_CHN
enableDfa	いいえ	単純エンティティの検出を有効にするかどうかを指定します。有効な値：True、False。	True
enablePersonNameTagger	いいえ	氏名の検出を有効にするかどうかを指定します。有効な値：True、False。	False
enableOrgnizationTagger	いいえ	組織名の検出を有効にするかどうかを指定します。有効な値：True、False。	False
enablePosTagger	いいえ	品詞タグ付けを有効にするかどうかを指定します。有効な値：True、False。	False
enableTelephoneRetrievalUnit	いいえ	電話番号の検出を有効にするかどうかを指定します。有効な値：True、False。	True
enableTimeRetrievalUnit	いいえ	時刻の検出を有効にするかどうかを指定します。有効な値：True、False。	True
enableDateRetrievalUnit	いいえ	日付の検出を有効にするかどうかを指定します。有効な値：True、False。	True
enableNumberLetterRetrievalUnit	いいえ	数字および英字の検出を有効にするかどうかを指定します。有効な値：True、False。	True
enableChnNumMerge	いいえ	中国語数字を検索ユニットとしてマージするかどうかを指定します。有効な値：True、False。	False
enableNumMerge	いいえ	通常の数字を検索ユニットとしてマージするかどうかを指定します。有効な値：True、False。	True
enableChnTimeMerge	いいえ	中国語の時刻表現を意味的ユニットとしてマージするかどうかを指定します。有効な値：True、False。	False
enableChnDateMerge	いいえ	中国語の日付表現を意味的ユニットとしてマージするかどうかを指定します。有効な値：True、False。	False
enableSemanticTagger	いいえ	意味タグ付けを有効にするかどうかを指定します。有効な値：True、False	False

サンプル

PAI コマンド

pai -name split_word_model
    -project algo_public
    -DoutputModelName=aliws_model

デプロイメント

create onlinemodel ning_test_aliws_model_2 -offlinemodelName ning_test_aliws_model -instanceNum 1 -cpu 100 -memory 4096;

オンラインワード分割

KVJsonRequest request = new KVJsonRequest();
Map<String, JsonFeatureValue> row = request.addRow();
row.put(col_name, new JsonFeatureValue("The big data algorithm platform is a new platform"));
KVJsonResponse res = predictClient.syncPredict(new JsonPredictRequest(project_name, model_name, request));
List<ResponseItem> ri = res.getOutputs();
for (ResponseItem item : ri) {
        System.out.println(item.getOutputLabel());
 }

オフラインワード分割

pai -name prediction
    -DmodelName=ning_test_aliws_model
    -DinputTableName=ning_test_aliws
    -DoutputTableName=ning_test_aliws_offline_predict;