このトピックでは、Designer が提供する「ワード分割(モデル生成)」アルゴリズムコンポーネントについて説明します。
「ワード分割(モデル生成)」アルゴリズムコンポーネントは、Alibaba Word Segmenter(AliWS)の形態素解析システムに基づいており、パラメーターおよびカスタム辞書を用いてワード分割モデルを生成します。
「ワード分割(モデル生成)」コンポーネントは、タオバオおよびインターネット領域における中国語のワード分割をサポートします。
「ワード分割」との違い:
-
「ワード分割」コンポーネントは、入力テキストを直接分割します。
-
「ワード分割(モデル生成)」コンポーネントは、ワード分割モデルを生成します。テキストを分割するには、まずモデルをデプロイしたうえで、予測実行またはオンライン API を呼び出す必要があります。
コンポーネントの構成
「ワード分割(モデル生成)」コンポーネントは、以下のいずれかの方法で構成できます。
方法 1:GUI を使用する
コンポーネントのパラメーターは、Designer のワークフローページから設定できます。
|
タブ |
パラメーター |
説明 |
|
フィールド設定 |
選択したフィールド列 |
モデル生成に使用するフィールド列です。 |
|
パラメーター設定 |
認識済みオプション |
検出対象のコンテンツタイプです。有効な値は以下のとおりです。
デフォルト:「単純エンティティの検出」「電話番号の検出」「時刻の検出」「日付の検出」「数字および英字の検出」が選択されています。 |
|
マージ対象オプション |
マージ対象のコンテンツタイプです。有効な値は以下のとおりです。
デフォルト:「アラビア数字のマージ」が選択されています。 |
|
|
トークナイザー |
フィルターの種類です。有効な値:TAOBAO_CHN、INTERNET_CHN。デフォルト:TAOBAO_CHN。 |
|
|
品詞タガー |
品詞タグ付けを実行するかどうかを指定します。デフォルトでは無効です。 |
|
|
セマンティックタガー |
意味タグ付けを実行するかどうかを指定します。デフォルトでは無効です。 |
|
|
数字のみを含む単語の除外 |
分割された単語のうち、数字のみで構成されるものを除外するかどうかを指定します。デフォルトでは無効です。 |
|
|
英字のみを含む単語の除外 |
分割された単語のうち、英字のみで構成されるものを除外するかどうかを指定します。デフォルトでは無効です。 |
|
|
句読点のみを含む単語の除外 |
分割された単語のうち、句読点のみで構成されるものを除外するかどうかを指定します。デフォルトでは無効です。 |
|
|
実行チューニング |
コア数 |
デフォルトでは、システムが自動的に割り当てます。 |
|
コアあたりのメモリ量 |
システムがリソースを自動的に割り当てます。 |
方法 2:PAI コマンドを使用する
SQL Script コンポーネント内で PAI コマンドを実行して、コンポーネントを構成できます。詳細については、「SQL Script」をご参照ください。
pai -name split_word_model
-project algo_public
-DoutputModelName=aliws_model
-DcolName=content
-Dtokenizer=TAOBAO_CHN
-DenableDfa=true
-DenablePersonNameTagger=false
-DenableOrgnizationTagger=false
-DenablePosTagger=false
-DenableTelephoneRetrievalUnit=true
-DenableTimeRetrievalUnit=true
-DenableDateRetrievalUnit=true
-DenableNumberLetterRetrievalUnit=true
-DenableChnNumMerge=false
-DenableNumMerge=true
-DenableChnTimeMerge=false
-DenableChnDateMerge=false
-DenableSemanticTagger=true
|
パラメーター名 |
必須 |
説明 |
デフォルト値 |
|
userDictTableName |
いいえ |
カスタム辞書テーブルを使用するかどうかを指定します。カスタム辞書テーブルは 1 列のみで、各行に 1 単語が格納されます。 |
なし |
|
outputModelName |
はい |
出力モデルの名称です。 |
なし |
|
colName |
いいえ |
予測対象のテキストが格納されている列名です。 |
context |
|
dictTableName |
いいえ |
カスタム辞書テーブルを使用するかどうかを指定します。カスタム辞書テーブルは 1 列のみで、各行に 1 単語が格納されます。 |
なし |
|
tokenizer |
いいえ |
フィルターの種類です。有効な値:TAOBAO_CHN、INTERNET_CHN。 |
TAOBAO_CHN |
|
enableDfa |
いいえ |
単純エンティティの検出を有効にするかどうかを指定します。有効な値:True、False。 |
True |
|
enablePersonNameTagger |
いいえ |
氏名の検出を有効にするかどうかを指定します。有効な値:True、False。 |
False |
|
enableOrgnizationTagger |
いいえ |
組織名の検出を有効にするかどうかを指定します。有効な値:True、False。 |
False |
|
enablePosTagger |
いいえ |
品詞タグ付けを有効にするかどうかを指定します。有効な値:True、False。 |
False |
|
enableTelephoneRetrievalUnit |
いいえ |
電話番号の検出を有効にするかどうかを指定します。有効な値:True、False。 |
True |
|
enableTimeRetrievalUnit |
いいえ |
時刻の検出を有効にするかどうかを指定します。有効な値:True、False。 |
True |
|
enableDateRetrievalUnit |
いいえ |
日付の検出を有効にするかどうかを指定します。有効な値:True、False。 |
True |
|
enableNumberLetterRetrievalUnit |
いいえ |
数字および英字の検出を有効にするかどうかを指定します。有効な値:True、False。 |
True |
|
enableChnNumMerge |
いいえ |
中国語数字を検索ユニットとしてマージするかどうかを指定します。有効な値:True、False。 |
False |
|
enableNumMerge |
いいえ |
通常の数字を検索ユニットとしてマージするかどうかを指定します。有効な値:True、False。 |
True |
|
enableChnTimeMerge |
いいえ |
中国語の時刻表現を意味的ユニットとしてマージするかどうかを指定します。有効な値:True、False。 |
False |
|
enableChnDateMerge |
いいえ |
中国語の日付表現を意味的ユニットとしてマージするかどうかを指定します。有効な値:True、False。 |
False |
|
enableSemanticTagger |
いいえ |
意味タグ付けを有効にするかどうかを指定します。有効な値:True、False |
False |
サンプル
-
PAI コマンド
pai -name split_word_model -project algo_public -DoutputModelName=aliws_model -
デプロイメント
create onlinemodel ning_test_aliws_model_2 -offlinemodelName ning_test_aliws_model -instanceNum 1 -cpu 100 -memory 4096; -
オンラインワード分割
KVJsonRequest request = new KVJsonRequest(); Map<String, JsonFeatureValue> row = request.addRow(); row.put(col_name, new JsonFeatureValue("The big data algorithm platform is a new platform")); KVJsonResponse res = predictClient.syncPredict(new JsonPredictRequest(project_name, model_name, request)); List<ResponseItem> ri = res.getOutputs(); for (ResponseItem item : ri) { System.out.println(item.getOutputLabel()); } -
オフラインワード分割
pai -name prediction -DmodelName=ning_test_aliws_model -DinputTableName=ning_test_aliws -DoutputTableName=ning_test_aliws_offline_predict;