すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ワード分割(モデル生成)

最終更新日:Mar 06, 2026

このトピックでは、Designer が提供する「ワード分割(モデル生成)」アルゴリズムコンポーネントについて説明します。

「ワード分割(モデル生成)」アルゴリズムコンポーネントは、Alibaba Word Segmenter(AliWS)の形態素解析システムに基づいており、パラメーターおよびカスタム辞書を用いてワード分割モデルを生成します。

「ワード分割(モデル生成)」コンポーネントは、タオバオおよびインターネット領域における中国語のワード分割をサポートします。

「ワード分割」との違い:

  • 「ワード分割」コンポーネントは、入力テキストを直接分割します。

  • 「ワード分割(モデル生成)」コンポーネントは、ワード分割モデルを生成します。テキストを分割するには、まずモデルをデプロイしたうえで、予測実行またはオンライン API を呼び出す必要があります。

コンポーネントの構成

「ワード分割(モデル生成)」コンポーネントは、以下のいずれかの方法で構成できます。

方法 1:GUI を使用する

コンポーネントのパラメーターは、Designer のワークフローページから設定できます。

タブ

パラメーター

説明

フィールド設定

選択したフィールド列

モデル生成に使用するフィールド列です。

パラメーター設定

認識済みオプション

検出対象のコンテンツタイプです。有効な値は以下のとおりです。

  • 単純エンティティの検出

  • 氏名の検出

  • 組織名の検出

  • 電話番号の検出

  • 時刻の検出

  • 検出日

  • 数字および英字の検出

デフォルト:「単純エンティティの検出」「電話番号の検出」「時刻の検出」「日付の検出」「数字および英字の検出」が選択されています。

マージ対象オプション

マージ対象のコンテンツタイプです。有効な値は以下のとおりです。

  • 中国語数字のマージ

  • アラビア数字のマージ

  • 中国語日付のマージ

  • 中国語時刻のマージ

デフォルト:「アラビア数字のマージ」が選択されています。

トークナイザー

フィルターの種類です。有効な値:TAOBAO_CHN、INTERNET_CHN。デフォルト:TAOBAO_CHN。

品詞タガー

品詞タグ付けを実行するかどうかを指定します。デフォルトでは無効です。

セマンティックタガー

意味タグ付けを実行するかどうかを指定します。デフォルトでは無効です。

数字のみを含む単語の除外

分割された単語のうち、数字のみで構成されるものを除外するかどうかを指定します。デフォルトでは無効です。

英字のみを含む単語の除外

分割された単語のうち、英字のみで構成されるものを除外するかどうかを指定します。デフォルトでは無効です。

句読点のみを含む単語の除外

分割された単語のうち、句読点のみで構成されるものを除外するかどうかを指定します。デフォルトでは無効です。

実行チューニング

コア数

デフォルトでは、システムが自動的に割り当てます。

コアあたりのメモリ量

システムがリソースを自動的に割り当てます。

方法 2:PAI コマンドを使用する

SQL Script コンポーネント内で PAI コマンドを実行して、コンポーネントを構成できます。詳細については、「SQL Script」をご参照ください。

pai -name split_word_model
    -project algo_public
    -DoutputModelName=aliws_model
    -DcolName=content
    -Dtokenizer=TAOBAO_CHN
    -DenableDfa=true
    -DenablePersonNameTagger=false
    -DenableOrgnizationTagger=false
    -DenablePosTagger=false
    -DenableTelephoneRetrievalUnit=true
    -DenableTimeRetrievalUnit=true
    -DenableDateRetrievalUnit=true
    -DenableNumberLetterRetrievalUnit=true
    -DenableChnNumMerge=false
    -DenableNumMerge=true
    -DenableChnTimeMerge=false
    -DenableChnDateMerge=false
    -DenableSemanticTagger=true

パラメーター名

必須

説明

デフォルト値

userDictTableName

いいえ

カスタム辞書テーブルを使用するかどうかを指定します。カスタム辞書テーブルは 1 列のみで、各行に 1 単語が格納されます。

なし

outputModelName

はい

出力モデルの名称です。

なし

colName

いいえ

予測対象のテキストが格納されている列名です。

context

dictTableName

いいえ

カスタム辞書テーブルを使用するかどうかを指定します。カスタム辞書テーブルは 1 列のみで、各行に 1 単語が格納されます。

なし

tokenizer

いいえ

フィルターの種類です。有効な値:TAOBAO_CHN、INTERNET_CHN。

TAOBAO_CHN

enableDfa

いいえ

単純エンティティの検出を有効にするかどうかを指定します。有効な値:True、False。

True

enablePersonNameTagger

いいえ

氏名の検出を有効にするかどうかを指定します。有効な値:True、False。

False

enableOrgnizationTagger

いいえ

組織名の検出を有効にするかどうかを指定します。有効な値:True、False。

False

enablePosTagger

いいえ

品詞タグ付けを有効にするかどうかを指定します。有効な値:True、False。

False

enableTelephoneRetrievalUnit

いいえ

電話番号の検出を有効にするかどうかを指定します。有効な値:True、False。

True

enableTimeRetrievalUnit

いいえ

時刻の検出を有効にするかどうかを指定します。有効な値:True、False。

True

enableDateRetrievalUnit

いいえ

日付の検出を有効にするかどうかを指定します。有効な値:True、False。

True

enableNumberLetterRetrievalUnit

いいえ

数字および英字の検出を有効にするかどうかを指定します。有効な値:True、False。

True

enableChnNumMerge

いいえ

中国語数字を検索ユニットとしてマージするかどうかを指定します。有効な値:True、False。

False

enableNumMerge

いいえ

通常の数字を検索ユニットとしてマージするかどうかを指定します。有効な値:True、False。

True

enableChnTimeMerge

いいえ

中国語の時刻表現を意味的ユニットとしてマージするかどうかを指定します。有効な値:True、False。

False

enableChnDateMerge

いいえ

中国語の日付表現を意味的ユニットとしてマージするかどうかを指定します。有効な値:True、False。

False

enableSemanticTagger

いいえ

意味タグ付けを有効にするかどうかを指定します。有効な値:True、False

False

サンプル

  • PAI コマンド

    pai -name split_word_model
        -project algo_public
        -DoutputModelName=aliws_model
  • デプロイメント

    create onlinemodel ning_test_aliws_model_2 -offlinemodelName ning_test_aliws_model -instanceNum 1 -cpu 100 -memory 4096;
  • オンラインワード分割

    KVJsonRequest request = new KVJsonRequest();
    Map<String, JsonFeatureValue> row = request.addRow();
    row.put(col_name, new JsonFeatureValue("The big data algorithm platform is a new platform"));
    KVJsonResponse res = predictClient.syncPredict(new JsonPredictRequest(project_name, model_name, request));
    List<ResponseItem> ri = res.getOutputs();
    for (ResponseItem item : ri) {
            System.out.println(item.getOutputLabel());
     }
  • オフラインワード分割

    pai -name prediction
        -DmodelName=ning_test_aliws_model
        -DinputTableName=ning_test_aliws
        -DoutputTableName=ning_test_aliws_offline_predict;