NLP シーケンスラベリングの CRF 予測設定 - Platform for AI (PAI)

条件付き確率場予測（Conditional Random Field Prediction）コンポーネントは、Machine Learning Designer（旧称：Machine Learning Studio）が提供するアルゴリズムコンポーネントであり、オンライン予測モデルである Linear Conditional Random Field（LinearCRF）に基づいています。このコンポーネントは、系列ラベリングタスクを処理するために使用されます。本トピックでは、条件付き確率場予測コンポーネントのパラメーター設定方法について説明します。また、このコンポーネントの使用例も紹介します。

パラメーターの設定

Designer でコンポーネントのパラメーターを視覚的に設定できます。

パラメーター	説明
ID 列の選択	サンプルは N タプルとして格納されます。ID 列には各サンプルの一意な ID が含まれます。
特徴列の選択	注釈を付与する単語とその対応する特徴です。
ターゲット列の選択	ターゲット列を選択します。
予測結果列	予測結果列の名前です。デフォルト値は prediction_result です。
予測スコア列	予測スコア列の名前です。デフォルト値は prediction_score です。
予測詳細列	予測詳細列の名前です。予測詳細列が不要な場合は、このパラメーターを空のままにしてください。

使用例

LinearCRF のオンライン予測フェーズでは、Model I/O フォーマットの学習済みモデルが必要です。学習データテーブルは以下のフォーマットを使用します。

sentence_id	word	f1	f2	label
1	Rockwell	NNP	POS	B-NP
1	International	NNP	NP	I-NP
1	Corp	NNP	PO	I-NP
1	's	POS	NN	B-NP
...	...	...	...	...

入力フォーマット内の特徴名 word、f1、および f2 は、学習データテーブル内の特徴列名と一致している必要があります。オンライン予測の入力リクエストでは、異なる単語の特徴はスペースで区切られます。LinearCRF オンライン予測モデルの入力フォーマットは以下のとおりです。

{
       "inputs":[
         {
               "word":{
                    "dataType": 50,
                    "dataValue":"Rockwell International Corp 's ..."
                },
                 "f1": {
                   "dataType": 50,
                   "dataValue":"NNP NNP NNP POS ..."
                },
                 "f2": {
                   "dataType": 50,
                   "dataValue":"POS NP PO NN ..."
                }
         }]
}

出力では、入力リクエスト内のすべての単語に対して prediction_result、prediction_score、および prediction_detail が返されます。結果は outputValue 内で JSON フォーマットで提供されます。LinearCRF オンライン予測モデルの出力フォーマットは以下のとおりです。

{
    "outputs": [
    {
       "outputLabel": "CRFProcessor_Result",
       "outputValue": {
        "dataType": 50,
        "dataValue": {
            "Rockwell NNP POS": {
            "prediction_result":"B-NP",
            "prediction_score":0.99,
            "prediction_detail":{"B-ADJP":0.000145, "B-NP":0.99, ...}
            },
            "International NNP NP": ...
        }
       }
    }
    ]
}

入力フォーマットが正しくない場合、プログラムは以下のようなエラーメッセージを返します。

{
    "outputs": [
    {
       "outputLabel": "CRFProcessor_Result",
       "outputValue": {
        "dataType":50,
        "dataValue": "Failed: The input format is incorrect"
       }
    }
    ]
}