すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:条件付き確率場

最終更新日:Apr 02, 2026

ビジュアルモデリングの条件付き確率場(CRF)コンポーネントは、シーケンスラベリングタスク向けに線形チェーンCRFモデルをトレーニングします。線形チェーンCRFは、出力変数がマルコフ確率場(MRF)を構成する条件付き確率分布モデルです。CRFはさまざまな予測シナリオで使用できます。特にアノテーションシナリオでは、線形チェーンCRFが主に使用されます。背景については、「条件付き確率場」をご参照ください。

コンポーネントの設定

パイプラインページまたは PAI コマンドを使用して、条件付き確率場コンポーネントを設定します。

方法 1:パイプラインページでの設定

Platform for AI (PAI) の Machine Learning Designer(旧称:Machine Learning Studio)のパイプラインページで、以下のパラメーターを設定します。

タブパラメーター説明
フィールド設定ID 列各サンプルの ID を含む列。サンプルは n タプル形式で格納されます。
特徴列アノテーション対象の単語とその特徴量(存在する場合)。
ターゲット列選択する列。
パラメーター設定特徴生成テンプレートどのコンテキスト特徴量を生成するかを定義するテンプレート。デフォルト:[-2:0],[-1:0],[0:0],[1:0],[2:0],[-1:0]/[0:0],[0:0]/[1:0],[-2:1],[-1:1],[0:1],[1:1],[2:1],[-2:1]/[-1:1],[-1:1]/[0:1],[0:1]/[1:1],[1:1]/[2:1],[-2:1]/[-1:1]/[0:1],[-1:1]/[0:1]/[1:1],[0:1]/[1:1]/[2:1]
低頻度語フィルターしきい値最小特徴量頻度。この値未満の出現回数を持つ特徴量は破棄されます。デフォルト:1
L1 正則化係数L1 正則化の重み。値が大きいほどスパース性が高まります。デフォルト:1
L2 正則化係数L2 正則化の重み。デフォルト:0
最大反復回数L-BFGS 最適化アルゴリズムの最大反復回数。デフォルト:100
収束しきい値反復間の対数尤度の変化がこの値を下回るとトレーニングを停止します。デフォルト:0.00001
チューニングコア数コア数。デフォルトではシステムが決定します。
コアあたりのメモリサイズコアあたりのメモリ量。デフォルトではシステムが決定します。

特徴生成テンプレートの理解

テンプレート内の各項目は [row_offset:col_index] 形式に従います。ここで:

フィールド意味
row_offset現在のトークンに対する相対位置。0 = 現在のトークン、-1 = 前のトークン、1 = 次のトークン。-2-1012
col_index特徴列内の列インデックス。0 = 最初の特徴列、1 = 2 番目の特徴列。01

/ で結合された項目は、複数の位置を 1 つの特徴量に統合する共起特徴量を形成します。

テンプレート項目意味
[0:0]現在のトークンにおける特徴列 0 の値
[-1:0]前のトークンにおける特徴列 0 の値
[-1:0]/[0:0]前のトークンと現在のトークンにおける特徴列 0 の共起
[0:1]現在のトークンにおける特徴列 1 の値

方法 2:PAI コマンドの使用

SQL Script コンポーネントを使用して PAI コマンドを呼び出します。詳細については、「SQL Script」をご参照ください。

モデルのトレーニング

PAI -name=linearcrf
    -project=algo_public
    -DinputTableName=crf_input_table
    -DidColName=sentence_id
    -DfeatureColNames=word,f1
    -DlabelColName=label
    -DoutputTableName=crf_model
    -Dlifecycle=28
    -DcoreNum=10
パラメーター必須デフォルト値説明
inputTableNameはい入力特徴量を含むテーブル。
inputTablePartitionsいいえすべてのパーティション入力テーブルから読み取るパーティション。
featureColNamesいいえラベル列を除くすべての列入力テーブルからの特徴列。
labelColNameはい予測対象のラベル列。
idColNameはいサンプルラベルを含む列。
outputTableNameはいトレーニング済みモデルを書き込むテーブル。
outputTablePartitionsいいえすべてのパーティション出力モデルテーブルに書き込むパーティション。
templateいいえ特徴量生成テンプレート特徴生成を制御するテンプレート。形式:<template_item>,<template_item>,...。各項目は [row_offset:col_index]/[row_offset:col_index]/...
freqいいえ1特徴量の最小頻度しきい値。この値未満の出現回数を持つ特徴量は破棄されます。
iterationsいいえ100最適化の最大反復回数。
l1Weightいいえ1.0L1 正則化の重み。L-BFGS アルゴリズムに適用されます。
l2Weightいいえ1.0L2 正則化の重み。L-BFGS アルゴリズムに適用されます。
epsilonいいえ0.0001収束しきい値。連続する 2 回の反復間で対数尤度の変化がこの値を下回るとトレーニングを停止します。L-BFGS アルゴリズムに適用されます。
lbfgsStepいいえ10L-BFGS オプティマイザーが使用する履歴ステップ数。L-BFGS アルゴリズム専用です。
threadNumいいえ3モデルトレーニング時の並列スレッド数。
lifecycleいいえ出力テーブルの保持期間。
coreNumいいえシステムが決定コア数。
memSizePerCoreいいえシステムが決定コアあたりのメモリ量。

予測の実行

トレーニング後、新しいシーケンスにラベルを付けるために crf_predict コマンドを使用します。

PAI -name=crf_predict
    -project=algo_public
    -DinputTableName=crf_test_input_table
    -DmodelTableName=crf_model
    -DidColName=sentence_id
    -DfeatureColNames=word,f1
    -DlabelColName=label
    -DoutputTableName=crf_predict_result
    -DdetailColName=prediction_detail
    -Dlifecycle=28
    -DcoreNum=10
パラメーター必須デフォルト値説明
inputTableNameはい入力特徴量を含むテーブル。
inputTablePartitionsいいえすべてのパーティション入力テーブルから読み取るパーティション。
featureColNamesいいえラベル列を除くすべての列入力テーブルからの特徴列。
labelColNameいいえラベル列。予測時には省略可能です。
IdColNameはいサンプルラベルを含む列。
resultColNameいいえprediction_result出力テーブルにおける予測ラベルの列名。
scoreColNameいいえprediction_score予測信頼度スコアの列名。
detailColNameいいえラベルごとのスコア詳細を格納する列名。
outputTableNameはい予測結果を書き込むテーブル。
outputTablePartitionsいいえすべてのパーティション出力テーブルに書き込むパーティション。
modelTableNameはいトレーニング済みモデルを含むテーブル。
modelTablePartitionsいいえすべてのパーティションモデルテーブルから読み取るパーティション。
lifecycleいいえ出力テーブルの保持期間。
coreNumいいえシステムが決定コア数。
memSizePerCoreいいえシステムが決定コアあたりのメモリ量。

使用例

この例では、CoNLL チャンキングデータセットを使用して CRF モデルをトレーニングし、新しいデータに対して予測を実行します。

入力データ形式

入力テーブルはトークンごとに 1 行を含みます。各文は共通の sentence_id で識別されます。label 列は IOB2 表記を使用してチャンク境界をマークします。

ラベル意味
B-<TYPE><TYPE> 型のチャンクの最初のトークン <TYPE>
I-<TYPE>チャンク内部の継続トークン
Oどのチャンクにも属さないトークン
sentence_idwordf1label
1RockwellNNPB-NP
1InternationalNNPI-NP
1CorpNNPI-NP
1'sPOSB-NP
............
823OhioNNPB-NP
823grewVBDB-VP
8233.8CDB-NP
823%NNI-NP
823..O

出力データ

説明

出力におけるラベル列は省略可能です。

sentence_idwordf1label
1ConfidenceNNB-NP
1inINB-PP
1theDTB-NP
1poundNNI-NP
............
77haveVBPB-VP
77announcedVBNI-VP
77similarJJB-NP
77increasesNNSI-NP
77..O