機械読解トレーニングコンポーネントの設定 - Platform for AI (PAI)

質問に基づいてドキュメントから回答を抽出する機械読解モデルをトレーニングします。

制限事項

このコンポーネントは、DLC 計算リソースでのみ実行できます。

コンポーネントパラメーターの設定

入力ポート

入力ポート (左から右へ)	データ型制限	推奨される上流コンポーネント	必須
トレーニングデータ入力	OSS	OSS データの読み取り	はい
検証データ入力	OSS	OSS データの読み取り	はい

コンポーネントパラメーター

タブ	パラメーター	説明
フィールド設定	言語の選択	入力ファイルの言語。機械読解でサポートされている言語： zh (デフォルト) en
	入力データ形式	入力ファイルの各列のデータ形式。列を区切るにはコンマ (,) を使用します。デフォルト値：qas_id:str:1,context_text:str:1,question_text:str:1,answer_text:str:1,start_position_character:str:1,title:str:1。
	質問列	入力ファイル内の質問を含む列の名前。デフォルト値：question_text。
	コンテキスト列	入力ファイル内のコンテキストテキストを含む列の名前。デフォルト値：context_text。
	回答列	入力ファイル内の回答を含む列の名前。デフォルト値：answer_text。
	ID 列	入力ファイル内の ID を含む列の名前。デフォルト値：qas_id。
	開始位置列	入力ファイル内のコンテキストテキストにおける回答の開始位置を含む列の名前。デフォルト値：start_position_character。
	モデル保存パス	トレーニングまたはファインチューニング後に生成されたモデルファイルを格納する OSS バケットのフォルダパス。
パラメーター設定	バッチサイズ	トレーニングのバッチサイズ。整数。デフォルト値：4。マルチ GPU サーバーの場合、この値は GPU あたりのバッチサイズを指定します。
	最大コンテキスト長	システムが処理できるコンテキストの最大長。整数。デフォルト値：384。
	最大質問長	システムが処理できる質問の最大長。整数。デフォルト値：64。
	スライドウィンドウサイズ	コンテキストをチャンク化するために使用されるスライドウィンドウのサイズ。整数。デフォルト値：128。
	エポック数	トレーニングエポックの総数。整数。デフォルト値：3。
	学習率	モデル構築のための学習率。浮動小数点数。デフォルト値：3.5e-5。
	チェックポイントの保存ステップ	このステップ数トレーニングした後にモデルが評価され、最もパフォーマンスの高いモデルが保存されます。整数。デフォルト値：600。
	モデルの選択	システムが提供する事前学習済みモデルのパス。有効な値：カスタム hfl/macbert-base-zh (デフォルト) hfl/macbert-large-zh bert-base-uncased bert-large-uncased
	カスタムモデルパス	[モデルの選択] が [カスタム] に設定されている場合に使用できます。カスタムの事前学習済みモデルまたはファインチューニング済みモデルを使用するには、ここにそのパスを指定します。フォーマット：`{A: xxx, B: xxx}`。キーと値を区切るにはコロン (:) を使用し、複数のパラメーターを区切るにはコンマ (,) を使用します。
実行チューニング	GPU インスタンスタイプ	計算リソースの GPU インスタンスタイプ。デフォルト値：gn5-c8g1.2xlarge (8 CPU コア、80 GB メモリ、シングル P100 カード)。
実行チューニング	ワーカーあたりの GPU 数	ワーカーあたりの GPU 数。デフォルト値：1。

出力ポート

出力ポート (左から右へ)	データ型	下流コンポーネント
モデル保存パス	OSS パス。これは、[フィールド設定] タブの [モデル保存パス] パラメーターに指定された OSS パスです。トレーニング済みのモデルはこのパスに格納されます。	機械読解予測

例

次の図に示すように、このコンポーネントを使用してワークフローを構築します。

コンポーネントを次のように設定します：

トレーニングデータセットと検証データセットを準備し、OSS バケットにアップロードします。詳細については、「ステップ 2: ファイルのアップロード」をご参照ください。

データセットは TSV または TXT ファイル形式で、次の列を含む必要があります：
- トレーニングデータセット
  
  ID 列、コンテキスト列、質問列、回答列、開始位置列、およびタイトル列 (オプション)。
- 検証データセット
  
  ID 列、コンテキスト列、質問列、回答列 (オプション)、開始位置列 (オプション)、およびタイトル列 (オプション)。
この例では、TSV ファイルを使用してモデルのトレーニングをデモンストレーションします。
[OSS データの読み取り-1] および [OSS データの読み取り-2] コンポーネントを使用して、トレーニングデータセットと検証データセットを読み取ります。[OSS データパス] パラメーターを、データセットが格納されている OSS パスに設定します。
トレーニングデータセットと検証データセットを [機械読解トレーニング] コンポーネントに接続し、そのパラメーターを設定します。詳細については、このトピックの「コンポーネントパラメーター」をご参照ください。

参考文献

機械読解トレーニングコンポーネントの下流に機械読解予測コンポーネントを接続して、生成されたモデルでオフライン予測を実行します。詳細については、「機械読解予測」をご参照ください。
Designer コンポーネントの詳細については、「Designer の概要」をご参照ください。
Designer はさまざまなアルゴリズムコンポーネントを提供します。シナリオに基づいて、データ処理に適したコンポーネントを選択してください。詳細については、「Designer コンポーネントの概要」をご参照ください。