テキスト要約トレーニングコンポーネントの設定 - Platform for AI (PAI)

ドキュメント要約や見出し生成などの自動コンテンツ生成タスク向けに、テキスト要約モデルをトレーニングします。

制限事項

このコンポーネントは DLC 計算リソース上でのみ実行されます。

モデルアーキテクチャ

このコンポーネントは、エンコーダー・デコーダー構造を持つ標準的な Transformer アーキテクチャを使用します。トレーニング中、モデルは元の記事を入力として受け取り、対応する見出しを出力として生成します。

前提条件

テキストを 1 行 1 文の形式に分割するため、上流に Sentence Split コンポーネントを接続してください。

コンポーネントパラメーターの設定

Designer インターフェイスでコンポーネントパラメーターを設定します。

入力ポート

入力ポート (左から右へ)	データ形式	推奨される上流コンポーネント	必須
訓練データ入力	OSS	Read OSS Data	Yes
検証データ入力	OSS	Read OSS Data	Yes

コンポーネントパラメーター

タブ	パラメーター	説明
Field Settings	Input data format	入力ファイル内のテキストカラム。デフォルト： target:str:1,source:str:1。
	Source column	入力テーブルにおけるソーステキストのカラム名。デフォルト： source。
	Summary Column Selection	入力テーブルにおける要約テキストのカラム名。デフォルト： target。
	Model save path	トレーニング済みモデルファイルを保存する OSS バケットディレクトリ。
Parameter Settings	Pre-trained model	使用する事前学習済みモデル。Parameter Settings タブから選択します。デフォルト： alibaba-pai/mt5-title-generation-zh。
	Batch size	トレーニング時のバッチサイズ。INT 型。デフォルト： 16。マルチ GPU サーバーの場合、GPU あたりのバッチサイズを指定します。
	Maximum text length	処理する最大シーケンス長。INT 型。有効値： 1～512。デフォルト： 512。
	Number of epochs	トレーニングの総エポック数。INT 型。デフォルト： 3。
	Learning rate	モデルトレーニング時の学習率。FLOAT 型。デフォルト： 3e-5。
	Steps to Save a Model File	評価および最良モデルの保存を行うトレーニングステップ数。デフォルト： 150。
	Language	サポート言語： zh：中国語 en：英語
	Copy text from source	ソースからテキストセグメントを出力にコピーするかどうか： false： (デフォルト) テキストをコピーしません true：テキストをコピーします
	Minimum decoder length	最小出力長。INT 型。デフォルト： 12。
	Maximum decoder length	最大出力長。INT 型。デフォルト： 32。
	Minimum non-repeated n-gram	出力内で繰り返しを許可しない最小 n-gram。INT 型。デフォルト： 2。たとえば、1 を設定すると「day day」のような単語の繰り返しが防止されます。
	Beam search size	候補回答を生成する際の探索空間サイズ。INT 型。デフォルト： 5。値を大きくすると予測が遅くなります。
	Number of returned candidates	返される上位候補の数。INT 型。デフォルト： 5。
Execution Tuning	GPU machine type	計算リソース用の GPU インスタンスタイプ。デフォルト： gn5-c8g1.2xlarge。

出力ポート

出力ポート	データ形式	推奨される下流コンポーネント	必須
出力モデル	Field Settings タブの Model save path パラメーターで指定された OSS パス。ここに SavedModel 形式のトレーニング済みモデルが保存されます。	Text Summarization Predict	No

使用例

以下のワークフローは、Text Summarization Training コンポーネントの使用方法を示しています。 Workflow 以下のようにワークフローを設定して実行します。

訓練データセット (cn_train.txt) および検証データセット (cn_dev.txt) を準備し、OSS バケットにアップロードします。これらのサンプルは、タブ区切りフィールドを持つ TXT ファイルです。

CSV ファイルもサポートされています。MaxCompute クライアントの Tunnel コマンドを使用して、データセットを MaxCompute にアップロードできます。詳細については、「Connect using the client (odpscmd)」および「Tunnel commands」をご参照ください。
Read OSS Data-1 コンポーネントおよび Read OSS Data-2 コンポーネントを使用して、訓練データセットおよび検証データセットを読み取ります。OSS Data Path パラメーターを、データセットが格納されている OSS パスに設定します。
訓練データセットおよび検証データセットを Text Summarization Training-1 コンポーネントに接続します。「コンポーネントパラメーターの設定」に従ってパラメーターを設定します。
をクリックしてワークフローを実行します。ワークフローが正常に完了したら、出力された要約モデルを確認します。モデルは、Text Summarization Training-1 コンポーネントの Model save path パラメーターで指定された OSS パスに保存されます。

Platform For AI:テキスト要約トレーニング

制限事項

モデルアーキテクチャ

前提条件

コンポーネントパラメーターの設定

使用例

関連トピック