すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:テキスト要約トレーニング

最終更新日:Mar 11, 2026

ドキュメント要約や見出し生成などの自動コンテンツ生成タスク向けに、テキスト要約モデルをトレーニングします。

制限事項

このコンポーネントは DLC 計算リソース上でのみ実行されます。

モデルアーキテクチャ

このコンポーネントは、エンコーダー・デコーダー構造を持つ標準的な Transformer アーキテクチャを使用します。トレーニング中、モデルは元の記事を入力として受け取り、対応する見出しを出力として生成します。

前提条件

テキストを 1 行 1 文の形式に分割するため、上流に Sentence Split コンポーネントを接続してください。

コンポーネントパラメーターの設定

Designer インターフェイスでコンポーネントパラメーターを設定します。

  • 入力ポート

    入力ポート (左から右へ)

    データ形式

    推奨される上流コンポーネント

    必須

    訓練データ入力

    OSS

    Read OSS Data

    Yes

    検証データ入力

    OSS

    Read OSS Data

    Yes

  • コンポーネントパラメーター

    タブ

    パラメーター

    説明

    Field Settings

    Input data format

    入力ファイル内のテキストカラム。デフォルト: target:str:1,source:str:1

    Source column

    入力テーブルにおけるソーステキストのカラム名。デフォルト: source

    Summary Column Selection

    入力テーブルにおける要約テキストのカラム名。デフォルト: target

    Model save path

    トレーニング済みモデルファイルを保存する OSS バケットディレクトリ。

    Parameter Settings

    Pre-trained model

    使用する事前学習済みモデル。Parameter Settings タブから選択します。デフォルト: alibaba-pai/mt5-title-generation-zh

    Batch size

    トレーニング時のバッチサイズ。INT 型。デフォルト: 16。

    マルチ GPU サーバーの場合、GPU あたりのバッチサイズを指定します。

    Maximum text length

    処理する最大シーケンス長。INT 型。有効値: 1~512。デフォルト: 512。

    Number of epochs

    トレーニングの総エポック数。INT 型。デフォルト: 3。

    Learning rate

    モデルトレーニング時の学習率。FLOAT 型。デフォルト: 3e-5。

    Steps to Save a Model File

    評価および最良モデルの保存を行うトレーニングステップ数。デフォルト: 150。

    Language

    サポート言語:

    • zh: 中国語

    • en: 英語

    Copy text from source

    ソースからテキストセグメントを出力にコピーするかどうか:

    • false: (デフォルト) テキストをコピーしません

    • true: テキストをコピーします

    Minimum decoder length

    最小出力長。INT 型。デフォルト: 12。

    Maximum decoder length

    最大出力長。INT 型。デフォルト: 32。

    Minimum non-repeated n-gram

    出力内で繰り返しを許可しない最小 n-gram。INT 型。デフォルト: 2。たとえば、1 を設定すると「day day」のような単語の繰り返しが防止されます。

    Beam search size

    候補回答を生成する際の探索空間サイズ。INT 型。デフォルト: 5。値を大きくすると予測が遅くなります。

    Number of returned candidates

    返される上位候補の数。INT 型。デフォルト: 5。

    Execution Tuning

    GPU machine type

    計算リソース用の GPU インスタンスタイプ。デフォルト: gn5-c8g1.2xlarge

  • 出力ポート

    出力ポート

    データ形式

    推奨される下流コンポーネント

    必須

    出力モデル

    Field Settings タブの Model save path パラメーターで指定された OSS パス。ここに SavedModel 形式のトレーニング済みモデルが保存されます。

    Text Summarization Predict

    No

使用例

以下のワークフローは、Text Summarization Training コンポーネントの使用方法を示しています。Workflow 以下のようにワークフローを設定して実行します。

  1. 訓練データセット (cn_train.txt) および検証データセット (cn_dev.txt) を準備し、OSS バケットにアップロードします。これらのサンプルは、タブ区切りフィールドを持つ TXT ファイルです。

    CSV ファイルもサポートされています。MaxCompute クライアントの Tunnel コマンドを使用して、データセットを MaxCompute にアップロードできます。詳細については、「Connect using the client (odpscmd)」および「Tunnel commands」をご参照ください。

  2. Read OSS Data-1 コンポーネントおよび Read OSS Data-2 コンポーネントを使用して、訓練データセットおよび検証データセットを読み取ります。OSS Data Path パラメーターを、データセットが格納されている OSS パスに設定します。

  3. 訓練データセットおよび検証データセットを Text Summarization Training-1 コンポーネントに接続します。「コンポーネントパラメーターの設定」に従ってパラメーターを設定します。

  4. image.png をクリックしてワークフローを実行します。ワークフローが正常に完了したら、出力された要約モデルを確認します。モデルは、Text Summarization Training-1 コンポーネントの Model save path パラメーターで指定された OSS パスに保存されます。

関連トピック