すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:LLM-LaTeXマクロの拡張 (MaxCompute)

最終更新日:Jul 22, 2024

Platform for AI (PAI) のLLM-LaTeX Expand Macro (MaxCompute) コンポーネントを使用して、大規模言語モデル (LLM) のトレーニングに使用されるTeXテキストデータを前処理できます。 マクロにパラメーターがなく、マクロ名に文字と数字のみが含まれている場合、コンポーネントはマクロ名をインライン展開用のマクロ定義に置き換えます。

サポートされているコンピューティングリソース

MaxCompute

アルゴリズムの説明

LLM-LaTeX Expand Macro (MaxCompute) コンポーネントは、次の正規表現に一致するマクロに対してインライン展開を実行します。

項目

\newcommandを使用して定義されたパラメーターなしマクロ

\defを使用して定義されたパラメーターなしマクロ

正規表現

r' \\\ bnewcommand\b\* ?\{(\\[a-zA-Z0-9]+?)\}\{(.*?)\}$ '

r'\\def\s *(\\[a-zA-Z0-9]+?)\s * {(.*?)\}$ '

一致したマクロ

\newcommand{\macro_name}{macro_value}

\newcommand *{\macro_name}{macro_value}

\def\macro_name{macro_value}

注意

macro_nameには文字と数字のみを使用でき、macro_valueには任意の文字を使用できます。

マクロが上記の正規表現と一致する場合、コンポーネントはmacro_nameの値をmacro_valueの値に置き換えます。 例:

処理前

image

処理後

image

コンポーネントの設定

PAIコンソールでコンポーネントを構成するには、次の手順を実行します。PAIコンソールにログインし、[Visualized Modeling (Designer)] ページに移動して、パイプラインを開きます。 パイプラインページで、LLM-LaTeX Expand Macro (MaxCompute) コンポーネントをキャンバスにドラッグし、右側のウィンドウでパラメーターを設定します。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールドの設定

ターゲット列の選択

処理する列。 複数の列を選択できます。

出力テーブルのライフサイクル

値は正の整数でなければなりません。 単位:日 デフォルト値: 28。 このコンポーネントによって生成された一時テーブルは、28日後にリサイクルされます。

チューニング

マップタスクのインスタンスごとのCPU数

マップタスクの各インスタンスのCPU数。 有効な値: 50 ~ 800 デフォルト値:100

マップタスクのインスタンスあたりのメモリサイズ

マップタスクの各インスタンスのメモリサイズ。 有効な値: 256〜12288。 デフォルト値: 1024。 単位:MB。

マップの入力データの最大サイズ

マップタスクの各インスタンスが処理できるデータの最大量。 有効な値: 1〜Integer.MAX_VALUE。 デフォルト値: 256 単位:MB。

このパラメーターを使用して、入力データのサイズを制御できます。