Platform for AI (PAI) のLLM-LaTeX Expand Macro (MaxCompute) コンポーネントを使用して、大規模言語モデル (LLM) のトレーニングに使用されるTeXテキストデータを前処理できます。 マクロにパラメーターがなく、マクロ名に文字と数字のみが含まれている場合、コンポーネントはマクロ名をインライン展開用のマクロ定義に置き換えます。
サポートされているコンピューティングリソース
アルゴリズムの説明
LLM-LaTeX Expand Macro (MaxCompute) コンポーネントは、次の正規表現に一致するマクロに対してインライン展開を実行します。
項目 | \newcommandを使用して定義されたパラメーターなしマクロ | \defを使用して定義されたパラメーターなしマクロ |
正規表現 |
|
|
一致したマクロ |
|
|
注意 | macro_nameには文字と数字のみを使用でき、macro_valueには任意の文字を使用できます。 | |
マクロが上記の正規表現と一致する場合、コンポーネントはmacro_nameの値をmacro_valueの値に置き換えます。 例:
処理前
| 処理後
|
コンポーネントの設定
PAIコンソールでコンポーネントを構成するには、次の手順を実行します。PAIコンソールにログインし、[Visualized Modeling (Designer)] ページに移動して、パイプラインを開きます。 パイプラインページで、LLM-LaTeX Expand Macro (MaxCompute) コンポーネントをキャンバスにドラッグし、右側のウィンドウでパラメーターを設定します。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールドの設定 | ターゲット列の選択 | 処理する列。 複数の列を選択できます。 |
出力テーブルのライフサイクル | 値は正の整数でなければなりません。 単位:日 デフォルト値: 28。 このコンポーネントによって生成された一時テーブルは、28日後にリサイクルされます。 | |
チューニング | マップタスクのインスタンスごとのCPU数 | マップタスクの各インスタンスのCPU数。 有効な値: 50 ~ 800 デフォルト値:100 |
マップタスクのインスタンスあたりのメモリサイズ | マップタスクの各インスタンスのメモリサイズ。 有効な値: 256〜12288。 デフォルト値: 1024。 単位:MB。 | |
マップの入力データの最大サイズ | マップタスクの各インスタンスが処理できるデータの最大量。 有効な値: 1〜Integer.MAX_VALUE。 デフォルト値: 256 単位:MB。 このパラメーターを使用して、入力データのサイズを制御できます。 |

