すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:LLM-LaTeXコメントの削除 (MaxCompute)

最終更新日:Jul 22, 2024

LLM-LaTeX Remove Comments (MaxCompute) コンポーネントを使用して、大規模言語モデル (LLM) のトレーニングに使用されるTeXテキストデータを前処理できます。 このコンポーネントは、LaTeXテキストのコメントを削除します。

サポートされるコンピューティングリソース

MaxCompute

アルゴリズム

LLM-LaTeX Remove Comments (MaxCompute) コンポーネントは、特定の正規表現に一致する文字列を削除します。 次の表に、正規表現を示します。

コメントタイプ

正規表現

コメント行

r'(?m)^ %.*\n?'

インラインコメント

r'[^\\]%.+$'

このコンポーネントは、前の正規表現に一致するすべての文字列を抽出し、その文字列を空の文字列に置き換えます。 例:

処理前

image

処理後

image

コンポーネントの設定

Platform for AI (PAI) コンソールのMachine Learning Designerのパイプラインページで、LLM-LaTeX Remove Comments (MaxCompute) コンポーネントのパラメーターを設定します。 下表に、各パラメーターを説明します。

タブ

パラメーター

説明

フィールドの設定

ターゲット列の選択

処理する列。The columns that you want to process. 複数の列を選択できます。

すべての行コメントを削除するかどうか

すべてのコメント行を削除するかどうかを指定します。

行内のコメントをすべて削除するかどうか

すべてのインラインコメントを削除するかどうかを指定します。

出力テーブルのライフサイクル

値は正の整数です。 単位:日 デフォルト値: 28。 テーブルのデフォルトのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。

チューニング

マップタスクのインスタンスごとのCPU数

マップタスクの各インスタンスのCPU数。 有効な値: 50 ~ 800 デフォルト値:100

マップタスクのインスタンスあたりのメモリサイズ

マップタスクの各インスタンスのメモリサイズ。 有効な値: 256〜12288。 デフォルト値: 1024。 単位:MB。

マップの入力データの最大サイズ

マップタスクの各インスタンスが処理できるデータの最大量。 有効な値: 1〜Integer.MAX_VALUE。 デフォルト値: 256 単位:MB。

このパラメーターを使用して、入力データのサイズを制御できます。