LLM-LaTeX Remove Bibliography (MaxCompute) コンポーネントを使用して、大規模言語モデル (LLM) のトレーニングに使用されるTeXテキストデータを前処理できます。 このコンポーネントは、LaTeXテキストの末尾にある参考文献を削除します。
サポートされるコンピューティングリソース
アルゴリズム
LLM-LaTeX Remove Bibliography (MaxCompute) コンポーネントは、正規表現に一致するすべての文字列を抽出します。r'(\\付録 |\\ begin\{参考文献 \}|\\ begin\{参考文献 \}|\\ \bibliography\{.*\}).*$' 複数の一致パターンは縦棒 (|) で区切られています。
例:
処理前
| 処理後
|
コンポーネントの設定
Platform for AI (PAI) コンソールのMachine Learning Designerのパイプラインページで、LLM-LaTeX Remove Bibliography (MaxCompute) コンポーネントのパラメーターを設定します。 下表に、各パラメーターを説明します。
タブ | パラメーター | 説明 |
フィールドの設定 | ターゲット列の選択 | 処理する列。The columns that you want to process. 複数の列を選択できます。 |
出力テーブルのライフサイクル | 値は正の整数です。 単位:日 デフォルト値: 28。 テーブルのデフォルトのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。 | |
チューニング | マップタスクのインスタンスごとのCPU数 | マップタスクの各インスタンスのCPU数。 有効な値: 50 ~ 800 デフォルト値:100 |
マップタスクのインスタンスあたりのメモリサイズ | マップタスクの各インスタンスのメモリサイズ。 有効な値: 256〜12288。 デフォルト値: 1024。 単位:MB。 | |
マップの入力データの最大サイズ | マップタスクの各インスタンスが処理できるデータの最大量。 有効な値: 1〜Integer.MAX_VALUE。 デフォルト値: 256 単位:MB。 このパラメーターを使用して、入力データのサイズを制御できます。 |

