LLM-LaTeX コメント削除コンポーネントは、大規模言語モデル (LLM) ワークフローにおけるテキストデータの前処理に使用されます。TEX 形式のドキュメントを対象とし、LaTeX テキストからコメント行とインラインコメントを削除します。
サポート対象のコンピューティングリソース
アルゴリズム
このコンポーネントは、以下の正規表現を使用して LaTeX テキスト内のコメントを識別し、削除します。
|
タイプ |
正規表現 |
|
コメント行 |
|
|
インラインコメント |
|
このコンポーネントは、これらの正規表現に一致するすべての文字列を検索し、空文字列に置き換えます。以下の例は、この処理プロセスを示しています。
|
処理前
|
処理後
|
コンポーネントの設定
Designer ワークフローに [LLM-LaTeX コメント削除] コンポーネントを追加し、右側のペインでパラメータを設定します。
|
パラメータグループ |
パラメータ |
説明 |
|
フィールド設定 |
ターゲット列の選択 |
処理する 1 つ以上の列を選択します。 |
|
すべてのコメント行を削除 |
選択すると、すべてのコメント行が削除されます。 |
|
|
すべてのインラインコメントを削除 |
選択すると、すべてのインラインコメントが削除されます。 |
|
|
出力テーブルライフサイクルの設定 |
一時出力テーブルが削除されるまでの日数を指定します。この値は正の整数である必要があります。デフォルト値は 28 です。 |
|
|
パフォーマンスチューニング |
インスタンスあたりの CPU 数 |
各マップタスクインスタンスの CPU 数です。値の範囲:50~800。デフォルト値:100。 |
|
インスタンスあたりのメモリサイズ (MB) |
各マップタスクインスタンスのメモリサイズ (MB 単位) です。値の範囲:256~12288。デフォルト値:1024。 |
|
|
インスタンスあたりのデータサイズ (MB) |
各マップタスクインスタンスが処理できるデータの最大量 (MB 単位) です。値の範囲:1~Integer.MAX_VALUE。デフォルト値:256。 このパラメータを使用して、各マップタスクの入力量を制御できます。 |