LLM-LaTeX Remove Header (DLC) コンポーネントを使用して、TeXテキストデータを処理できます。 このコンポーネントは、<section-type>[optional-args]{name} 形式に一致する最初のセクションの前のコンテンツを削除します。 入力Object Storage Service (OSS) データファイルは、JSON Lines形式である必要があります。 ファイルの各行は有効なJSONオブジェクトですが、ファイル全体は有効なJSONオブジェクトではありません。 例を表示するには、こちらをクリックしてください。
サポートされるコンピューティングリソース
アルゴリズム
このコンポーネントは、次の正規表現を使用してLaTeXテキスト内のセクションを検索します。r' ^(.*?)(\\\ bchapter\b\*?(?:\[(.*?))\])?\{(.*?)\}|\\\ bpart\b\*?(?:\[(.*?))\])?\{(.*?)\}|\\\ bsection\b\*?(?:\[(.*?))\])?\{(.*?)\}|\\\ bsubsection\b\*?(?:\[(.*?))\])?\{(.*?)\}|\\\ bsubsection\b\*?(?:\[(.*?))\])?\{(.*?)\}|\\\ bparagraph\b\*?(?:\[(.*?))\])?\{(.*?)\}|\\\ bsubparagraph\b\*?(?:\[(.*?))\])?\{(.*?)\})'. 複数の一致パターンは縦棒 (|) で区切られています。
コンポーネントは、最初に見つかったセクションの前のすべてのコンテンツを削除します。 セクションラインと次のコンテンツは保持されます。 例:
処理前
| 処理後
|
コンポーネントの設定
Platform for AI (PAI) コンソールのMachine Learning Designerのパイプラインページで、LLM-LaTeX Remove Header (DLC) コンポーネントのパラメーターを設定します。 下表に、各パラメーターを説明します。
タブ | パラメーター | 必須 | 説明 | デフォルト値 | |
フィールドの設定 | Target Processフィールド | 必須 | 処理するフィールドの名前。 | デフォルト値なし | |
ヘッダーサンプルを削除しないかどうか | 選択可能 | セクションが見つからないテキストサンプルを削除するかどうかを指定します。 | 選択済み | ||
OutputDataを保存するためのOSSディレクトリ | 選択可能 | 生成されたデータが保存されるOSSディレクトリ。 このパラメーターを指定しない場合、ワークスペースのデフォルトパスが使用されます。 | デフォルト値なし | ||
チューニング | プロセス数 | 選択可能 | プロセスの数。 | 8 | |
リソースグループの選択 | パブリックリソースグループ | 選択可能 | 使用するインスタンスタイプ (CPUまたはGPU) 、インスタンス数、および仮想プライベートクラウド (VPC) 。 | デフォルト値なし | |
専用リソースグループ | 選択可能 | 使用するvCPU、メモリ、共有メモリの数、GPUの数、およびインスタンスの数。 | デフォルト値なし | ||
最大実行時間 (秒) | 選択可能 | コンポーネントが実行できる最大時間。 この時間を超えると、ジョブは終了します。 | デフォルト値なし | ||

