Platform for AI (PAI) のLLM-Clean Special Content (MaxCompute) コンポーネントは、ナビゲーション情報、テキストの作成者またはソース情報、URL、印刷不可能な文字、特殊なHTML文字などの特殊なコンテンツをテキストから削除するために使用されます。 大規模言語モデル (LLM) のテキスト前処理中にコンポーネントを使用できます。
制限事項
LLM-Clean Special Content (MaxCompute) コンポーネントは、MaxComputeリソースのみをサポートします。
アルゴリズム
LLM-Clean Special Content (MaxCompute) コンポーネントは、テキストに対して次の操作を実行します。
改行を使用してテキストを複数の行に分割します。
ナビゲーション情報を削除します。
キーワード:
'ホームページ>'、'ホームページ»'、'ホームページ /'、'ホームページ'正規表現:
'Current location:.*[>]{1,}'および'Location:.*[>]{1,}'このコンポーネントは、前のキーワードを含む、または前の正規表現と一致するテキスト行をテキストから削除します。
著者情報を削除します。
このコンポーネントは、次のキーワードの1つと、少なくとも1つの特殊文字を含むテキスト行をテキストから削除します。 特殊文字には
が含まれます。 ? ! ; : . ? ! ; , , !.キーワード:
'Newspaper reporter、'Source:'、'Edit:'、'Login | Register'、'Address of this topic:'、'Date of publication:'、'Addition time:'、'Share:'、'"Scan"'、'Related links: ''''''''''''''''''''、'、'location''''''| お問い合わせ、'Homepage'、'Current location:'、'Published at '、'Location: '。
ソース情報を削除します。
正規表現:
r'(\d{4}[-/年]\d{1,2}[-/月]\d{1,2}[日]{0,}\ s\d{1,2 }:\ d{1,2 }:\ d{1,2})'とr'\d{4}[-/]\d{1,2}[-/]\d{1,2}.* [ソース: | 編集:]'.このコンポーネントは、最初の5つのテキスト行でのみ前の正規表現と一致し、一致したテキスト行を最初の5つのテキスト行から削除します。
説明ナビゲーション情報および著者情報がテキストから除去される場合、最初の5つのテキスト行は、元のテキストに基づくのではなく、ナビゲーション情報および著者情報が除去された後のテキストに基づいてカウントされる。
URLを削除します。
このコンポーネントは、テキストから正規表現
r'(https?| http)?:\/\/[\w\.\\\\\\\\\\\\\\\\\\\\\\] + 'に一致する文字を削除します。印刷できない文字を削除します。
このコンポーネントは、正規表現に一致する文字
'[\001\002\003\004\005 \007\x08 \x0b \x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+'をテキストから削除します。HTML文字を削除し、HTMLテキストを解析します。
このコンポーネントは、テキスト内の
'<li>'を'\n *'に置き換え、テキスト内の'<ol>'を'\n *'に置き換え、'</li>'と'</ol>'をテキストから削除します。 次に、コンポーネントはHTMLテキストを解析します。
次の図は、テキストからURLを削除する例を示しています。
処理前

処理後

コンポーネントの設定
Platform for AI (PAI) コンソールのMachine Learning Designerモジュールでコンポーネントのパラメーターを設定できます。 下表に、各パラメーターを説明します。
タブ | パラメーター | 必須 | 説明 | デフォルト値 |
フィールド設定 | ターゲット列の選択 | 可 | 処理する列。The columns that you want to process. 複数の列を選択できます。 | デフォルト値なし |
出力テーブルのライフサイクル | 不可 | 値は正の整数です。 単位:日 デフォルト値: 28。 テーブルのライフサイクルが経過すると、コンポーネントによって生成された一時テーブルがリサイクルされます。 | 28 | |
チューニング | マップタスクのインスタンスごとのCPU数 | 不可 | マップタスクの各インスタンスのCPU数。 有効な値: [50,800] 。 | 100 |
マップタスクのインスタンスあたりのメモリサイズ | 不可 | マップタスクの各インスタンスのメモリサイズ。 単位:MB。 有効な値: [256,12288] 。 | 1024 | |
マップの入力データの最大サイズ | 不可 | マップタスクの各インスタンスが処理できるデータの最大量。 このパラメーターを使用して、マップの入力を管理できます。 単位:MB。 有効な値: [1,Integer.MAX_VALUE] 。 | 256 |
関連ドキュメント
Machine Learning Designerの詳細については、「Machine Learning Designerの概要」をご参照ください。