すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:LLM-クリーンスペシャルコンテンツ (DLC)

最終更新日:Dec 03, 2024

Platform for AI (PAI) のLLM-Clean Special Content (DLC) コンポーネントは、テキストからURLを削除し、HTML形式の文字を削除し、HTMLテキストを解析するために使用されます。 入力Object Storage Service (OSS) データファイルは、JSONライン形式であり、次の要件を満たす必要があります。ファイルの各行は有効なJSONオブジェクトであり、ファイルは複数行のJSONオブジェクトで構成されますが、ファイルは有効なJSONオブジェクトではありません。 詳細については、「」をご参照ください。

サポートされるコンピューティングリソース

ディープラーニングコンテナ (DLC)

アルゴリズムの説明

LLM-Clean Special Content (DLC) コンポーネントは、テキストに対して次の操作を実行します。

  • URLの削除

    r'(https?| http)?:\/\/[\w\.\\?\=\&\%\-\_]+ 'に一致する文字をテキストから削除します。

  • HTML形式の文字を削除し、HTMLテキストを解析する

    テキストに対して次の操作を実行します。'<li>''\n *' に置き換え、'<ol>''\n *' に置き換え、'</li>''</ol>' の文字を削除し、HTMLテキストを解析して結果を返します。

テキストからURLを削除する例:

処理前

image

処理後

image

コンポーネントの設定

Machine Learning Designerのパイプラインページで、LLM-Clean Special Content (DLC) コンポーネントのパラメーターを設定します。

タブ

パラメーター

必須

説明

デフォルト値

フィールドの設定

Target Processフィールド

必須

処理するフィールドの名前。

非該当

URLリンクを削除するかどうか

選択可能

テキストからURLを削除するかどうかを指定します。

選択済み

html形式の文字を削除してhtmlテキストを解析するかどうか

選択可能

HTML形式の文字を削除してHTMLテキストを解析するかどうかを指定します。

未選択

OutputDataを保存するためのOSSディレクトリ

選択可能

生成されたデータが保存されるOSSディレクトリ。 このパラメーターを指定しない場合、ワークスペースのデフォルトパスが使用されます。

非該当

チューニング

プロセス数

選択可能

プロセスの数。

8

リソースグループの選択

パブリックリソースグループ

選択可能

使用するインスタンスタイプ (CPUまたはGPU) 、インスタンス数、および仮想プライベートクラウド (VPC) 。

非該当

専用リソースグループ

選択可能

使用するvCPU、メモリ、共有メモリの数、GPUの数、およびインスタンスの数。

非該当

最大実行時間

選択可能

コンポーネントを実行できる最大期間。 この時間を超えると、ジョブは終了します。

非該当