すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:LLM-クリーン著作権情報 (DLC)

最終更新日:Dec 03, 2024

Platform for AI (PAI) のLLMクリーン著作権情報 (DLC) コンポーネントは、コードテキストから著作権コメントヘッダーを削除するなど、テキストから著作権情報を削除するために使用されます。 入力Object Storage Service (OSS) データファイルは、JSONライン形式であり、次の要件を満たす必要があります。ファイルの各行は有効なJSONオブジェクトであり、ファイルは複数行のJSONオブジェクトで構成されますが、ファイルは有効なJSONオブジェクトではありません。 詳細については、「」をご参照ください。

サポートされるコンピューティングリソース

ディープラーニングコンテナ (DLC)

アルゴリズムの説明

このアルゴリズムは、テキストから著作権情報を削除するために次の操作を実行します。

  1. テキストに正規表現に一致する文字列が含まれているかどうかを確認します。'/\*[^ *]* \* +(?:[^/*][^ *]* \* +)*/'

    • 文字列が正規表現と一致する場合、アルゴリズムは文字列にcopyrightフィールドが含まれているかどうかをチェックします。 文字列にフィールドが含まれている場合、アルゴリズムは文字列を削除して結果を返します。 文字列にフィールドが含まれていない場合、アルゴリズムは直接結果を返します。

    • 正規表現に一致する文字列がない場合、アルゴリズムは直接ステップ2を実行します。

  2. 改行に基づいてテキストを分割します。 このアルゴリズムは、テキストを行ごとにトラバースして、行が次のコメント記号 //#-- のいずれかで始まるかどうかを確認します。 この条件を満たす行が見つかった場合、アルゴリズムはコメントが終了するまでテキストをトラバースし続けます。 テキスト内の連続したコメント行を削除します。

アルゴリズムはテキストのヘッダーのみをチェックします。 例:

処理前

image.png

処理後

image.png

コンポーネントの設定

Machine Learning Designerのパイプラインページで、LLM-Copyright Information Removal (DLC) コンポーネントのパラメーターを設定します。

タブ

パラメーター

必須

説明

デフォルト値

フィールドの設定

Target Processフィールド

必須

処理するフィールドの名前。

非該当

OutputDataを保存するためのOSSディレクトリ

選択可能

生成されたデータが保存されるOSSディレクトリ。 このパラメーターを指定しない場合、ワークスペースのデフォルトパスが使用されます。

非該当

チューニング

プロセス数

選択可能

プロセスの数。

8

リソースグループの選択

パブリックリソースグループ

選択可能

使用するインスタンスタイプ (CPUまたはGPU) 、インスタンス数、および仮想プライベートクラウド (VPC) 。

非該当

専用リソースグループ

選択可能

使用するvCPU、メモリ、共有メモリの数、GPUの数、およびインスタンスの数。

非該当

最大実行時間

選択可能

コンポーネントを実行できる最大期間。 この時間を超えると、ジョブは終了します。

非該当