LLM-Copyright資訊移除組件說明 - Platform For AI

LLM-Copyright資訊移除組件主要用於大語言模型（LLM）的文本資料預先處理工作，用於刪除文本中的Copyright資訊，多用於去除代碼文本中的頭部Copyright注釋。

支援的計算資源

演算法說明

去除文本中的Copyright資訊或者注釋資訊，分為以下兩個步驟：

首先檢測文本中是否有符合Regex'/\\*[^*]*\\*+(?:[^/*][^*]*\\*+)*/'（注釋字元）的字串。
- 如果匹配到對應字串，則檢測字串中是否包含copyright欄位，如果包含，則刪除整段字串並返回；否則不做刪除，直接返回。
- 如果匹配不到該Regex，則進入步驟2繼續處理。
將文本用分行符號分隔，按行遍曆文本是否以//、#、--注釋符號開頭，一旦匹配到合格某行，繼續統計連續的注釋行，直到注釋符號終止，則遍曆終止。最後刪除文本中的連續注釋片段並返回。

以上步驟均檢測第一次匹配到的注釋片段，即預設檢測文本的頭部，剩餘部分不做處理。樣本如下：

處理前

彈窗當前欄位值中展示了 angular-spinner 0.3.1 的 JavaScript 原始碼，頂部包含 MIT 許可證註解區塊（版本號碼、License: MIT、Copyright (C) 2013, 2014, Uri Shaked and contributors），隨後是 IIFE 函數及 angular.module('angularSpinner', []) 等程式碼。

處理後

(function(window, angular, undefined) {
'use strict';
angular.module('angularSpinner', [])
.factory('usSpinnerService', ['$rootScope', function ($rootScope) {
    var config = {};
    config.spin = function (key) {
        $rootScope.$broadcast('us-spinner:spin', key);
    };
}]);
})(window, window.angular);

配置組件

在Designer工作流程頁面添加LLM-Copyright資訊移除（MaxCompute）組件，並在介面右側配置相關參數：

參數類型	參數	預設值	描述
欄位設定	選擇目標處理列	無	選擇要處理的列，支援選擇多個列。
欄位設定	設定輸出表生命週期	28	正整數，單位為天。預設28天，28天后該組件產生的暫存資料表被回收。
執行調優	每個執行個體的cpu數目	100	設定map task每個instance的CPU數目，取值範圍為[50,800]。
	每個執行個體的memory大小，單位M	1024	設定map task每個instance的memory大小，單位為MB，取值範圍為[256,12288]。
	每個執行個體處理的資料大小，單位M	256	設定map task每個instance的最大處理資料量，使用者可以通過控制該變數，實現對map端輸入的控制。單位為MB，取值範圍為[1,Integer.MAX_VALUE]。