iTAG是PAI的資料標註平台,提供多種標註模板,支援映像、文本、視頻、音頻等資料類型的標註以及多模態標註。
支援的標註任務
iTAG預置了標註模板,可支援以下類型的標註任務:
映像類:映像分類、目標檢測、映像OCR、表格識別、映像語義分割。
文本類:文本分類、具名實體識別、實體關聯識別。
視頻類:視頻分類、視頻打點、視頻OCR。
音頻類:音頻分類、音頻分割、音頻識別。
大模型類:視覺問答、多模態RLHF標註、圖生文、圖文解釋、對話改寫、對話排序、對話分組。
除控制台中直接提供的文本分類、映像分類等標註模板外,其他標註模板使用方法請參見範本管理員。
使用流程
將待標註資料上傳至Object Storage Service,然後通過資料集管理模組,從OSS路徑匯入資料以建立資料集。系統將為資料產生一個
.manifest格式的索引檔案(一種包含資料路徑和元資訊的JSONL檔案),用於後續的標註任務。重要目前iTAG僅支援資料存放區在OSS,為確保正常訪問,OSS Bucket 所在地區需與 PAI 保持一致。
對於已建立的資料集,通過iTAG提供的通用模板或自訂模板建立標註任務並分發。任務分發流程分為標註、檢查及驗收三個環節,其中標註為必選環節,檢查和驗收為可選環節。各環節的主要作用如下:
標註:標註員在標註任務頁面,領取標註任務包,完成標註並提交。
檢查:標註員在檢查任務頁面,領取已經標註完成的任務包,進行檢查、修改或駁回。
驗收:需求方在驗收任務頁面,領取相應任務包後,對其進行最後階段的驗收、修改或駁回。
按照任務流程為任務包進行標註、檢查或驗收,從而獲得標註好的資料。
將標註結果匯出至指定的OSS目錄,用於模型訓練。支援匯出
.manifest格式的標註結果資料。
計費說明
iTAG平台(免費):如果您使用iTAG平台並由您自己的團隊進行純人工標註,iTAG平台本身不收取任何費用。
智能標註服務(免費):平台針對部分大模型標註模板(如圖生文、圖文解釋等)提供的智能標註服務目前免費,後續如果收費將另行通知。
Object Storage Service(收費):iTAG的運行依賴於阿里雲Object Storage Service。因此,使用過程中產生的OSS儲存和資料讀寫流量等費用,將按照OSS計費標準單獨收取。
人工標註外包服務(收費):如果需要委託阿里雲的專業團隊進行資料標註,請提交工單或加入DingTalk群21930006619聯絡PAI團隊擷取該項付費服務。
擷取協助
如果您遇到資料載入出錯、缺少操作許可權、配置OSS跨域訪問規則(CORS)等產品使用問題,請查閱iTAG常見問題。