Qwen 和 Wan 模型訓練資料透明度和治理 - 大模型服務平台百鍊

阿里雲百鍊上整合的Qwen、Wan系列模型均為自主訓練，使用多樣化來源的訓練資料，包括：互連網上公開可擷取的資訊、第三方合作商提供的非公開資料、資料標註服務商及付費承包商提供的資料、我們的自有模型產生的合成資料。我們的模型使用包含數萬億token的文本、映像、視頻和音訊資料集進行訓練。在模型開發過程中，首次使用資料集的日期早於2022年1月。

Qwen 與 Wan 系列模型的訓練資料經過系統性設計與高品質配比，全面支撐推理服務在通用語言理解、高階推理、多模態互動、長上下文處理、視覺產生等核心能力維度上的預期目標。訓練資料不僅為模型提供了世界知識，更通過任務對齊、模態融合與能力強化，確保 Qwen 與 Wan 系列模型在推理服務中能夠高效、安全、準確地響應多樣化、專業化、多模態的使用者需求。我們的資料集可能包含受著作權、商標或專利保護的資料，也可能包含公用領域的資料。此外，對於合成資料的使用，我們期望解決資料稀缺、支援複雜任務、提升模型泛化能力、增強模型感知能力，確保模型安全性等目的。

我們實施嚴格清洗和過濾機制，以維護資料品質並降低潛在風險。我們在資料預先處理階段採取過濾措施以減少訓練資料中包含的個人資訊；除非客戶另行同意，否則我們不會使用百鍊客戶的業務資料來開發或改進我們的模型。我們建立了嚴格的資料治理流程，通過充分的資料清洗、處理與結構性最佳化，以確保資料的品質、安全性和多樣性，包括：

預訓練階段：我們對原始訓練資料執行嚴格的清洗與過濾流程，包括自動化Alibaba Content Security Service篩查與人工複核機制，系統性剔除有害或敏感內容。該處理旨在確保模型輸出過程中能夠儘力識別和減少偏見對模型的影響，提升模型公平公正性。
後訓練階段：
1. 語言類大模型資料增強與最佳化：在資料品質層面，構建了覆蓋教育價值、領域分布、語言類型、推理複雜度及安全等級等維度精細化標註體系，並基於此開展高品質資料篩選。同時，主動注入由自有專業模型（如 Qwen-Math、Qwen-Coder 等）產生的合成資料。此類處理顯著提升了模型在多語言理解、複雜推理、長上下文建模等核心能力上的表現，並增強了訓練資料的可控性；
2. 視覺產生類大模型專項處理：針對多模態資料，開展了包括高精度 OCR 與文檔結構化解析、2D/3D 空間語義標註、視訊框架與文本的時間戳記顯式對齊等專項預先處理，並系統構建了大規模多模態合成資料集。這些操作旨在強化視覺-語言跨模態對齊能力，支援對複雜文檔、長視頻等高維資訊的理解，並為視覺產生、智能體互動等高階應用情境提供高品質訓練基礎；
3. 安全對齊：構造專門的安全資料對模型進行安全對齊，增強模型內生的安全能力。

所有處理的核心目的，是提升資料品質與任務對齊度，保障模型安全、合規，並精準實現推理服務在通用、專業與多模態情境下的預期能力目標。