阿里云百炼上集成的Qwen、Wan系列模型均为自主训练,使用多样化来源的训练数据,包括:互联网上公开可获取的信息、第三方合作商提供的非公开数据、数据标注服务商及付费承包商提供的数据、我们的自有模型生成的合成数据。我们的模型使用包含数万亿token的文本、图像、视频和音频的数据集进行训练。在模型开发过程中,首次使用数据集的日期早于2022年1月。
Qwen 与 Wan 系列模型的训练数据经过系统性设计与高质量配比,全面支撑推理服务在通用语言理解、高阶推理、多模态交互、长上下文处理、视觉生成等核心能力维度上的预期目标。训练数据不仅为模型提供了世界知识,更通过任务对齐、模态融合与能力强化,确保 Qwen 与 Wan 系列模型在推理服务中能够高效、安全、准确地响应多样化、专业化、多模态的用户需求。我们的数据集可能包含受版权、商标或专利保护的数据,也可能包含公共领域的数据。此外,对于合成数据的使用,我们期望解决数据稀缺、支持复杂任务、提升模型泛化能力、增强模型感知能力,确保模型安全性等目的。
我们实施严格清洗和过滤机制,以维护数据质量并降低潜在风险。我们在数据预处理阶段采取过滤措施以减少训练数据中包含的个人信息;除非客户另行同意,否则我们不会使用百炼客户的业务数据来开发或改进我们的模型。我们建立了严格的数据治理流程,通过充分的数据清洗、处理与结构性优化,以确保数据的质量、安全性和多样性,包括:
预训练阶段:我们对原始训练数据执行严格的清洗与过滤流程,包括自动化内容安全筛查与人工复核机制,系统性剔除有害或敏感内容。该处理旨在确保模型输出过程中能够尽力识别和减少偏见对模型的影响,提升模型公平公正性。
后训练阶段:
语言类大模型数据增强与优化:在数据质量层面,构建了覆盖教育价值、领域分布、语言类型、推理复杂度及安全等级等维度的精细化标注体系,并基于此开展高质量数据筛选。同时,主动注入由自有专业模型(如 Qwen-Math、Qwen-Coder 等)生成的合成数据。此类处理显著提升了模型在多语言理解、复杂推理、长上下文建模等核心能力上的表现,并增强了训练数据的可控性;
视觉生成类大模型专项处理:针对多模态数据,开展了包括高精度 OCR 与文档结构化解析、2D/3D 空间语义标注、视频帧与文本的时间戳显式对齐等专项预处理,并系统构建了大规模多模态合成数据集。这些操作旨在强化视觉-语言跨模态对齐能力,支持对复杂文档、长视频等高维信息的理解,并为视觉生成、智能体交互等高阶应用场景提供高质量训练基础;
安全对齐:构造专门的安全数据对模型进行安全对齐,增强模型内生的安全能力。
所有处理的核心目的,是提升数据质量与任务对齐度,保障模型安全、合规,并精准实现推理服务在通用、专业与多模态场景下的预期能力目标。