AI 中心是 EMR Serverless Spark 专为大数据与 AI 融合场景打造的一站式智能引擎,通过 AI Function 与模型服务两大核心能力,让您无需编写复杂代码,仅凭熟悉的 SQL 即可在海量数据处理流程中无缝集成大模型能力。
用量限制
当前 AI 中心(Beta)为公测阶段,每个阿里云主账号与 RAM 子账号共享 100 万 Tokens 免费使用额度。当累计调用消耗的 Token 总量超过该额度后,AI Function 将返回调用失败。
AI 中心预计于 2026 年 4 月 8 日开启商业化收费,详情请参见EMR Serverless Spark AI中心商业化公告。
核心优势
AI 能力 SQL 化,零代码开发
内置
ai_query及情感分析、向量化等专用函数,无需编写 Python/Java 代码或管理 SDK。开发者仅需通过标准 SQL 即可直接调用大模型,将复杂 AI 推理无缝嵌入现有 ETL 流程,极大降低技术门槛与开发成本。统一服务注册,屏蔽异构差异
AI Function 默认直接调用阿里云最新 Qwen3.5-Plus 大模型,开箱即用,享受业界领先的推理能力。同时支持灵活的业务扩展:用户可通过模型服务功能,一键注册 阿里云百炼、PAI-EAS 或自建私有模型。系统通过统一接入层屏蔽底层异构差异(如接口协议、鉴权逻辑),实现“一次注册、SQL 通用”。
数据不出湖,全链路智能闭环
无需搬运海量数据即可原地执行大规模向量化生成与批量模型推理,实现"数据清洗—AI 特征工程—结果回写"的一站式闭环,在确保数据不出域安全合规的同时,彻底消除异构系统间的数据流转成本,大幅简化多模态数据处理架构。
应用场景
内容理解
舆情与反馈分析:自动识别评论情感(正/负),对海量用户反馈进行分级处理。
工单智能路由:基于文本内容自动分类(投诉/咨询/建议),精准分发至对应部门。
跨境业务支持:端到端多语言翻译,快速生成多语种报表或适配海外市场文案。
通用摘要生成:利用 Qwen 大模型批量生成长文档摘要,提炼关键信息。
数据结构化提取
关键信息抽取:从合同、日志或评论中精准提取预定义字段(如甲方名称、金额、日期),直接输出 JSON 格式入库。
文案自动润色:在数据导出或报告生成前,自动纠正语法错误与用词不当,确保对外输出专业性。
非结构化转结构化:将自然语言描述的业务规则转换为标准数据记录,便于后续 SQL 分析。
语义检索与 RAG
RAG 向量库构建:将海量文档切片转化为语义向量(Embedding),为构建企业知识库提供底层数据支撑。
智能问答匹配:计算用户提问与知识库问题的语义相似度,实现高准确率的自动回复与召回。
数据智能去重:识别内容相同但表述不同的冗余数据(如重复的新闻、相似的客服记录),净化数据集。
数据安全与合规
数据脱敏:自动扫描文本数据,识别姓名、身份证号、手机号、银行卡号等个人敏感信息,并进行掩码或替换处理,确保数据安全。
隐私合规审计:批量分析历史数据资产,发现未脱敏的敏感字段。
SQL 开发提效
作业平滑迁移:自动将 HiveQL 语法转换为 Spark SQL 兼容语法,解决 UDF 适配与窗口函数标准化问题。
查询性能调优:AI 自动分析 SQL 逻辑,给出谓词下推、分桶策略及 Join 顺序优化建议,提升执行效率。
代码注释与建议:为复杂 SQL 脚本自动生成注释说明,辅助开发人员快速理解遗留代码逻辑。