本文档汇总了在使用阿里云百炼大模型服务平台时遇到的常见问题及其解答。
计费相关
API/SDK相关
产品相关
-
如何开通阿里云百炼服务?
阿里云百炼服务需要分地域开通。使用阿里云主账号前往阿里云百炼控制台,请在控制台右上角切换目标地域,阅读并同意协议后,将自动开通阿里云百炼,如果未弹出服务协议,则表示您已开通该地域的服务。
-
开通阿里云百炼服务后如何关闭?
目前,阿里云百炼服务开通后暂不支持关闭。如果您通过API来调用模型/应用,您只需要在控制台的API-Key(新加坡)或API-Key(美国)或API-Key(北京)页面中删除已创建的 API-Key 即可避免后续的调用。
-
如何体验大模型服务?
可前往模型体验中心(新加坡)或模型体验中心(美国)或 模型体验中心(北京)页面进行体验。
-
阿里云百炼和千问的区别是什么?
阿里云百炼是一个大模型服务平台,提供包括千问系列在内的多种大模型。
-
如何实现业务数据隔离,使不同用户的数据之间不关联?
可以通过主账号给不同子账号授予不同的业务空间权限,不同业务空间的数据互不影响,存在隔离。详细内容请前往业务空间权限管理查看。
-
阿里云百炼是否保存模型调用时产生的数据?
阿里云严格保护数据隐私,绝不会将您的数据用于模型训练。同时,您在构建应用或训练大模型过程中传输的数据都会经过AES-256(Advanced Encryption Standard,高级加密标准)加密,确保数据安全。
关于阿里云百炼对您数据的处理方式,详情请参见Alibaba Cloud International Website Product Terms of Service关于Alibaba Cloud Model Studio的条款。
-
在百炼控制台的模型体验页面,历史对话记录会保留多久?保存数量有限制吗?
百炼控制台最多展示 100 条历史对话记录,不设时间限制。如果您手动删除了部分记录,系统会自动展示更早的历史记录。未登录状态下的体验对话以及推理报错时的对话记录不会被保存。
-
大模型服务平台百炼生成的文本是否支持添加隐式标识?
不支持。
-
百炼是否有手机端应用?
百炼目前没有提供官方的独立手机应用,主要通过Web控制台访问。
模型中心
-
所谓大模型参数是怎么存储的?
您可以从魔搭社区下载开源模型,其结构通常在JSON文件中定义。通常需要使用开源的Python库来解析这些文件,其中包含了向量信息,这有助于理解其存储过程。
-
千问系列模型支持多少种语言?
14种,分别是中文、英文、阿拉伯语、西班牙语、法语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、印度尼西亚语。
-
当前模型可以对接结构化数据吗?比如MySQL和hive等。
当前不支持。但已经在开发中,优先对接RDS服务。
-
请问Qwen3、Qwen-Max等模型的文字生成速度对所有用户都是固定的吗,有没有调速的途径?
生成速度不是固定的,它会受到当前服务的整体负载和您的请求并发情况等因素的影响。
-
模型限流触发后,一般需要等多长时间再次尝试呢?
等待时间取决于您的具体限流值(RPS/RPM)。例如,如果您的限流是120 RPM(每分钟查询数),即每秒2次请求。如果您在0.2秒内连续提交了2次请求,第3次请求就会被限流,您需要等待大约0.8秒后才能再次成功提交。
模型幻觉问题
-
什么是模型幻觉?
模型幻觉指大语言模型(LLM)在生成内容时,无中生有、虚构事实、扭曲信息或产生逻辑矛盾的现象。其输出看似合理、流畅,但与输入、真实世界知识或上下文逻辑严重不符。需要注意的是,幻觉不同于事实性错误(如训练数据过时导致的错误)、主观观点表达或创造性虚构(如明确要求写小说时),其核心在于"无依据的自信断言"。
-
如何降低模型幻觉?
您可以通过以下方式降低模型幻觉的发生:
-
选择更强的模型:通常选择更大型、更高级的模型可以降低幻觉发生。例如在千问系列中,Max级别模型的效果优于Plus级别,Plus级别优于Turbo级别。
-
提示词工程:修改prompt是操作简单且有效的降低模型幻觉的方式。例如在RAG场景中添加"请仅基于提供的文档回答,如果信息不足请说'我不知道'";添加"请引用具体数据或报告支持你的结论";通过prompt引导将任务分为多步;在prompt中设定严谨的角色等。
-
RAG(检索增强生成):利用RAG的能力,让模型的回复有所参考,并严格限制模型回答在检索到的知识范围内,可以显著降低幻觉。构建RAG系统时,需要确保检索系统高质量、清晰标注信息来源、优雅拒绝检索不到的情况。
-
插件/MCP:利用插件或MCP的能力降低模型幻觉。例如利用大模型去总结结构化数据库中的数据时,可以通过插件/MCP调用数据库客户端完成数据计算,再将计算结果返回给模型做总结,避免模型直接处理数值计算时产生幻觉。
-
模型参数调优:降低
temperature、top_k、top_p等随机性参数,使输出更保守,避免离奇生成,但可能牺牲创造力。降低max_tokens在某些场景下可以防止模型回复关键信息后继续捏造内容。 -
后处理验证:模型推理完成之后,通过后续步骤验证回复内容的正确性。通常是通过AI的能力再去校验一次回答过程是否有幻觉。该方法会增加成本并降低模型请求处理速度。
-