百炼 API Explorer34 个模型

阿里云百炼 模型 API 速查

覆盖通义千问、DeepSeek、GLM、Kimi、MiniMax 等全部模型的参数说明、定价信息和常见问题解决方案。点击任意模型卡片展开查看完整 API 参数。

Qwen3-Max

千问旗舰模型,能力最强,适合复杂多步骤推理、高质量写作和专业分析任务。

上下文 262,144输出 32,768 / 65,536输入 2.4输出 9.6
Function Calling思考模式搜索增强JSON输出上下文缓存

Qwen3.6-Plus

效果/速度/成本均衡的推荐模型,支持文本+图片+视频输入,适用于大多数通用场景。

上下文 1,000,000输出 65,536输入 0.8输出 2.0 / 8.0(思考)
Function Calling思考模式多模态(图+视频)搜索增强1M 上下文上下文缓存

Qwen3.6-Flash

速度最快、成本极低的模型,适合简单任务、大批量处理和对延迟敏感的场景。

上下文 1,000,000输出 65,536 / 131,072输入 0.15输出 1.5
Function Calling思考模式多模态(图+视频)搜索增强1M 上下文极低成本

Qwen-Turbo

经济型模型,性价比高。建议新项目优先使用 Qwen3.6-Flash 替代。

上下文 1,000,000输出 16,384输入 0.3输出 0.6 / 3.0(思考)
Function Calling思考模式搜索增强

Qwen-Long

支持 10M token 超长上下文,可通过 file-id 上传文档(TXT/DOCX/PDF/EPUB/MD),适合超长文档分析和多文件理解。

上下文 10,000,000输出 32,768输入 0.5输出 2.0
10M 超长上下文文件上传(file-id)多文件分析

QwQ-Plus

专为深度推理设计的模型,在数学、代码和逻辑推理方面表现出色。默认思考模式,temperature=0.6。

上下文 131,072输出 8,192输入 1.6输出 4.0
深度推理数学推理代码推理逻辑推理

Qwen3-Coder-Plus

代码专用优化模型,适合代码生成、理解、补全和调试任务。

上下文 1,000,000输出 65,536输入 3.5输出 7.0
代码生成代码理解代码补全代码调试Function Calling

Qwen-Math-Plus

数学专用模型,擅长数学推理和解题。上下文较短(4K),适合单轮数学问答。

上下文 4,096输出 3,072输入 4.0输出 12.0
数学推理数学解题公式理解

DeepSeek-V3.2

DeepSeek 最新一代旗舰模型,综合能力强,性价比高。

上下文 128,000输出 65,536输入 2.0输出 3.0
Function Calling思考模式JSON输出高性价比

DeepSeek-R1

DeepSeek 推理模型,擅长复杂推理任务。注意:不支持设置 temperature/top_p/repetition_penalty。

上下文 128,000输出 16,384输入 4.0输出 16.0
深度推理数学代码逻辑

Kimi-K2.5

月之暗面旗舰模型,多轮 Function Calling 时需保留 reasoning_content 字段。

上下文 128,000输出 65,536输入 4.0输出 21.0
Function Calling思考模式长上下文

GLM-5

智谱 AI 旗舰模型,支持超长输出(131K tokens),上下文窗口 200K。

上下文 204,800输出 131,072输入 4.0 - 6.0输出 18.0 - 22.0
Function Calling超长输出(131K)200K上下文

MiniMax-M2.5

MiniMax 旗舰模型,综合能力均衡。

上下文 128,000输出 65,536输入 2.1输出 8.4
Function Calling思考模式

Qwen3-VL-Plus

高性能视觉语言模型,支持图片和视频输入,适合通用视觉理解任务。

上下文 131,072输出 32,768输入 1.5(文) / 1.5(图)输出 4.5
图片理解视频理解OCRFunction Calling

Qwen-VL-Max

千问视觉旗舰模型,视觉理解能力最强。

上下文 131,072输出 32,768输入 3.0(文) / 3.0(图)输出 8.5
图片理解视频理解OCRFunction Calling最强视觉能力

QVQ-Max

视觉推理模型,具备深度思考能力。注意:不建议修改默认 temperature/top_p/seed 参数。

上下文 131,072输出 32,768输入 8.0输出 32.0
视觉推理深度思考图片+视频

Qwen-VL-OCR

专为文字提取优化的模型,适合文档数字化、表格识别和手写体识别。

上下文 32,768输出 8,192输入 0.3输出 0.5
OCR 专用文字提取表格识别手写体

Qwen3.5-Omni-Plus

全模态模型,支持文本/图片/音频/视频输入,以及文本和语音输出。必须使用流式输出 stream=True。

上下文 262,144输出 65,536输入 2.5(文) / 2.5(图/视频) / 2.5(音频)输出 7.0(文) / 7.0(音频)
全模态输入文本+语音输出实时语音交互Function Calling

Qwen3.5-Omni-Flash

全模态轻量版本,成本更低。同样必须使用流式输出。

上下文 131,072输出 32,768输入 0.6(文) / 0.6(图/视频/音频)输出 1.6(文) / 6.0(音频)
全模态输入文本+语音输出低成本

Qwen-Image-2.0-Pro

高质量文本到图像生成模型,支持多种分辨率,最高 2688x1536。

输出 最高 2688x1536输出 0.5 元/张
文生图高分辨率负面提示词自动扩写

Wan2.6 文生图

万相最新文生图模型,使用 messages 协议调用(而非传统 prompt 方式)。

输出 最高 1440x1440输出 0.20 元/张
文生图messages 协议高质量

Wanx2.0 文生图-Turbo

极低成本的文生图模型,0.04 元/张,适合大批量图片生成。

输出 多种预设尺寸输出 0.04 元/张
文生图极低成本快速生成

CosyVoice-v3.5-Plus

高质量语音合成模型,支持多音色、多语言和细粒度的语音控制。

输出 语音输出输入 0.15 元/千字
语音合成TTS多音色语速/音调/音量控制多语言

Paraformer-V2

推荐使用的语音识别模型。支持批量处理(100+文件)、单文件最大 2GB/12小时、说话人分离。免费额度 10 小时。

输出 文本输出输入 0.6 元/小时
语音识别ASR批量处理说话人分离长音频

SenseVoice-V1

已停用

支持 50+ 语言的语音识别模型,成本更低。注意:计划停用,建议新项目使用 Paraformer-V2。

输出 文本输出输入 0.3 元/小时
语音识别ASR50+语言低成本

Text-Embedding-V4 (Qwen3)

最新的向量化模型(Qwen3-Embedding),支持 100+ 语言,可自定义向量维度和输出稀疏向量。

上下文 8,192输出 最高 2048 维向量输入 0.0005 元/千token
100+语言自定义维度稀疏向量指令优化

Text-Embedding-V3

支持 50+ 语言的向量化模型,可自定义维度和输出稀疏向量。

上下文 8,192输出 最高 1024 维向量输入 0.0005 元/千token
50+语言自定义维度稀疏向量

Text-Embedding-V1

早期向量化模型,固定 1536 维度输出。建议新项目使用 v4。

上下文 2,048输出 1536 维向量(固定)输入 0.0007 元/千token
中英双语固定维度

Qwen3-VL-Embedding

多模态向量化模型,支持文本、图片和视频输入。适合跨模态检索场景。

上下文 32,768输出 2560 维向量输入 0.0005(文) / 0.0018(图视频)
多模态向量化文本+图片+视频2560维

Qwen3-Rerank

文本重排序模型,可对检索结果按相关性重新排序。单次最多处理 500 个文档。

上下文 32,768输入 0.0005 元/千token
文本重排序500文档/次自定义指令

Qwen3-VL-Rerank

多模态重排序模型,支持文本、图片和视频内容的重排序。适合多模态 RAG 场景。

上下文 120,000输入 0.001 元/千token
多模态重排序文本+图片+视频100文档/次

GTE-Rerank-V2

高吞吐重排序模型,单次最多处理 30,000 个文档,适合大规模检索场景。

上下文 32,768输入 0.0008 元/千token
高吞吐30000文档/次

Wan2.7 文生视频

最新的文生视频模型,支持 720P/1080P 分辨率,2-15 秒时长,多镜头叙事和音频同步。仅支持异步调用。

输出 720P/1080P, 2-15秒输出 按时长计费
文生视频720P/1080P多镜头叙事音频同步

Wan2.7 图生视频

图像到视频生成模型,支持首帧/首尾帧输入、视频续写和音频驱动。

输出 720P/1080P, 2-10秒输出 按时长计费
图生视频首尾帧视频续写驱动音频