百炼 API Explorer — 阿里云模型参数速查

Qwen3-Max

千问旗舰模型，能力最强，适合复杂多步骤推理、高质量写作和专业分析任务。

上下文 262,144输出 32,768 / 65,536输入 2.4输出 9.6

Function Calling思考模式搜索增强JSON输出上下文缓存

Qwen3.6-Plus

效果/速度/成本均衡的推荐模型，支持文本+图片+视频输入，适用于大多数通用场景。

上下文 1,000,000输出 65,536输入 0.8输出 2.0 / 8.0(思考)

Function Calling思考模式多模态(图+视频)搜索增强1M 上下文上下文缓存

Qwen3.6-Flash

速度最快、成本极低的模型，适合简单任务、大批量处理和对延迟敏感的场景。

上下文 1,000,000输出 65,536 / 131,072输入 0.15输出 1.5

Function Calling思考模式多模态(图+视频)搜索增强1M 上下文极低成本

Qwen-Turbo

经济型模型，性价比高。建议新项目优先使用 Qwen3.6-Flash 替代。

上下文 1,000,000输出 16,384输入 0.3输出 0.6 / 3.0(思考)

Function Calling思考模式搜索增强

Qwen-Long

支持 10M token 超长上下文，可通过 file-id 上传文档（TXT/DOCX/PDF/EPUB/MD），适合超长文档分析和多文件理解。

上下文 10,000,000输出 32,768输入 0.5输出 2.0

10M 超长上下文文件上传(file-id)多文件分析

QwQ-Plus

专为深度推理设计的模型，在数学、代码和逻辑推理方面表现出色。默认思考模式，temperature=0.6。

上下文 131,072输出 8,192输入 1.6输出 4.0

深度推理数学推理代码推理逻辑推理

Qwen3-Coder-Plus

代码专用优化模型，适合代码生成、理解、补全和调试任务。

上下文 1,000,000输出 65,536输入 3.5输出 7.0

代码生成代码理解代码补全代码调试Function Calling

Qwen-Math-Plus

数学专用模型，擅长数学推理和解题。上下文较短（4K），适合单轮数学问答。

上下文 4,096输出 3,072输入 4.0输出 12.0

数学推理数学解题公式理解

DeepSeek-V3.2

DeepSeek 最新一代旗舰模型，综合能力强，性价比高。

上下文 128,000输出 65,536输入 2.0输出 3.0

Function Calling思考模式JSON输出高性价比

DeepSeek-R1

DeepSeek 推理模型，擅长复杂推理任务。注意：不支持设置 temperature/top_p/repetition_penalty。

上下文 128,000输出 16,384输入 4.0输出 16.0

深度推理数学代码逻辑

Kimi-K2.5

月之暗面旗舰模型，多轮 Function Calling 时需保留 reasoning_content 字段。

上下文 128,000输出 65,536输入 4.0输出 21.0

Function Calling思考模式长上下文

GLM-5

智谱 AI 旗舰模型，支持超长输出（131K tokens），上下文窗口 200K。

上下文 204,800输出 131,072输入 4.0 - 6.0输出 18.0 - 22.0

Function Calling超长输出(131K)200K上下文

MiniMax-M2.5

MiniMax 旗舰模型，综合能力均衡。

上下文 128,000输出 65,536输入 2.1输出 8.4

Function Calling思考模式

Qwen3-VL-Plus

高性能视觉语言模型，支持图片和视频输入，适合通用视觉理解任务。

上下文 131,072输出 32,768输入 1.5(文) / 1.5(图)输出 4.5

图片理解视频理解OCRFunction Calling

Qwen-VL-Max

千问视觉旗舰模型，视觉理解能力最强。

上下文 131,072输出 32,768输入 3.0(文) / 3.0(图)输出 8.5

图片理解视频理解OCRFunction Calling最强视觉能力

QVQ-Max

视觉推理模型，具备深度思考能力。注意：不建议修改默认 temperature/top_p/seed 参数。

上下文 131,072输出 32,768输入 8.0输出 32.0

视觉推理深度思考图片+视频

Qwen-VL-OCR

专为文字提取优化的模型，适合文档数字化、表格识别和手写体识别。

上下文 32,768输出 8,192输入 0.3输出 0.5

OCR 专用文字提取表格识别手写体

Qwen3.5-Omni-Plus

全模态模型，支持文本/图片/音频/视频输入，以及文本和语音输出。必须使用流式输出 stream=True。

上下文 262,144输出 65,536输入 2.5(文) / 2.5(图/视频) / 2.5(音频)输出 7.0(文) / 7.0(音频)

全模态输入文本+语音输出实时语音交互Function Calling

Qwen3.5-Omni-Flash

全模态轻量版本，成本更低。同样必须使用流式输出。

上下文 131,072输出 32,768输入 0.6(文) / 0.6(图/视频/音频)输出 1.6(文) / 6.0(音频)

全模态输入文本+语音输出低成本

Qwen-Image-2.0-Pro

高质量文本到图像生成模型，支持多种分辨率，最高 2688x1536。

输出最高 2688x1536输出 0.5 元/张

文生图高分辨率负面提示词自动扩写

Wan2.6 文生图

万相最新文生图模型，使用 messages 协议调用（而非传统 prompt 方式）。

输出最高 1440x1440输出 0.20 元/张

文生图messages 协议高质量

Wanx2.0 文生图-Turbo

极低成本的文生图模型，0.04 元/张，适合大批量图片生成。

输出多种预设尺寸输出 0.04 元/张

文生图极低成本快速生成

CosyVoice-v3.5-Plus

高质量语音合成模型，支持多音色、多语言和细粒度的语音控制。

输出语音输出输入 0.15 元/千字

语音合成TTS多音色语速/音调/音量控制多语言

Paraformer-V2

推荐使用的语音识别模型。支持批量处理(100+文件)、单文件最大 2GB/12小时、说话人分离。免费额度 10 小时。

输出文本输出输入 0.6 元/小时

语音识别ASR批量处理说话人分离长音频

SenseVoice-V1

已停用

支持 50+ 语言的语音识别模型，成本更低。注意：计划停用，建议新项目使用 Paraformer-V2。

输出文本输出输入 0.3 元/小时

语音识别ASR50+语言低成本

Text-Embedding-V4 (Qwen3)

最新的向量化模型（Qwen3-Embedding），支持 100+ 语言，可自定义向量维度和输出稀疏向量。

上下文 8,192输出最高 2048 维向量输入 0.0005 元/千token

100+语言自定义维度稀疏向量指令优化

Text-Embedding-V3

支持 50+ 语言的向量化模型，可自定义维度和输出稀疏向量。

上下文 8,192输出最高 1024 维向量输入 0.0005 元/千token

50+语言自定义维度稀疏向量

Text-Embedding-V1

早期向量化模型，固定 1536 维度输出。建议新项目使用 v4。

上下文 2,048输出 1536 维向量(固定)输入 0.0007 元/千token

中英双语固定维度

Qwen3-VL-Embedding

多模态向量化模型，支持文本、图片和视频输入。适合跨模态检索场景。

上下文 32,768输出 2560 维向量输入 0.0005(文) / 0.0018(图视频)

多模态向量化文本+图片+视频2560维

Qwen3-Rerank

文本重排序模型，可对检索结果按相关性重新排序。单次最多处理 500 个文档。

上下文 32,768输入 0.0005 元/千token

文本重排序500文档/次自定义指令

Qwen3-VL-Rerank

多模态重排序模型，支持文本、图片和视频内容的重排序。适合多模态 RAG 场景。

上下文 120,000输入 0.001 元/千token

多模态重排序文本+图片+视频100文档/次

GTE-Rerank-V2

高吞吐重排序模型，单次最多处理 30,000 个文档，适合大规模检索场景。

上下文 32,768输入 0.0008 元/千token

高吞吐30000文档/次

Wan2.7 文生视频

最新的文生视频模型，支持 720P/1080P 分辨率，2-15 秒时长，多镜头叙事和音频同步。仅支持异步调用。

输出 720P/1080P, 2-15秒输出按时长计费

文生视频720P/1080P多镜头叙事音频同步

Wan2.7 图生视频

图像到视频生成模型，支持首帧/首尾帧输入、视频续写和音频驱动。

输出 720P/1080P, 2-10秒输出按时长计费

图生视频首尾帧视频续写驱动音频

阿里云百炼 模型 API 速查