DeepSeek V4 - OpenAI 兼容接口
- 使用 OpenAI Chat Completions 协议调用 DeepSeek V4 模型
- 支持
deepseek-v4-flash(快速通用)和deepseek-v4-pro(深度推理)两个模型 - 纯文本对话:单轮或多轮上下文对话,支持 1M 超长上下文
- 系统提示词:自定义 AI 的角色和行为
- 思考模式:通过
thinking.type控制深度推理;deepseek-v4-pro思考内容通过reasoning_content返回 - 流式输出:支持 SSE 流式返回
- 工具调用:支持 Function Calling(最多 128 个工具)
- JSON 模式:通过
response_format启用 - 上下文缓存:相同前缀请求自动命中缓存,大幅降低输入成本
授權
##所有接口均需要使用 Bearer Token 进行认证## **获取 API Key**: 访问 [API Key 管理页面](https://starmagic.ai/app/api-keys) 获取您的 API Key **使用时在请求头中添加**: ``` Authorization: Bearer YOUR_API_KEY ```
Authorization: Bearer YOUR_API_KEY請求體
application/json对话模型名称 - `deepseek-v4-flash`:快速通用模型,1M 上下文 - `deepseek-v4-pro`:深度推理模型,擅长数学、编程和复杂逻辑 **提示**:两个模型 **均默认启用 `thinking`**,响应会包含 `reasoning_content`,可通过 `thinking.type="disabled"` 关闭以降低输出 token 成本。两者参数完全一致。
"deepseek-v4-flash"对话消息列表,支持多轮对话 不同角色的消息具有不同的字段结构,请选择对应角色查看
[
null
]思考模式控制(V4 新增) **说明**: - 用于控制深度思考(Chain of Thought)功能 - **两个模型均默认启用**(`type=enabled`) - 启用后,推理过程会通过 `choices[].message.reasoning_content` 返回,并按输出 token 计费 ⚠️ **多轮对话/工具调用注意**:若本轮响应带有 `reasoning_content`,**下一轮请求的 `messages` 历史中对应的 assistant 消息必须原样回传该字段**,否则接口会返回 400 `The reasoning_content in the thinking mode must be passed back to the API`。若不想处理,可整会话显式 `thinking.type="disabled"`。
{
"type": "enabled",
"reasoning_effort": "medium"
}采样温度,控制输出的随机性 **说明**: - 较低值(如 0.2):更确定、更聚焦的输出 - 较高值(如 1.5):更随机、更有创意的输出 - 默认值:1
1核采样(Nucleus Sampling)参数 **说明**: - 控制从累积概率前多少的 token 中采样 - 例如 0.9 表示从累积概率达到 90% 的 token 中选择 - 默认值:1.0(考虑所有 token) **建议**:不要同时调整 temperature 和 top_p
1限制生成内容的最大 token 数量 **说明**: - V4 系列最大可达 **384,000 tokens** - 开启 thinking 时,reasoning_tokens 也计入 max_tokens 上限 - 不设置则由模型自行决定生成长度
4096频率惩罚参数,用于减少重复内容 **说明**: - 正值会根据 token 在已生成文本中出现的频率进行惩罚 - 值越大,越不容易重复已出现的内容 - 默认值:0(不惩罚)
0存在惩罚参数,用于鼓励生成新话题 **说明**: - 正值会根据 token 是否已在文本中出现过进行惩罚 - 值越大,越倾向于讨论新话题 - 默认值:0(不惩罚)
0指定响应格式 **说明**: - 设置为 `{"type": "json_object"}` 可启用 JSON 模式 - JSON 模式下模型会输出合法的 JSON 格式内容 - 建议在 system 或 user 消息中明确要求输出 JSON,以获得最佳效果
{
"type": "text"
}停止序列,模型遇到这些字符串时会停止生成 **说明**: - 可以是单个字符串或字符串数组 - 最多支持 16 个停止序列
是否以流式方式返回响应 - `true`:流式返回,通过 SSE(Server-Sent Events)逐块实时返回内容 - `false`:等待完整响应后一次性返回(默认)
false流式响应选项 仅在 `stream=true` 时有效
{
"include_usage": true
}工具定义列表,用于 Function Calling **说明**: - 最多支持 128 个工具定义 - 每个工具需要定义名称、描述和参数 schema
[
{
"type": "function",
"function": {
"name": "string",
"description": "string",
"parameters": {},
"strict": false
}
}
]控制工具调用行为 **可选值**: - `none`:不调用任何工具 - `auto`:模型自动决定是否调用工具(默认,当提供 tools 时) - `required`:强制模型调用一个或多个工具 - 对象形式 `{"type":"function","function":{"name":"xxx"}}`:指定调用某个工具 **默认值**:未提供 tools 时为 `none`,提供 tools 时为 `auto`
是否返回 token 的对数概率 **说明**: - 设置为 `true` 时,响应中会包含每个 token 的对数概率信息
false返回概率最高的前 N 个 token 的对数概率 **说明**: - 需要 `logprobs` 设置为 `true` - 取值范围:`[0, 20]`
0Token 偏置映射 **说明**: - 键为 tokenizer 中的 token ID,值为 -100 到 100 之间的偏置值 - -100 表示完全禁止该 token,100 表示强制生成 - 典型值范围 -1 到 1 已经会产生可观察到的影响
{}为每个输入消息生成的聊天完成选项数量 **说明**: - 默认 1;设置为 N 时会返回 N 个候选(按 N × output_tokens 计费)
1随机种子(Beta) **说明**: - 指定后模型会尝试做确定性采样 - 相同的 seed + 相同的其他参数 → 相同的输出(非 100% 保证)
0代表终端用户的唯一标识符 **说明**: - 可帮助平台监控和检测滥用行为 - 建议使用散列后的用户 ID
"string"回應
application/json回應體
对话完成的唯一标识符
"53c548dc-ec02-4a2f-bbb6-eca4184630b8"实际使用的模型名称
"deepseek-v4-flash"响应类型
"chat.completion"创建时间戳(Unix 秒)
1777021417对话生成的选择列表
[
{
"index": 0,
"message": {
"role": "assistant",
"content": "你好!我是 DeepSeek V4,我擅长通用对话、代码生成、数学推理等多种任务。",
"reasoning_content": "让我来分析这个问题...",
"tool_calls": [
{
"id": null,
"type": null,
"function": null
}
]
},
"logprobs": null,
"finish_reason": "stop"
}
]Token 使用统计信息(含缓存与推理分项)
{
"prompt_tokens": 694,
"completion_tokens": 20,
"total_tokens": 714,
"prompt_cache_hit_tokens": 640,
"prompt_cache_miss_tokens": 54,
"prompt_tokens_details": {
"cached_tokens": 640
},
"completion_tokens_details": {
"reasoning_tokens": 10
}
}系统指纹标识
"fp_evolink_v4_20260402"
