跳到主要内容

Qwen3-8B

更新时间:2025-12-22 13:32:15
调用Qwen3-8B模型,基于指定的聊天对话生成模型回复。Baicai Infer API服务支持通过OpenAI官方客户端进行调用。
POST
https://cloud.baicaiinfer.com/v1/chat/completions
Authorizations
AuthorizationsStringHeaderRequired

用户需使用已获取的API Key进行身份验证,以访问服务。

Body
modelStringRequired

模型名称,取值:Qwen3-8B。更多模型,可参考支持的模型和应用

messagesarray [object] Required

组成对话的消息列表。

messages.roleStringRequired

消息发送者的角色。可选值:system、user或assistant。

messages.contentStringRequired

消息的内容。

streamBoolean

用于控制服务器返回响应数据的方式。默认false,即一次性返回,服务器等整个回复生成完毕后,把完整内容封装成一个JSON包发送给客户端。值为true表示流式返回,服务器每生成一部分内容(如一个字或一个词),就立即通过HTTP分块传输(chunked transfer)或Server-Sent Events (SSE) 推送给客户端。

inference_tierString

本次对话的调用模式,默认“极速”模式,不同模式对应不同的计费标准。取值:FASTEST(极速)、STANDARD(标准)、ECONOMICAL(经济)、BATCH_FASTEST(批量极速)、BATCH_STANDARD(批量标准)、BATCH_ECONOMICAL(批量经济)。

max_tokensInt

用于指定模型在生成回复时最多可以产生的token数量。达到此限制后,模型会停止生成,即使句子可能不完整。设置的max_tokens值加上输入提示(prompt)占用的token数,总和不能超过模型的最大上下文长度。

stream_optionsobject

当主参数stream设置为true时有效。最核心的功能是控制是否返回token用量统计。其内部通常包含一个布尔字段:include_usage (bool): 设置为true时,在流式消息的最后一个数据块中,会包含一个usage字段,里面记录了整个请求的prompt和completion token数量。

stopString

用作生成停止信号。默认null,最多4个序列,API将停止生成更多tokens。返回的文本包含停止序列。

nInt

每个提示生成多少个对话。默认值为1。注意:由于此参数会生成多个对话,因此可能会快速消耗您的计费额度。请谨慎使用,并确保为max_tokens和stop设置了合理的值。

seedInt

控制大语言模型生成时的随机性,以实现可重复的结果。通过设置一个固定的起始值,让模型在相同输入下尽可能输出相同或相似的内容。

frequency_penaltynumber

控制模型生成文本中词语重复程度的参数。通过惩罚已经频繁出现的token,鼓励模型使用更多样化的词汇,减少重复。默认值0,取值范围:-2 < x < 2。

repetition_penaltynumber

用于减少文本生成中内容重复的参数。通过对那些在提示词(prompt)和已生成文本中已经出现过的token施加惩罚,来降低它们被再次选中的概率,从而鼓励模型引入新内容。默认值1,取值范围:1 < x < 2。

temperaturenumber

控制模型生成时的随机性大小。值越低,回答越稳定保守;值越高,回答越多样创新。默认值1,取值范围:0 < x < 2。

top_pnumber

通过动态保留累积概率达到阈值的最可能token来平衡质量与多样性。值越小,候选词越少,输出越稳定;值越大,候选词越多,输出越多样。默认值1,取值范围:0 < x < 1。

top_kInt

通过固定保留概率最高的k个token来控制候选池大小。值越小输出越稳定保守,值越大输出越多样冒险。取值范围:1 < x < 21,21 < x < 128。

min_pnumber

表示一个tokens被考虑的最小概率的浮动值,相对于最有可能的tokens的概率。默认值0,取值范围:0 < x < 1

logit_biasmap[String, Int]

默认为null。修改指定tokens在对话中出现的可能性。接受一个JSON对象,将tokens映射到一个从-100到100的关联偏差值。

logprobsBoolean

是否返回输出tokens的对数概率。如果为true,则返回消息内容中每个输出tokens的对数概率。默认false。

top_logprobsInt

一个介于0到20之间的整数,指定在每个tokens位置返回的最可能的tokens数量,每个tokens都有一个关联的对数概率。如果使用此参数,必须将logprobs设置为true。取值范围:0 < x < 20。

response_formatObject

允许强制模型产生特定的输出格式。

response_format.typeString

响应格式的类型。例如:text。

separate_reasoningBoolean

控制是否将 “思考内容” 单独放入 “reasoning_content” 字段中。默认为false,即不单独返回 “思考内容”。目前支持的模型:deepseek/deepseek-r1-turbo。

enable_thinkingBoolean

控制是否开启思考模式。

Response
状态码:application/json
idStringRequired

响应的唯一标识符。

objectStringRequired

对象类型,为chat.completion。

createdIntRequired

响应生成的Unix时间戳(以秒为单位)。

modelStringRequired

用于对话的模型。

choicesObject[]Required

生成的对话列表。

choices.indexIntRequired

对话选择的索引。

choices.messageObjectRequired

生成的对话列表。

choices.message.roleStringRequired

消息作者的角色,可选值:system、user或assistant。

choices.message.contentStringRequired

消息的内容。

choices.message.reasoning_contentString

思考内容。

choices.finish_reasonStringRequired

模型停止生成tokens的原因。如果模型遇到自然停止点或提供的停止序列,则为stop;如果请求中指定的最大tokens数量已达到,则为length。

usageObject

使用统计。对于流式回复,usage字段被包含在返回的最后一个回复块中。

usage.completion_tokensInt Required

对话生成的tokens数。

usage.prompt_tokensInt Required

prompt中的tokens数。

usage.total_tokensInt Required

请求中使用的总tokens数(即prompt + completion)。

curl --location 'https://cloud.baicaiinfer.com/v1/chat/completions' \
--header 'Authorization: Bearer sk-VStOhW7gwGTcy5lFuDg*****' \
--header 'Content-Type: application/json' \
--data-raw '{
    "model": "Qwen3-8B",
    "messages": [
        {
            "role": "user",
            "content": "请介绍一下你自己?"
        }
    ]
}'
{
    "id": "chatcmpl-26a0b05d520e42bcb2a55035bda70eca",
    "object": "chat.completion",
    "created": 1761016758,
    "model": "Qwen3-8B",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "我介绍一下自己。我是Qwen,由阿里云开发的大型语言模型。我的设计旨在帮助用户生成各种文本内容,包括但不限于文章、故事、诗歌、邮件等,并能够进行问题解答和对话交流。无论是在学习、工作还是日常生活中遇到的问题,我都希望能够提供支持与帮助。如果您有任何问题或需要帮助,请随时告诉我!",
                "refusal": null,
                "annotations": null,
                "audio": null,
                "function_call": null,
                "tool_calls": [],
                "reasoning_content": null
            },
            "logprobs": null,
            "finish_reason": "stop",
            "stop_reason": null,
            "token_ids": null
        }
    ],
    "service_tier": null,
    "system_fingerprint": null,
    "usage": {
        "prompt_tokens": 347,
        "total_tokens": 438,
        "completion_tokens": 91,
        "prompt_tokens_details": null
    },
    "prompt_logprobs": null,
    "prompt_token_ids": null,
    "kv_transfer_params": null
}