Qwen3-8B

更新时间：2026-04-15

调用Qwen3-8B模型，基于指定的聊天对话生成模型回复。Baicai Infer API服务支持通过OpenAI官方客户端进行调用。

POST

https://cloud.baicaiinfer.com/v1/chat/completions

Authorizations

Authorizations：StringHeaderRequired

用户需使用已获取的API Key进行身份验证，以访问服务。

Body

model：StringRequired

模型名称。更多模型，可参考支持的模型和应用。

取值范围：Qwen3-8B

默认值：-

约束限制：-

messages：array [object] Required

组成对话的消息列表。

messages.role：StringRequired

消息发送者的角色。

取值范围：system、user、assistant

默认值：-

约束限制：-

messages.content：StringRequired

消息的内容。

取值范围：1~1000

默认值：-

约束限制：支持中英文。

stream：Boolean

用于控制服务器返回响应数据的方式。

取值范围：true、false

默认值：false

约束限制：false表示一次性返回，服务器等整个回复生成完毕后，把完整内容封装成一个JSON包发送给客户端；true表示流式返回，服务器每生成一部分内容（如一个字或一个词），就立即通过HTTP分块传输（chunked transfer）或Server-Sent Events (SSE) 推送给客户端。

inference_tier：String

本次对话的调用模式。

取值范围：

FASTEST（极速）、STANDARD（标准）、ECONOMICAL（经济）、BATCH_FASTEST（批量极速）、BATCH_STANDARD（批量标准）、BATCH_ECONOMICAL（批量经济）

默认值：FASTEST

约束限制：不同模式对应不同的计费标准。

max_tokens：Int

用于指定模型在生成回复时最多可以产生的token数量。

取值范围：-

默认值：-

约束限制：达到此限制后，模型会停止生成，即使句子可能不完整。设置的max_tokens值加上输入提示（prompt）占用的token数，总和不能超过模型的最大上下文长度。

stream_options：object

是否返回token用量统计。

取值范围：-

默认值：-

约束限制：当主参数stream设置为true时有效。其内部通常包含一个布尔字段：include_usage (bool): 设置为true时，在流式消息的最后一个数据块中，会包含一个usage字段，里面记录了整个请求的prompt和completion token数量。

stop：String

用作生成停止信号。

取值范围：最多4个序列

默认值：null

约束限制：API将停止生成更多tokens，返回的文本包含停止序列。

n：Int

每个提示生成多少个对话。

取值范围：[1,128]

默认值：1

约束限制：由于此参数会生成多个对话，因此可能会快速消耗您的计费额度，请谨慎使用，并确保为max_tokens和stop设置了合理的值。

seed：Int

控制大语言模型生成时的随机性，以实现可重复的结果。通过设置一个固定的起始值，让模型在相同输入下尽可能输出相同或相似的内容。

取值范围：-1~4294967295

默认值：-1

约束限制：-

frequency_penalty：number

控制模型生成文本中词语重复程度的参数。

取值范围：[-2,2]

默认值：0

约束限制：通过惩罚已经频繁出现的token，鼓励模型使用更多样化的词汇，减少重复。

repetition_penalty：number

用于减少文本生成中内容重复的参数。

取值范围：[1,2]

默认值：1

约束限制：通过对那些在提示词（prompt）和已生成文本中已经出现过的token施加惩罚，来降低它们被再次选中的概率，从而鼓励模型引入新内容。

temperature：number

控制模型生成时的随机性大小。

取值范围：[0,2]

默认值：1

约束限制：值越低，回答越稳定保守；值越高，回答越多样创新。

top_p：number

通过动态保留累积概率达到阈值的最可能token来平衡质量与多样性。

取值范围：[0,1]

默认值：1

约束限制：值越小，候选词越少，输出越稳定；值越大，候选词越多，输出越多样。

top_k：Int

通过固定保留概率最高的k个token来控制候选池大小。

取值范围：[1,21]&[21,128]

默认值：-

约束限制：值越小输出越稳定保守，值越大输出越多样冒险。

min_p：number

表示一个tokens被考虑的最小概率的浮动值，相对于最有可能的tokens的概率。

取值范围：[0,1]

默认值：0

约束限制：-

logit_bias：map[String, Int]

修改指定tokens在对话中出现的可能性。

取值范围：-

默认值：null

约束限制：接受一个JSON对象，将tokens映射到一个从-100到100的关联偏差值。

logprobs：Boolean

是否返回输出tokens的对数概率。

取值范围：true、false

默认值：false

约束限制：如果为true，则返回消息内容中每个输出tokens的对数概率。

top_logprobs：Int

指定在每个tokens位置返回的最可能的tokens数量，每个tokens都有一个关联的对数概率。

取值范围：[0,20]

默认值：-

约束限制：如果使用此参数，必须将logprobs设置为true。

response_format：String

特定的输出格式。

取值范围：text

默认值：text

约束限制：-

separate_reasoning：Boolean

是否将 “思考内容” 单独放入 “reasoning_content” 字段中。

取值范围：true、false

默认值：false

约束限制：默认false表示不单独返回 “思考内容”。目前支持的模型：deepseek/deepseek-r1-turbo。

enable_thinking：Boolean

是否开启思考模式。

取值范围：true、false

默认值：false

约束限制：-

Response

状态码：

200

application/json

id：StringRequired

响应的唯一标识符。

object：StringRequired

对象类型，为chat.completion。

created：IntRequired

响应生成的Unix时间戳（以秒为单位）。

model：StringRequired

用于对话的模型。

choices：Object[]Required

生成的对话列表。

choices.index：IntRequired

对话选择的索引。

choices.message：ObjectRequired

生成的对话列表。

choices.message.role：StringRequired

消息作者的角色，可选值：system、user或assistant。

choices.message.content：StringRequired

消息的内容。

choices.message.reasoning_content：String

思考内容。

choices.finish_reason：StringRequired

模型停止生成tokens的原因。如果模型遇到自然停止点或提供的停止序列，则为stop；如果请求中指定的最大tokens数量已达到，则为length。

usage：Object

使用统计。对于流式回复，usage字段被包含在返回的最后一个回复块中。

usage.completion_tokens：Int Required

对话生成的tokens数。

usage.prompt_tokens：Int Required

prompt中的tokens数。

usage.total_tokens：Int Required

请求中使用的总tokens数（即prompt + completion）。

llm cURL

Python

JavaScript

curl --location 'https://cloud.baicaiinfer.com/v1/chat/completions' \
--header 'Authorization: Bearer sk-VStOhW7gwGTcy5lFuDg*****' \
--header 'Content-Type: application/json' \
--data-raw '{
    "model": "Qwen3-8B",
    "messages": [
        {
            "role": "user",
            "content": "请介绍一下你自己？"
        }
    ]
}'

200

400

401

404

500

{
    "id": "chatcmpl-26a0b05d520e42bcb2a55035bda70eca",
    "object": "chat.completion",
    "created": 1761016758,
    "model": "Qwen3-8B",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "我介绍一下自己。我是Qwen，由阿里云开发的大型语言模型。我的设计旨在帮助用户生成各种文本内容，包括但不限于文章、故事、诗歌、邮件等，并能够进行问题解答和对话交流。无论是在学习、工作还是日常生活中遇到的问题，我都希望能够提供支持与帮助。如果您有任何问题或需要帮助，请随时告诉我！",
                "refusal": null,
                "annotations": null,
                "audio": null,
                "function_call": null,
                "tool_calls": [],
                "reasoning_content": null
            },
            "logprobs": null,
            "finish_reason": "stop",
            "stop_reason": null,
            "token_ids": null
        }
    ],
    "service_tier": null,
    "system_fingerprint": null,
    "usage": {
        "prompt_tokens": 347,
        "total_tokens": 438,
        "completion_tokens": 91,
        "prompt_tokens_details": null
    },
    "prompt_logprobs": null,
    "prompt_token_ids": null,
    "kv_transfer_params": null
}