Qwen3-8B
组成对话的消息列表。
消息发送者的角色。可选值:system、user或assistant。
消息的内容。
用于控制服务器返回响应数据的方式。默认false,即一次性返回,服务器等整个回复生成完毕后,把完整内容封装成一个JSON包发送给客户端。值为true表示流式返回,服务器每生成一部分内容(如一个字或一个词),就立即通过HTTP分块传输(chunked transfer)或Server-Sent Events (SSE) 推送给客户端。
本次对话的调用模式,默认“极速”模式,不同模式对应不同的计费标准。取值:FASTEST(极速)、STANDARD(标准)、ECONOMICAL(经济)、BATCH_FASTEST(批量极速)、BATCH_STANDARD(批量标准)、BATCH_ECONOMICAL(批量经济)。
用于指定模型在生成回复时最多可以产生的token数量。达到此限制后,模型会停止生成,即使句子可能不完整。设置的max_tokens值加上输入提示(prompt)占用的token数,总和不能超过模型的最大上下文长度。
当主参数stream设置为true时有效。最核心的功能是控制是否返回token用量统计。其内部通常包含一个布尔字段:include_usage (bool): 设置为true时,在流式消息的最后一个数据块中,会包含一个usage字段,里面记录了整个请求的prompt和completion token数量。
用作生成停止信号。默认null,最多4个序列,API将停止生成更多tokens。返回的文本包含停止序列。
每个提示生成多少个对话。默认值为1。注意:由于此参数会生成多个对话,因此可能会快速消耗您的计费额度。请谨慎使用,并确保为max_tokens和stop设置了合理的值。
控制大语言模型生成时的随机性,以实现可重复的结果。通过设置一个固定的起始值,让模型在相同输入下尽可能输出相同或相似的内容。
控制模型生成文本中词语重复程度的参数。通过惩罚已经频繁出现的token,鼓励模型使用更多样化的词汇,减少重复。默认值0,取值范围:-2 < x < 2。
用于减少文本生成中内容重复的参数。通过对那些在提示词(prompt)和已生成文本中已经出现过的token施加惩罚,来降低它们被再次选中的概率,从而鼓励模型引入新内容。默认值1,取值范围:1 < x < 2。
控制模型生成时的随机性大小。值越低,回答越稳定保守;值越高,回答越多样创新。默认值1,取值范围:0 < x < 2。
通过动态保留累积概率达到阈值的最可能token来平衡质量与多样性。值越小,候选词越少,输出越稳定;值越大,候选词越多,输出越多样。默认值1,取值范围:0 < x < 1。
通过固定保留概率最高的k个token来控制候选池大小。值越小输出越稳定保守,值越大输出越多样冒险。取值范围:1 < x < 21,21 < x < 128。
表示一个tokens被考虑的最小概率的浮动值,相对于最有可能的tokens的概率。默认值0,取值范围:0 < x < 1
默认为null。修改指定tokens在对话中出现的可能性。接受一个JSON对象,将tokens映射到一个从-100到100的关联偏差值。
是否返回输出tokens的对数概率。如果为true,则返回消息内容中每个输出tokens的对数概率。默认false。
一个介于0到20之间的整数,指定在每个tokens位置返回的最可能的tokens数量,每个tokens都有一个关联的对数概率。如果使用此参数,必须将logprobs设置为true。取值范围:0 < x < 20。
允许强制模型产生特定的输出格式。
响应格式的类型。例如:text。
控制是否将 “思考内容” 单独放入 “reasoning_content” 字段中。默认为false,即不单独返回 “思考内容”。目前支持的模型:deepseek/deepseek-r1-turbo。
控制是否开启思考模式。
响应的唯一标识符。
对象类型,为chat.completion。
响应生成的Unix时间戳(以秒为单位)。
用于对话的模型。
生成的对话列表。
对话选择的索引。
生成的对话列表。
消息作者的角色,可选值:system、user或assistant。
消息的内容。
思考内容。
模型停止生成tokens的原因。如果模型遇到自然停止点或提供的停止序列,则为stop;如果请求中指定的最大tokens数量已达到,则为length。
使用统计。对于流式回复,usage字段被包含在返回的最后一个回复块中。
对话生成的tokens数。
prompt中的tokens数。
请求中使用的总tokens数(即prompt + completion)。
curl --location 'https://cloud.baicaiinfer.com/v1/chat/completions' \
--header 'Authorization: Bearer sk-VStOhW7gwGTcy5lFuDg*****' \
--header 'Content-Type: application/json' \
--data-raw '{
"model": "Qwen3-8B",
"messages": [
{
"role": "user",
"content": "请介绍一下你自己?"
}
]
}'{
"id": "chatcmpl-26a0b05d520e42bcb2a55035bda70eca",
"object": "chat.completion",
"created": 1761016758,
"model": "Qwen3-8B",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "我介绍一下自己。我是Qwen,由阿里云开发的大型语言模型。我的设计旨在帮助用户生成各种文本内容,包括但不限于文章、故事、诗歌、邮件等,并能够进行问题解答和对话交流。无论是在学习、工作还是日常生活中遇到的问题,我都希望能够提供支持与帮助。如果您有任何问题或需要帮助,请随时告诉我!",
"refusal": null,
"annotations": null,
"audio": null,
"function_call": null,
"tool_calls": [],
"reasoning_content": null
},
"logprobs": null,
"finish_reason": "stop",
"stop_reason": null,
"token_ids": null
}
],
"service_tier": null,
"system_fingerprint": null,
"usage": {
"prompt_tokens": 347,
"total_tokens": 438,
"completion_tokens": 91,
"prompt_tokens_details": null
},
"prompt_logprobs": null,
"prompt_token_ids": null,
"kv_transfer_params": null
}