快速开始

基本概念

令牌 Token

令牌也可以理解为 API Key，用于识别调用方身份、关联账号余额、权限和用量记录。

示例 Key 仅用于说明格式，请使用你自己在控制台创建的令牌：
text
sk-xxxxxxxxxxxxxxxxxxxxxxxx

Base URL

Base URL 是调用 Xima AI 网关时使用的接口地址。你可以把它理解成「API 服务入口」。使用 OpenAI、Gemini 或第三方工具时，把官方接口地址替换为控制台展示的 Xima AI 接口地址即可。

建议直接在 Xima AI 控制台点击「复制连接信息」获取当前可用的 Base URL 和 Key，避免手动填写错误。

原官方地址	替换方式
`https://api.openai.com/v1`	替换为控制台提供的 Xima AI OpenAI 兼容 Base URL
`https://generativelanguage.googleapis.com`	如使用 Gemini 兼容客户端，替换为控制台提供的 Gemini 兼容地址

如果你使用本文的 curl 示例，请确保 XIMA_BASE_URL 是接口根地址。比如 OpenAI 兼容地址通常以 /v1 结尾，示例会在后面继续拼接 /chat/completions。

模型 Model

模型是请求中 model 字段的值。Xima AI 当前只展示已支持模型，调用时请以本页和控制台模型列表为准。

不知道选哪个模型时，可以先按下面的方式选择：

日常对话、代码辅助、性价比优先：azure/gpt-5.4-mini
更高质量的文本生成：azure/gpt-5.4 或 gemini-3.1-pro-preview
低成本批量任务：xima/qwen3.5-flash
向量检索、知识库 embedding：azure/text-embedding-3-small
视频生成：xima/doubao-seedance-2-0-fast-260128

表格里的「输入」「补全」「缓存读取」「缓存创建」是 Xima AI 对外单价，也就是用户实际按量计费时参考的价格。「官方价折扣系数」只用于说明该 Xima 价格大约相当于官方价格的多少，比如 0.6 可以理解为约官方价 6 折，1 表示约等于官方价，1.32 表示约为官方价的 132%。用户不需要再用表格单价乘一次折扣系数，最终扣费以控制台用量明细为准。

OpenAI 兼容模型

以下模型通过 Azure 或兼容渠道提供，但对用户文档应归入 OpenAI 兼容模型。调用方式按 OpenAI SDK 或 OpenAI-compatible HTTP 格式编写。

模型 ID	来源	Xima AI 对外单价	官方价折扣系数
`azure/gpt-5.4`	Azure / OpenAI	输入 $1.50/1M；补全 $9.00/1M；缓存读取 $0.15/1M	0.6
`azure/gpt-5.4-mini`	Azure / OpenAI	输入 $0.45/1M；补全 $2.70/1M；缓存读取 $0.045/1M	0.6
`azure/gpt-5.3-codex`	Azure / OpenAI	输入 $1.05/1M；补全 $8.40/1M；缓存读取 $0.108/1M	0.6
`azure/gpt-5.2`	Azure / OpenAI	输入 $1.05/1M；补全 $8.40/1M；缓存读取 $0.108/1M	0.6
`azure/text-embedding-3-small`	Azure / OpenAI	输入 $0.012/1M	0.6

Kimi / DeepSeek 兼容模型

这些模型可继续沿用 OpenAI-compatible 的 chat.completions 请求格式，但在模型清单中单独标注系列，方便用户选型。

模型 ID	来源	Xima AI 对外单价	官方价折扣系数
`azure/Kimi-K2.6`	Azure	输入 $0.36/1M；补全 $1.80/1M	0.6
`azure/Kimi-K2.5`	Azure	输入 $0.36/1M；补全 $1.80/1M	0.6
`DeepSeek-V3.2`	Azure	输入 $0.35/1M；补全 $1.00/1M	0.6
`azure/DeepSeek-V3.2-R1`	Azure	输入 $0.81/1M；补全 $3.24/1M	0.6

Gemini 官方模型

Gemini 系列由 Google 官方能力提供。使用 OpenAI SDK 的用户，可以先按本文的 OpenAI 兼容示例接入；使用 Gemini 原生客户端时，请使用控制台提供的 Gemini 兼容地址。图片能力请以控制台展示的模型能力和返回格式为准。

模型 ID	来源	Xima AI 对外单价	官方价折扣系数
`gemini-3.1-flash-image-preview`	Google 官方	输入 $0.41/1M；补全 $2.45/1M	0.816
`gemini-3.1-pro-preview`	Google 官方	输入 $1.64/1M；补全 $9.80/1M；缓存读取 $0.16/1M；缓存创建 $3.67/1M	0.816
`gemini-3-flash-preview`	Google 官方	输入 $0.41/1M；补全 $2.45/1M；缓存读取 $0.04/1M；缓存创建 $0.82/1M	0.816
`gemini-3-pro-image-preview`	Google 官方	输入 $1.64/1M；补全 $9.80/1M	0.816
`gemini-2.5-flash`	Google 官方	输入 $0.25/1M；补全 $2.00/1M；缓存读取 $0.025/1M；缓存创建 $0.82/1M	0.816

第三方模型

模型 ID	来源	Xima AI 对外单价	官方价折扣系数
`xima/glm-5`	第三方	输入 $0.51/1M；补全 $2.27/1M	0.9
`xima/glm-5.1`	第三方	输入 $0.86/1M；补全 $3.43/1M	1.02
`xima/qwen3.5-flash`	第三方	输入 $0.02/1M；补全 $0.15/1M	0.54
`xima/qwen3.5-plus`	第三方	输入 $0.06/1M；补全 $0.36/1M	0.54
`xima/qwen3.6-plus`	第三方	输入 $0.15/1M；补全 $0.90/1M	0.54

视频模型

视频模型按秒计费，适合独立放在「视频模型」栏目，不要混在普通文本模型价格页里。

模型 ID	来源	Xima AI 对外单价	官方价折扣系数
`xima/doubao-seedance-2-0-260128`	第三方	按秒计费 0.5/秒	1.32
`xima/doubao-seedance-2-0-fast-260128`	第三方	按秒计费 0.2/秒	1.32

Tokens

Tokens 是模型处理文本、图片或多模态输入时的计量单位。它不是字符数，也不是简单的词数。

中文通常一个汉字会被编码为 1 到 2 个 tokens，具体取决于模型分词器。
英文常见单词可能接近 1 个 token，长词、罕见词、符号和换行会被拆分。
图片、缓存、视频等能力可能有独立计费规则，请以模型价格页和控制台用量明细为准。

简单理解：你发给模型的内容算「输入」，模型回复你的内容算「补全」。开启缓存或调用图片、视频等能力时，可能会出现额外的计费项。

快速调用

OpenAI 兼容请求

把 baseURL 和 apiKey 换成控制台复制的连接信息，再把 model 换成 Xima AI 已支持的模型 ID。

第一次测试建议使用 azure/gpt-5.4-mini，它适合日常对话和开发调试，成本也更容易控制。

bash

curl "$XIMA_BASE_URL/chat/completions" \
  -H "Authorization: Bearer $XIMA_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "azure/gpt-5.4-mini",
    "messages": [
      { "role": "user", "content": "用一句话介绍 Xima AI" }
    ]
  }'

Node.js 示例

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.XIMA_API_KEY,
  baseURL: process.env.XIMA_BASE_URL
});

const completion = await client.chat.completions.create({
  model: "azure/gpt-5.4-mini",
  messages: [
    { role: "user", content: "写一个适合开发者文档首页的短标题" }
  ]
});

console.log(completion.choices[0].message.content);

Python 示例

python

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["XIMA_API_KEY"],
    base_url=os.environ["XIMA_BASE_URL"],
)

completion = client.chat.completions.create(
    model="azure/gpt-5.4-mini",
    messages=[
        {"role": "user", "content": "给我一个客服自动回复模板"}
    ],
)

print(completion.choices[0].message.content)

Embedding 示例

bash

curl "$XIMA_BASE_URL/embeddings" \
  -H "Authorization: Bearer $XIMA_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "azure/text-embedding-3-small",
    "input": "Xima AI 统一模型网关"
  }'

常见问题

我注册了，Key 在哪里？

如何新建令牌？

进入控制台的令牌管理页面，点击创建或添加令牌，填写名称后保存。

为什么 Key 不能用，或者 API 没有响应？

优先检查三件事：

Authorization 是否写成 Bearer sk-...。
baseURL 是否使用了 Xima AI 控制台提供的接口地址。
model 是否在当前支持模型清单中，且模型 ID 拼写完全一致。

最常见的问题是 Base URL 多写或少写了一段路径。比如你的 Base URL 已经包含 /v1，请求路径只需要继续拼接 /chat/completions，不要重复写成 /v1/v1/chat/completions。

可以把 Key 放在 `.env` 里吗？

可以。推荐把 Key 和 Base URL 都放到环境变量里。

bash

XIMA_BASE_URL=控制台复制的 Base URL
XIMA_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxx

单个 Key 有并发或速率限制吗？

具体限制以控制台策略、账号套餐和上游模型能力为准。高并发业务建议拆分生产和测试令牌，并在服务端做好重试、限流和错误日志。

快速开始 ​

基本概念 ​

令牌 Token ​

Base URL ​

模型 Model ​

OpenAI 兼容模型 ​

Kimi / DeepSeek 兼容模型 ​

Gemini 官方模型 ​

第三方模型 ​

视频模型 ​

Tokens ​

快速调用 ​

OpenAI 兼容请求 ​

Node.js 示例 ​

Python 示例 ​

Embedding 示例 ​

常见问题 ​

我注册了，Key 在哪里？ ​

如何新建令牌？ ​

为什么 Key 不能用，或者 API 没有响应？ ​

可以把 Key 放在 .env 里吗？ ​

单个 Key 有并发或速率限制吗？ ​

快速开始

基本概念

令牌 Token

Base URL

模型 Model

OpenAI 兼容模型

Kimi / DeepSeek 兼容模型

Gemini 官方模型

第三方模型

视频模型

Tokens

快速调用

OpenAI 兼容请求

Node.js 示例

Python 示例

Embedding 示例

常见问题

我注册了，Key 在哪里？

如何新建令牌？

为什么 Key 不能用，或者 API 没有响应？

可以把 Key 放在 `.env` 里吗？

单个 Key 有并发或速率限制吗？