Skip to main content
POST
/
kling
/
v1
/
videos
/
avatar
/
image2video
cURL
curl --request POST \
+  --url https://api.deerapi.com/kling/v1/videos/avatar/image2video \
+  --header 'Authorization: Bearer <DEERAPI_KEY>' \
+  --header 'Content-Type: application/json' \
+  --data '{
    "image": "https://example.com/avatar.png",
    "sound_file": "https://example.com/avatar-voice.mp3",
    "prompt": "人物自然眨眼并向前点头致意。",
    "mode": "std",
    "callback_url": "https://example.com/kling/callback"
  }'
{
  "code": 123,
  "message": "<string>",
  "request_id": "<string>",
  "data": {
    "task_id": "<string>",
    "task_status": "<string>",
    "task_info": {
      "external_task_id": "<string>"
    },
    "created_at": 123,
    "updated_at": 123
  }
}
/kling/v1/videos/avatar/image2video 适合用头像图加音频生成数字人口播视频。你要的是“从静态人像起一个会说话的视频”时,用这页;如果你已经有真人视频,需要改口型,应该走对口型工作流。
audio_idsound_file 只能二选一。第一次接入建议先用 image + sound_file 跑通,因为排错最直接。

快速上手

  • 准备一张清晰头像图,先保证人物主体稳定。
  • 选择一种音频来源;如果你已经用 语音合成 产出过音频,再切换到 audio_id
  • promptmode 留到第二轮调优,先验证人像和音频能否稳定产出视频。
  • 数字人任务是异步视频任务,创建后务必保存 task_id
  • 当前仓库没有单列数字人查询页,如果这轮不打算自己补查询接口,接入时更推荐直接配 Callback 协议

常见误解和限制

  • 把这页当成“给现有真人视频换嘴型”的接口。
  • 人像图、音频格式和时长没有在业务侧先做预检。
  • 一开始就同时调整 promptmode、音频来源和头像图,导致首轮排错困难。

相关页面

语音合成

先把文本转成可复用语音,再回到数字人流程。

【对口型】人脸识别

你已经有真人视频而不是头像图时,应该从这里开始。

Callback 协议

数字人任务更适合在完成后直接异步回推结果。

Authorizations

Authorization
string
header
required

Bearer token authentication. Use your DeerAPI key.

Headers

Content-Type
string

Body

application/json

当前页面不使用 model_name;audio_id 和 sound_file 是互斥输入,只应保留一种。

image
string
default:example
required

头像参考图片。支持可访问的图片 URL 或原始 Base64 编码。若使用 Base64,请只传 <BASE64_IMAGE_DATA>,不要附带 data:image/...;base64, 前缀。图片格式支持 .jpg / .jpeg / .png,大小不超过 10MB,宽高不小于 300px,宽高比需在 1:2.5 到 2.5:1 之间。

audio_id
string

通过 TTS API 生成的音频 ID,仅支持 2 秒及以上、60 秒及以下且 30 天内生成的音频。audio_id 与 sound_file 必须二选一(互斥,不能都为空或都填写)。

prompt
string

正向文本提示,可用于定义头像动作、情感、镜头运动等。不能超过 2500 个字符。

mode
string

视频生成模式。枚举值:std、pro。std:标准模式,性价比高;pro:专业模式,生成时长更长但视频质量更高。不同模型版本和视频模式的支持范围不同,详情请参考当前文档的“3-0 能力图谱”。

sound_file
string

音频文件。支持 Base64 编码音频或可访问的音频 URL。支持格式:.mp3/.wav/.m4a/.aac(最大 5MB)。格式不符或超出大小限制将返回错误码。仅支持 2 秒及以上、60 秒及以下的音频。audio_id 与 sound_file 必须二选一(互斥,不能都为空或都填写)。系统会校验音频内容,如有问题会返回错误码及相关信息。

callback_url
string

任务结果的回调通知地址。如配置,服务器将在任务状态变更时主动通知。通知的具体消息结构见“回调协议”。

external_task_id
string

自定义任务 ID。用户可自定义任务 ID,不会覆盖系统生成的任务 ID,但可用于任务查询。请确保自定义任务 ID 在单个用户账号下唯一。

Response

200 - application/json

任务已受理,返回 task_id。后续请沿用同路径查询模式或 callback 获取最终数字人视频。

code
integer
required

返回码。

message
string
required

错误信息或成功说明。

request_id
string
required

请求唯一标识。

data
object
required