DeerAPI-API文档
  1. 音频
DeerAPI-API文档
  • 帮助中心
    • 模型上新公告
    • 平台通知
    • 帮助中心
    • 快速开始
    • 关于价格
    • 关于分组
    • 接口稳定性
    • 隐私政策
    • 服务条款
    • 报错状态码说明
    • 代码示例
    • 入门必看
    • 常见误区
    • 使用困惑
    • 最佳实践
      • Deerapi 账户余额查询API 使用说明
      • 使用 DeerAPI 和 OpenAI 官方 API 的重试逻辑说明文档
      • Midjorney调用最佳实践
      • Runway调用最佳实践
  • OpenAI格式
    • gpt-4o-image生图
      POST
    • 聊天
      POST
    • 识图
      POST
    • 获取模型列表
      GET
    • 嵌入
      POST
    • 图像
      POST
    • Realtime
      POST
    • 图像编辑(gpt-image-1)
      POST
  • 音频
    • 文本转音频
      POST
    • 音频转文本
      POST
    • 创建翻译
      POST
  • Anthropic 格式
    • Anthropic Claude
  • 音乐生成
    • Suno
      • 设置 suno 版本
      • 生成歌词
      • 生成音乐
      • 上传音乐
      • 歌曲拼接
      • 查询单个任务
      • 批量查询任务
    • Udio(暂不可用)
      • 生成音乐
      • 查询单个任务
  • Midjourney 图像生成
    • 快速教学-完整流程一遍过
    • 任务查询
      • 分页查询
      • 指定ID获取任务
    • 提交Imagine任务
    • 提交Action任务
    • 提交Blend任务
    • 提交Describe任务
    • 提交Modal
  • 视频生成
    • runway(video)
      • 官方格式
        • 从图像生成视频
        • 获取任务详细信息
      • 逆向格式
        • generate(文本)
        • generate(参考图片)
        • video2video 视频转视频 风格重绘
        • Act-one 表情迁移
        • feed-获取任务
    • kling (video)
      • Callback协议
      • 生成图像
      • 文生视频
      • 图生视频
      • 视频延长
      • 虚拟试穿
      • 对口型
      • 查询任务(单个)
    • luma (video)
      • 官方API格式
        • 生成视频
        • 单个查询任务
    • MiniMax 海螺(video)
      • 官方文档
      • 视频生成
      • 查询任务
      • 文件下载
    • PIKA(video)
      • 通用版
        • generate video
        • 查询视频任务
      • generate(参考视频/扩展视频)
      • generate(参考图片)
      • generate(文本)
      • feed
    • sora
      • 逆向格式
        • 创建视频
        • 生成视频
        • 查询视频任务
  • 图像生成
    • ideogram(images)
      • 官方文档(实时更新)
      • Generate 3.0(文生图)
      • Reframe 3.0(重构)
      • Replace Background 3.0(背景替换)
      • Remix 3.0(混合图)
      • Edit 3.0(编辑)
      • Generate(文生图)
      • Remix(混合图)
      • Upscale(放大高清)
      • Describe(描述)
      • Edit(编辑)
    • Flux(images)
      • 生成图片(replicate格式)
      • 生成图片(暂不可用)
      • 微调(暂不可用)
      • 查询任务
    • Replicate(image)
      • 创建任务
      • 查询任务
    • Recraft(images)
      • 附录
      • Generate Image(生成图片)
      • Vectorize Image(矢量化图片)
      • Remove Background(删除背景)
      • Clarity Upscale(清晰度提升)
      • Create style(创建样式)
      • Generative Upscale(生成高清)
  • 应用集成指南
    • DeerAPI 本站调用
    • OpenManus
    • Chatbox
    • CherryStudio
    • Cursor
    • ChatAll
    • ChatHub
    • COZE
    • FastGPT
    • Lobe-Chat
    • NEXT CHAT (ChatGPT Next Web)
    • cline
    • gptme
    • LangChain
    • AnythingLLM
    • Zotero
    • librechat
    • avante.nvim
    • Dify
    • OpenAI Translator
    • Open WebUI
    • obsidian的text generator插件
    • STranslate
    • 沉浸式翻译
    • Pot 翻译
    • 欧陆翻译
    • utools-ChatGPT 好友
    • GPT 学术优化(gpt_academic)
    • 懒人客服
    • IntelliJ Translation Plugin
  1. 音频

音频转文本

POST
https://api.deerapi.com/v1/audio/transcriptions
该端点允许您使用指定的模型和参数转录音频文件。

请求正文参数#

文件"(文本):要转录的音频文件对象(非文件名),格式如下: flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav 或 webm。
model`(文本): 要使用的模型 ID。目前只有 whisper-1(由我们的开源 Whisper V2 模型提供)可用。
prompt (文本): 可选文本,用于引导模型的风格或延续之前的音频片段。提示语应与音频语言相匹配。
response_format (文本):输出格式,可选 json、text、srt、verbose_json 或 vtt。
temperature (文本):取样温度,介于 0 和 1 之间。取值越高(如 0.8),输出越随机,取值越低(如 0.2),输出越集中、确定。如果设置为 0,模型将使用对数概率自动提高温度,直到达到特定阈值。
语言(文本): 输入音频的语言。提供 ISO-639-1 格式的输入语言将提高准确性和延迟。
请求示例请求示例
Shell
JavaScript
Java
Swift
curl --location --request POST 'https://api.deerapi.com/v1/audio/transcriptions' \
--header 'Authorization: Bearer {{api-key}}' \
--form 'file=@""' \
--form 'model="whisper-1"' \
--form 'prompt="eiusmod nulla"' \
--form 'response_format="json"' \
--form 'temperature="0"' \
--form 'language=""'
响应示例响应示例
{
    "text": "Imagine the wildest idea that you've ever had, and you're curious about how it might scale to something that's a 100, a 1,000 times bigger. This is a place where you can get to do that."
}

请求参数

Header 参数
Authorization
string 
必需
示例值:
Bearer {{api-key}}
Body 参数multipart/form-data
file
file 
必需
要转录的音频文件,采用以下格式之一:mp3、mp4、mpeg、mpga、m4a、wav 或 webm。
model
string 
必需
要使用的模型的 ID。仅whisper-1当前可用。
示例值:
whisper-1
prompt
string 
可选
可选文本,用于指导模型的风格或继续之前的音频片段。提示应与音频语言相匹配。
示例值:
eiusmod nulla
response_format
string 
可选
成绩单输出的格式,采用以下选项之一:json、text、srt、verbose_json 或 vtt。
示例值:
json
temperature
string 
可选
采样温度,介于 0 和 1 之间。较高的值(如 0.8)将使输出更加随机,而较低的值(如 0.2)将使输出更加集中和确定。如果设置为 0,模型将使用对数概率自动升高温度,直到达到特定阈值。
示例值:
0
language
string 
可选
输入音频的语言。以ISO-639-1格式提供输入语言将提高准确性和延迟。

返回响应

🟢200Successful Response
text/plain
Body
text
string 
必需
修改于 2025-04-02 04:55:54
上一页
文本转音频
下一页
创建翻译
Built with