Gemini 语音转文本 API 文档
✨ 简介
使用 Gemini 模型将音频文件翻译成英文,支持多种格式 MIME类型(WAV、 MP3、 AIFF、AAC、OGG Vorbis、FLAC等)。
📡 接口地址
| 服务类型 | 接口地址 | 说明 |
|---|---|---|
| 音频翻译 | https://www.dmxapi.cn | 详细描述音频内容 |
🎯 Python 音频翻译示例
代码示例
python
"""
Gemini 音频分析示例
功能:使用 DMXAPI调用 Gemini 模型分析本地音频文件内容
"""
# ============================================================
# 1. 导入必要的库
# ============================================================
from google import genai # Google Gemini API 主模块
from google.genai import types # 用于创建多模态内容部分
# ============================================================
# 2. 配置 API 连接信息
# ============================================================
api_key = "sk-*****************************" # DMXAPI 密钥
BASE_URL = "https://www.dmxapi.cn" # DMXAPI 服务器地址
# ============================================================
# 3. 读取音频文件
# ============================================================
# 以二进制模式打开音频文件并读取所有字节数据
with open('test/11.mp3', 'rb') as f:
audio_bytes = f.read()
# ============================================================
# 4. 初始化 Gemini 客户端
# ============================================================
# 创建客户端实例,配置 API 密钥和自定义服务器地址
client = genai.Client(api_key=api_key, http_options={'base_url': BASE_URL})
# ============================================================
# 5. 发送音频分析请求
# ============================================================
response = client.models.generate_content(
model='gemini-2.5-flash', # 使用 Gemini 2.5 Flash 模型
contents=[
'分析音频内容', # 文本提示:要求描述音频内容
types.Part.from_bytes( # 将音频字节数据转换为 API 可接受的格式
data=audio_bytes, # 音频文件的二进制数据
mime_type='audio/mp3', # 指定音频文件的 MIME 类型
)
]
)
# ============================================================
# 6. 输出分析结果
# ============================================================
print(response.text) # 打印 Gemini 返回的音频描述文本📊 返回示例
json
DMX API 一个 key,使用全球大模型。
**时间戳与内容:**
* **00:00 - 00:01**: DMX API
* **00:01 - 00:02**: 一个 key
* **00:02 - 00:04**: 使用全球大模型
**内容分析:**
这段音频内容是技术相关的口语表达,涉及到:
1. **DMX API**: 这是一个英文缩写词组,通常指一种应用程序编程接口(API)。DMX可能是某个特定系统或服务的名称。
2. **一个 key**: "Key" 在技术语境中通常指密钥、令牌或访问凭证。结合上下文,可能是指DMX API的访问密钥。
3. **使用全球大模型**: "全球大模型" 指的是一个在全球范围内训练或可用的、参数量巨大的模型,通常与人工智能、机器学习领域相关。
**整体语境推测:**
这句话可能是在描述某个系统或服务(DMX API)的功能或操作方式。具体来说,它可能意味着:
* DMX API 是一个密钥,用于访问或操作某个全球大模型。
* 通过 DMX API 的一个密钥,可以调用或使用全球大模型。
这通常出现在技术讲解、产品介绍或开发者说明的场景中。⚠️ 注意事项
- 文件大小限制: 音频文件大小建议不超过 20MB
- 支持语言: 支持中文、英文等多种语言
- 安全提醒: 请妥善保管 API 密钥,切勿泄露或提交到公共代码仓库
📊 音频的技术详情
- Gemini 将每秒的音频表示为 32 个令牌;例如,一分钟的音频表示为 1,920 个令牌。
- Gemini 可以“理解”非语音内容,例如鸟鸣或警笛。
- 单个问题中音频数据的支持时长上限为 9.5 小时。Gemini 不限制单个问题中的音频文件数量;不过,单个问题中的所有音频文件总时长不得超过 9.5 小时。
- Gemini 会将音频文件下采样为 16 Kbps 的数据分辨率。
- 如果音频源包含多个声道,Gemini 会将这些声道合并为一个声道。
© 2025 DMXAPI Gemini STT
