Gemini 语音转文本 API 文档

✨ 简介

使用 Gemini 模型将音频文件翻译成英文，支持多种格式 MIME类型（WAV、 MP3、 AIFF、AAC、OGG Vorbis、FLAC等）。

📡 接口地址

服务类型	接口地址	说明
音频翻译	`https://www.dmxapi.cn`	详细描述音频内容

🎯 Python 音频翻译示例

代码示例

python

"""
Gemini 音频分析示例
功能：使用 DMXAPI调用 Gemini 模型分析本地音频文件内容
"""

# ============================================================
# 1. 导入必要的库
# ============================================================
from google import genai  # Google Gemini API 主模块
from google.genai import types  # 用于创建多模态内容部分

# ============================================================
# 2. 配置 API 连接信息
# ============================================================
api_key = "sk-*****************************"  # DMXAPI 密钥
BASE_URL = "https://www.dmxapi.cn"  # DMXAPI 服务器地址

# ============================================================
# 3. 读取音频文件
# ============================================================
# 以二进制模式打开音频文件并读取所有字节数据
with open('test/11.mp3', 'rb') as f:
    audio_bytes = f.read()

# ============================================================
# 4. 初始化 Gemini 客户端
# ============================================================
# 创建客户端实例，配置 API 密钥和自定义服务器地址
client = genai.Client(api_key=api_key, http_options={'base_url': BASE_URL})

# ============================================================
# 5. 发送音频分析请求
# ============================================================
response = client.models.generate_content(
    model='gemini-2.5-flash',  # 使用 Gemini 2.5 Flash 模型
    contents=[
        '分析音频内容',  # 文本提示：要求描述音频内容
        types.Part.from_bytes(  # 将音频字节数据转换为 API 可接受的格式
            data=audio_bytes,  # 音频文件的二进制数据
            mime_type='audio/mp3',  # 指定音频文件的 MIME 类型
        )
    ]
)
# ============================================================
# 6. 输出分析结果
# ============================================================
print(response.text)  # 打印 Gemini 返回的音频描述文本

📊 返回示例

json

DMX API 一个 key，使用全球大模型。

**时间戳与内容:**
*   **00:00 - 00:01**: DMX API
*   **00:01 - 00:02**: 一个 key
*   **00:02 - 00:04**: 使用全球大模型

**内容分析:**
这段音频内容是技术相关的口语表达，涉及到：
1.  **DMX API**: 这是一个英文缩写词组，通常指一种应用程序编程接口（API）。DMX可能是某个特定系统或服务的名称。
2.  **一个 key**: "Key" 在技术语境中通常指密钥、令牌或访问凭证。结合上下文，可能是指DMX API的访问密钥。
3.  **使用全球大模型**: "全球大模型" 指的是一个在全球范围内训练或可用的、参数量巨大的模型，通常与人工智能、机器学习领域相关。

**整体语境推测:**
这句话可能是在描述某个系统或服务（DMX API）的功能或操作方式。具体来说，它可能意味着：
*   DMX API 是一个密钥，用于访问或操作某个全球大模型。
*   通过 DMX API 的一个密钥，可以调用或使用全球大模型。
 
这通常出现在技术讲解、产品介绍或开发者说明的场景中。

⚠️ 注意事项

文件大小限制: 音频文件大小建议不超过 20MB
支持语言: 支持中文、英文等多种语言
安全提醒: 请妥善保管 API 密钥,切勿泄露或提交到公共代码仓库

📊 音频的技术详情

Gemini 将每秒的音频表示为 32 个令牌；例如，一分钟的音频表示为 1,920 个令牌。
Gemini 可以“理解”非语音内容，例如鸟鸣或警笛。
单个问题中音频数据的支持时长上限为 9.5 小时。Gemini 不限制单个问题中的音频文件数量；不过，单个问题中的所有音频文件总时长不得超过 9.5 小时。
Gemini 会将音频文件下采样为 16 Kbps 的数据分辨率。
如果音频源包含多个声道，Gemini 会将这些声道合并为一个声道。

计费方式

-thinking思考功能的开关

openai绘图模型

豆包即梦绘图模型

Gemini绘图模型

gemini-3-pro-image-preview

gemini-2.5-flash-image

nano-banana-2

Flux绘图模型

其他

MiniMax 海螺视频 Hailuo

Sora2视频模型

Vidu视频模型

拍我视频模型

Kling 视频模型

豆包视频模型

suno-music

MiniMax-music

Gemini 语音转文本 API 文档

✨ 简介

📡 接口地址

🎯 Python 音频翻译示例

代码示例

📊 返回示例

⚠️ 注意事项

📊 音频的技术详情

gemini-3-pro-image-preview

gemini-2.5-flash-image

nano-banana-2

Gemini 语音转文本 API 文档 ​

✨ 简介 ​

📡 接口地址 ​

🎯 Python 音频翻译示例 ​

代码示例 ​

📊 返回示例 ​

⚠️ 注意事项 ​

📊 音频的技术详情 ​

Gemini 语音转文本 API 文档

✨ 简介

📡 接口地址

🎯 Python 音频翻译示例

代码示例

📊 返回示例

⚠️ 注意事项

📊 音频的技术详情