Skip to content

Gemini 语音转文本 API 文档

✨ 简介

使用 Gemini 模型将音频文件翻译成英文,支持多种格式 MIME类型(WAV、 MP3、 AIFF、AAC、OGG Vorbis、FLAC等)。

📡 接口地址

服务类型接口地址说明
音频翻译https://www.dmxapi.cn详细描述音频内容

🎯 Python 音频翻译示例

代码示例

python
"""
Gemini 音频分析示例
功能:使用 DMXAPI调用 Gemini 模型分析本地音频文件内容
"""

# ============================================================
# 1. 导入必要的库
# ============================================================
from google import genai  # Google Gemini API 主模块
from google.genai import types  # 用于创建多模态内容部分

# ============================================================
# 2. 配置 API 连接信息
# ============================================================
api_key = "sk-*****************************"  # DMXAPI 密钥
BASE_URL = "https://www.dmxapi.cn"  # DMXAPI 服务器地址

# ============================================================
# 3. 读取音频文件
# ============================================================
# 以二进制模式打开音频文件并读取所有字节数据
with open('test/11.mp3', 'rb') as f:
    audio_bytes = f.read()

# ============================================================
# 4. 初始化 Gemini 客户端
# ============================================================
# 创建客户端实例,配置 API 密钥和自定义服务器地址
client = genai.Client(api_key=api_key, http_options={'base_url': BASE_URL})

# ============================================================
# 5. 发送音频分析请求
# ============================================================
response = client.models.generate_content(
    model='gemini-2.5-flash',  # 使用 Gemini 2.5 Flash 模型
    contents=[
        '分析音频内容',  # 文本提示:要求描述音频内容
        types.Part.from_bytes(  # 将音频字节数据转换为 API 可接受的格式
            data=audio_bytes,  # 音频文件的二进制数据
            mime_type='audio/mp3',  # 指定音频文件的 MIME 类型
        )
    ]
)
# ============================================================
# 6. 输出分析结果
# ============================================================
print(response.text)  # 打印 Gemini 返回的音频描述文本

📊 返回示例

json
DMX API 一个 key,使用全球大模型。

**时间戳与内容:**
*   **00:00 - 00:01**: DMX API
*   **00:01 - 00:02**: 一个 key
*   **00:02 - 00:04**: 使用全球大模型

**内容分析:**
这段音频内容是技术相关的口语表达,涉及到:
1.  **DMX API**: 这是一个英文缩写词组,通常指一种应用程序编程接口(API)。DMX可能是某个特定系统或服务的名称。
2.  **一个 key**: "Key" 在技术语境中通常指密钥、令牌或访问凭证。结合上下文,可能是指DMX API的访问密钥。
3.  **使用全球大模型**: "全球大模型" 指的是一个在全球范围内训练或可用的、参数量巨大的模型,通常与人工智能、机器学习领域相关。

**整体语境推测:**
这句话可能是在描述某个系统或服务(DMX API)的功能或操作方式。具体来说,它可能意味着:
*   DMX API 是一个密钥,用于访问或操作某个全球大模型。
*   通过 DMX API 的一个密钥,可以调用或使用全球大模型。
 
这通常出现在技术讲解、产品介绍或开发者说明的场景中。

⚠️ 注意事项

  • 文件大小限制: 音频文件大小建议不超过 20MB
  • 支持语言: 支持中文、英文等多种语言
  • 安全提醒: 请妥善保管 API 密钥,切勿泄露或提交到公共代码仓库

📊 音频的技术详情

  • Gemini 将每秒的音频表示为 32 个令牌;例如,一分钟的音频表示为 1,920 个令牌。
  • Gemini 可以“理解”非语音内容,例如鸟鸣或警笛。
  • 单个问题中音频数据的支持时长上限为 9.5 小时。Gemini 不限制单个问题中的音频文件数量;不过,单个问题中的所有音频文件总时长不得超过 9.5 小时。
  • Gemini 会将音频文件下采样为 16 Kbps 的数据分辨率。
  • 如果音频源包含多个声道,Gemini 会将这些声道合并为一个声道。

© 2025 DMXAPI Gemini STT

一个 Key 用全球大模型