Skip to content

快速开始

我们提供了自动构建的安装包,无需配置开发环境即可直接使用。

1️⃣ 下载安装

  1. 访问 Releases 页面
  2. 下载程序: Gemini-Subtitle-Pro-x.x.x-win-x64.zip
  3. 解压到任意位置,双击 Gemini Subtitle Pro.exe 启动

2️⃣ 配置 API Key

打开设置,填写 Gemini 及 OpenAI API Key。

注意事项

  1. 如需使用本地 Whisper 模型,请参考 本地 Whisper 配置
  2. 需保证 API Key 能请求 Gemini 3 FlashGemini 3 ProGemini 2.5 Flash 模型
  3. 推荐使用中转站 API(如 云雾 API
  4. 为保证翻译质量,暂不支持自定义模型

3️⃣ 开始使用

Enjoy! 🎉


🧠 技术细节

🎧 术语自动提取

  • 从音频中智能提取专有名词(人名、地名、作品名等)
  • 配合 Google Search 验证标准译法
  • 生成术语表供后续翻译参考,确保译名一致

⚡ 长上下文翻译

  • 按语义切分为 5-10 分钟片段
  • 保留完整上下文进行翻译,避免断章取义
  • 支持场景预设(动漫、电影、新闻、科技),自动优化翻译风格

💎 转录后处理

  • 智能断句:根据语义和停顿自动分割字幕
  • 时间轴校正:修复 Whisper 输出的时间偏差
  • 术语替换:自动应用术语表,统一译名

🗣️ 说话人识别

  • 自动推测并标注多说话人身份
  • 支持自定义说话人名称和颜色
  • 支持合并相邻同说话人字幕

✨ 润色与重新生成

  • 批量重新生成:选中片段一键重跑完整流程(转录→润色→对齐→翻译)
  • 润色翻译:对选中片段进行翻译质量优化,保持上下文连贯
  • 操作前自动保存版本快照,可随时回滚

🚀 全自动模式

只需粘贴视频链接(YouTube/Bilibili),自动完成全部流程:

  1. 自动下载:调用 yt-dlp 下载最佳画质视频
  2. 音频提取:自动提取音频并进行 VAD 分段
  3. 智能转写:使用 Whisper 进行语音转录
  4. AI 翻译润色:Gemini 进行上下文感知的翻译和校对
  5. 自动压制:FFmpeg 将双语字幕烧录到视频(支持 GPU 加速)
  6. 输出成品:直接生成带硬字幕的 MP4 文件

🧠 智能并发控制

根据不同模型动态调整并发数,避免限流的同时最大化速度:

  • Gemini Flash:并发 5(速度优先)
  • Gemini Pro:并发 2(避免限流)

效果:30 分钟视频约 8-10 分钟处理完成

Released under the MIT License.