快速开始

我们提供了自动构建的安装包，无需配置开发环境即可直接使用。

1️⃣ 下载安装

访问 Releases 页面
下载程序: Gemini-Subtitle-Pro-x.x.x-win-x64.zip
解压到任意位置，双击 Gemini Subtitle Pro.exe 启动

2️⃣ 配置 API Key

打开设置，填写 Gemini 及 OpenAI API Key。

注意事项

如需使用本地 Whisper 模型，请参考本地 Whisper 配置
需保证 API Key 能请求 Gemini 3 Flash、Gemini 3 Pro 及 Gemini 2.5 Flash 模型
推荐使用中转站 API（如云雾 API）
为保证翻译质量，暂不支持自定义模型

3️⃣ 开始使用

Enjoy! 🎉

🧠 技术细节

🎧 术语自动提取

从音频中智能提取专有名词（人名、地名、作品名等）
配合 Google Search 验证标准译法
生成术语表供后续翻译参考，确保译名一致

⚡ 长上下文翻译

按语义切分为 5-10 分钟片段
保留完整上下文进行翻译，避免断章取义
支持场景预设（动漫、电影、新闻、科技），自动优化翻译风格

💎 转录后处理

智能断句：根据语义和停顿自动分割字幕
时间轴校正：修复 Whisper 输出的时间偏差
术语替换：自动应用术语表，统一译名

🗣️ 说话人识别

自动推测并标注多说话人身份
支持自定义说话人名称和颜色
支持合并相邻同说话人字幕

✨ 润色与重新生成

批量重新生成：选中片段一键重跑完整流程（转录→润色→对齐→翻译）
润色翻译：对选中片段进行翻译质量优化，保持上下文连贯
操作前自动保存版本快照，可随时回滚

🚀 全自动模式

只需粘贴视频链接（YouTube/Bilibili），自动完成全部流程：

自动下载：调用 yt-dlp 下载最佳画质视频
音频提取：自动提取音频并进行 VAD 分段
智能转写：使用 Whisper 进行语音转录
AI 翻译润色：Gemini 进行上下文感知的翻译和校对
自动压制：FFmpeg 将双语字幕烧录到视频（支持 GPU 加速）
输出成品：直接生成带硬字幕的 MP4 文件

🧠 智能并发控制

根据不同模型动态调整并发数，避免限流的同时最大化速度：

Gemini Flash：并发 5（速度优先）
Gemini Pro：并发 2（避免限流）

效果：30 分钟视频约 8-10 分钟处理完成