时间轴强制对齐
使用 CTC 强制对齐获得毫秒级精准时间戳
v3.0 新特性
v3.0 版本内置了全新的 CTC 对齐器,无需额外下载执行文件,开箱即用!
使用强制对齐模型来获得更高精度的字符级时间戳,适合对时间轴精度有高要求的场景。
⚡ 快速启用(v3.0+)
v3.0 版本已内置 CTC 对齐器,只需:
- 打开 设置 > 增强 > 时间轴对齐
- 将 对齐模式 设置为「CTC」
- 下载对齐模型
- 将CTC 对齐器配置中模型目录设置为模型的路径(文件夹)
模型下载链接
Omnilingual ASR CTC 300M(推荐,1600+ 语言,Apache 2.0 许可证)
请下载 model.int8.onnx 和 tokens.txt 两个文件,放置在同一文件夹内,然后在设置中选择该文件夹。
⚠️ Omnilingual 模型需要对齐器 v0.2.0 或更高版本。可在「设置 > 关于」查看当前版本,通过「检查更新」进行更新。
🎯 工作原理
基于 CTC (Connectionist Temporal Classification) 技术的高精度时间轴对齐:
- 毫秒级精度: 支持字符级时间戳对齐
- 自动修正: 修正 Whisper 转录的时间偏差
- 多语言支持: 支持中文、英语、日语等多种语言
- GPU 加速: 支持 ONNX Runtime GPU 加速(如果可用)
对齐模式对比
| 模式 | 精度 | 速度 | 适用场景 |
|---|---|---|---|
| 关闭 | 原始 | 最快 | 快速预览 |
| CTC | 毫秒级 | 中等 | 专业字幕制作 |
❓ 常见问题
对齐速度很慢?
CTC 对齐需要一定计算资源。优化建议:
- 确保有足够的内存(建议 16GB+)
- 对于长视频,对齐会分段处理
对齐后时间轴反而不准确?
可能是源视频音频质量较差,或对齐模型没有针对该语言/口音进行优化。建议:
- 检查源视频音频质量
- 暂时关闭对齐功能,使用原始时间轴
- 加群(群号:1082480420)反馈,并提供视频样本和生成的字幕以供分析(如果方便的话)
提示对齐器版本过低?
使用 Omnilingual ASR CTC 300M 模型需要对齐器 v0.2.0 或更高版本。解决方法:
- 打开 设置 > 关于
- 点击「检查更新」,更新对齐器组件
- 如果仍然无法更新,可以暂时切换回旧版 MMS-300M 模型