MioSub Docs

时间轴强制对齐

使用 CTC 强制对齐获得毫秒级精准时间戳

v3.0 新特性

v3.0 版本内置了全新的 CTC 对齐器,无需额外下载执行文件,开箱即用!

使用强制对齐模型来获得更高精度的字符级时间戳,适合对时间轴精度有高要求的场景。


⚡ 快速启用(v3.0+)

v3.0 版本已内置 CTC 对齐器,只需:

  1. 打开 设置 > 增强 > 时间轴对齐
  2. 对齐模式 设置为「CTC」
  3. 下载对齐模型
  4. 将CTC 对齐器配置中模型目录设置为模型的路径(文件夹)

模型下载链接

Omnilingual ASR CTC 300M(推荐,1600+ 语言,Apache 2.0 许可证)

Hugging Face

HF Mirror(国内用户)

请下载 model.int8.onnxtokens.txt 两个文件,放置在同一文件夹内,然后在设置中选择该文件夹。

⚠️ Omnilingual 模型需要对齐器 v0.2.0 或更高版本。可在「设置 > 关于」查看当前版本,通过「检查更新」进行更新。

旧模型:MMS-300M(不推荐)

Hugging Face

HF Mirror(国内用户)

请下载全部四个文件后,放置在同一文件夹内,然后在设置中选择该文件夹。此模型无对齐器版本要求。


🎯 工作原理

基于 CTC (Connectionist Temporal Classification) 技术的高精度时间轴对齐:

  • 毫秒级精度: 支持字符级时间戳对齐
  • 自动修正: 修正 Whisper 转录的时间偏差
  • 多语言支持: 支持中文、英语、日语等多种语言
  • GPU 加速: 支持 ONNX Runtime GPU 加速(如果可用)

对齐模式对比

模式精度速度适用场景
关闭原始最快快速预览
CTC毫秒级中等专业字幕制作

❓ 常见问题

对齐速度很慢?

CTC 对齐需要一定计算资源。优化建议:

  1. 确保有足够的内存(建议 16GB+)
  2. 对于长视频,对齐会分段处理

对齐后时间轴反而不准确?

可能是源视频音频质量较差,或对齐模型没有针对该语言/口音进行优化。建议:

  1. 检查源视频音频质量
  2. 暂时关闭对齐功能,使用原始时间轴
  3. 加群(群号:1082480420)反馈,并提供视频样本和生成的字幕以供分析(如果方便的话)

提示对齐器版本过低?

使用 Omnilingual ASR CTC 300M 模型需要对齐器 v0.2.0 或更高版本。解决方法:

  1. 打开 设置 > 关于
  2. 点击「检查更新」,更新对齐器组件
  3. 如果仍然无法更新,可以暂时切换回旧版 MMS-300M 模型

On this page