一飞开源,介绍创意、新奇、有趣、实用的开源应用、系统、软件、硬件及技术,一个探索、发现、分享、使用与互动交流的开源技术社区平台。致力于打造活力开源社区,共建开源新生态!
一、开源项目简介Video(Audio) Translation by AIo3sky-VTAI V0.0.2全自动视频翻译 项目!该项目旨在提供一个简单易用的自动识别、翻译工具和其他视频辅助工具,帮助快速识别视频字幕、翻译字幕。
本项目开源可魔改,感谢支持!请勿在任何平台收费项目源码!
二、开源协议使用MIT开源协议
三、界面展示项目界面预览1.首页首页里面有个功能说明和 系统模型设置,打开设置,这里面我们列举了 模型配置、预置提示词、本地缓存 等相关设置
模型配置在模型配置里面我们可以设置本地模型以及其他第三方模型。
本地设置,点击修改配置
我们可以看到配置有3个参数
API 地址,这里填写本地访问的模型URL,URL请求地址兼容openAI标准接口,默认情况不需要修改即可 http://127.0.0.1:8000/v1
API密钥, 这里随便填写。因为我们使用本地模型,所以不需要key 可以保持默认即可。
模型名称,这里填写模型在服务端部署模型路径,我们使用了书生浦语 internlm2_5-7b-chat模型。默认/data/model/internlm2_5-7b-chat ,也可以默认不需要修改。
以上配置完成后本地模型配置就完成设置了。
其他第三方模型配置,东西比较类似我们这里以硅基智能为案例给大家介绍
点击修改配置
API 地址,这里默认已经填写好硅基智能模型接口地址,默认是不需要修改的。
API密钥,这里填写硅基智能第三方模型厂商提供的api秘钥。关于硅基智能模型申请可以访问硅基智能官网注册申请,目前该网站提供部分7B左右的小模型给大家测试使用,目前是免费使用的。可以放这个地址了解他们模型收费情况
预置提示词这里主要是使用翻译功能所以将翻译的提示词预设模式实现配置,默认提供2种翻译预设提示词
本地缓存这里主要记录视频、字幕、音频等上传临时存储的信息。大家根据自己的需要保留和删除。
2.功能模块这里是该系统主要功能区域,主要有3个功能模块。媒体识别、内容助手、字幕翻译 3个功能。
2.1媒体识别参数设置识别设置这块我们使用本地SenseVoiceSmall模型音视频转文本模型,本地模型选择smalll模型(这个模型只有一个小模型开源)
翻译引擎
这里我们选择本地模型,当然你也可以根据自己的需要设置第三方LLM语言模型
下面的可以默认即可。
音频识别功能 本功能可以通过上传音视频文件,通过FFmpeg 对音视频进行处理,提取音视频内容信息,然后后端自动调用本地LLM模型或者第三方模型实现语言翻译功能。
等待文件上传后,我们点击右边窗体中“音视频识别”
视频识别 本功能可以通过上传视频文件,通过FFmpeg 对视频进行处理,提取视频内容信息,然后后端自动调用本地LLM模型或者第三方模型实现语言翻译功,将翻译的文字在使用FFmpeg进行合成这样就可以实现无字幕视频打上有字幕视频,单语言视频转换成双语视频,自动配置字幕功能了。
上传视频文件后,点击一键生成视频功能。后端程序对视频做视频处理,提取视频内容信息然后调用后端本地LLM模型或者使用第三方LLM模型将视频内容转换成文本,然后将转换文字在使用FFmpeg进行视频合成,这样一下就能转换成翻译后的视频了。(包含单字幕,双语字幕)
也可以分开实现,第一步生成字幕,然后调整生成的字幕在点击 合成字幕这样做出的字幕合成视频将更加友好。
先生成字幕,然后更加内容可以手工调整。
2.2内容助手 内容助手主要功能是用户通过上传音视频文件,后端程序使用FFmpeg 对音视频进行处理,提取音视频内容信息。然后使用本地LLM模型或者使用第三方LLM模型进行总结归纳 推理等功能。
参数设置 这里我们使用SenseVoiceSmall模型音视频转文本模型。
SenseVoice模式 我们选择SenseVoiceSmall模型。
本地模型配置,我们从下拉列表中选择SenseVoiceSmall模型.其他可以保持默认,以上设置完成后点击保存参数设置。
内容问答 这里面我们可以对上传的音视频文件进行解析,然后通过LLM大模型对识别的内容进行总结和推理。比如您参加一次培训课程,通过录音笔记录了培训的内容。我们就可以使用该功能实现音视频转录+音视频内容总结提炼等功能了。相当于阿里通义听悟功能(哈哈,当然是山寨版的)
第一步,音频视频文件上传,参考上面步骤
第二步,点击开始识别。这个时候后端程序会使用ffmpeg对视频文件进行处理,处理后调用SenseVoiceSmall模型音视频转文本模型,将音视频文件转换成文本内容。
视频解析完成后,我们就可以通过文本输入框使用llm语言模型进行推理了。
2.3字幕翻译 点击字幕翻译,左小角有个SRT上传器,这里主要是通过上传字幕文件srt文件上传后,然后通过本地模型或则第三方LLM模型实现字幕自动翻译
四、功能概述项目亮点支持 OpenAI API 和 Faster-Whisper、Open-Whisper、SenseVoiceSmall 识别后端。支持 GPU 加速、VAD辅助、FFmpeg加速。支持 本地部署模型、ChatGPT、KIMI、DeepSeek、ChatGLM、Claude等多种引擎翻译。支持识别、翻译 多种语言 和 多种文件格式 。支持对 一键生成、字幕微调、视频预览。支持对内容直接进行 AI总结、问答。五、技术选型技术架构部署架构图本系统部署在云平台上,需要支持GPU或类似GPU加速推理的显卡等硬件资源支持,详细部署图见下图。
技术栈硬件: 显卡:
英伟达GPU 3060、4060、4070、4080、4090、A100、V100 、A800
天数智芯BI-V100
CPU:12核心
内存:32GB
存储:60GB
操作系统:Linux、widows
开发语言:python
主要依赖包:torch、torchaudio 、vllm(Linux平台)、streamlit、transformers、funasr
如何安装更多内容请查看 README.md 文档
六、源码地址访问一飞开源:https://code.exmay.com/