无比顺滑!告别TTS!贾扬清领衔的LeptonAI推出实时语音交互

科技有夕小瑶 2024-08-09 12:25:00

事到如今,各种AI助手满天飞,语音功能也不是什么稀罕物了。

“明天早上会不会下雨?” “导航去火车站” “帮我预订××餐厅的桌子”

语音功能极大地解放了我们的双手,但是他们普遍都有一个问题——响应慢。

我们手机上的Siri、小爱同学,问它问题,他需要花费几秒钟时间去检索;包括GPT4,切换到语音输出模式,还是有不小的延迟。

这样一来就显得有些卡顿,等待AI回复的过程像是过了几千年,让人恨不得把脑袋伸进手机里让AI快点。

不过,这一问题目前已经有大佬找到了解决办法。贾扬清创办的Lepton AI刚刚宣布,Lepton LLM API已经支持实时语音交互了!

▲Lepton AI在推特上“官宣”

贾佬本人也第一时间分享了这条好消息。

真的有这么顺滑吗?

我们可以看到,向AI提问问题之后,AI立即进行回答,几乎是秒回,而且还有不同音色任君选择。

根据测试,他们已经能做到让AI在在三百毫秒之内开始回答问题。

3.5研究测试:hujiaoai.cn4研究测试:askmanyai.cnClaude-3研究测试:hiclaude3.com

AI语音助手的老路子不行了

AI语音助手的传统老路子一般是这样的:

把问题往LLM(大语言模型)里一丢,等它回话,再让TTS(文本转语音)上阵,这一连串动作,听起来挺顺,实则很卡。

在这种模式下,跟AI聊天还得等它反应,那感觉就像给朋友发微信,结果他秒回了个“正在输入……”,然后你就这么干等着,急不急人?传统方法就是这样,每个步骤都得排队,结果就是“首次音频时间”(TTFA) 拖长,对话流畅度直接打折。

再来说说分块和缓冲。这简直是工程师们的噩梦。为了快那么一点点,系统得把长句子切成小块小块的,到时候还得把它们像玩拼图一样拼起来。但这拼图可不是随便拼的,时间差一丁点,不是这边话音未落那边又响起来了,就是句子讲到一半突然卡了壳,尴尬得能抠出三室一厅。

还有错误处理也是个大坑。文本和语音本来天生一对,结果被硬生生拆散了。

这下好了,万一哪边出了岔子,找起原因来就像大海捞针,用户体验?先放一边凉快吧。

还有人想了个馊主意,把长句子拆成小段,一个个往TTS里送,想着这样能快点。结果呢?协调起来比登天还难,同步稍有不慎,就是音频乱套、停顿尴尬。说好的流畅对话呢?最后还是让人直呼“带不动”。

Lepton AI实时交互背后的技术密码

告别老掉牙的传统技术,Lepton AI带着它的语音模式技术闪亮登场。

Lepton AI直接把LLM和TTS合二为一了。传统系统里,文本和音频排队等处理;到了这里,文本和语音并行处理,速度嘎嘎快,首次音频时间(TTFA)直接缩水到十分之一,自然无比顺滑。

除了减少延迟外,Lepton AI还引入了用于简化和优化内容处理的高级机制,能根据对话内容动态调整音频片段。这样一来,对话不仅连贯,还超级自然,停顿、中断?不存在的!用户体验直接拉满!

有的读者可能会问了,“哎呀你这个技术这么厉害怎么调用啊?”不用担心,这技术还超级百搭,跟那些开源的LLM模型都私下里串通好了。比如Llama3.1系列,无论是8B、70B还是405B,都能跟Lepton AI的语音模式无缝对接。这意味着开发者们可以随心所欲地挑选心仪的模型,再搭配上Lepton AI的语音黑科技,创造出既个性又高效的应用,享受“私人订制”服务。

怎么样,是不是很神奇?相信用不了多长时间,我们就都能享受到无比顺滑的语音交互体验。到那个时候,AI助手才真的称得上是我们身边的贴心助理(7×24小时随叫随到的那种)!

参考资料 [1]https://blog.lepton.ai/voice-mode-comes-to-lepton-llm-apis-a5ff3db8c7bf[2]https://twitter.com/jiayq/status/1820876489807872511[3]https://twitter.com/yadong_xie[4]https://x.com/LeptonAI/status/1820868523746312636

0 阅读:5

科技有夕小瑶

简介:感谢大家的关注