先至10亿次赛点,百度输入法语音输入的技术以人为本

邻章 2020-03-12 20:43:11

文|邻章

从手写输入、字根五笔输入到拼音输入,输入法输入方式的进步,不仅推动着行业效率的提升,同时也让输入法拥有了更为广泛的用户基础。正是在不断提升输入效率与增大用户覆盖度的初衷下,输入法行业事实上也一直在探寻着更为先进的输入方式,在此,具备人类自然习惯特征的语音输入已然成为各大输入法发力的重点。

如我们所见,当前国内主流的百度输入法、搜狗输入法、讯飞输入法等早已在语音输入上竞相发力,试图在推动AI技术落地的同时抢占未来交互方式,创造新的可能性。而从目前各家在语音输入的进度来看,百度输入法正先于搜狗输入法和讯飞输入法来到第一个赛点,率先达成日均语音输入请求量突破10亿次的“小目标”——近日,百度输入法对外宣布:自2020年1月25日春节假期以来,百度输入法日均语音请求量已破10亿次,创行业历史新高。

日均请求量破10亿次,语音输入的第一个赛点

随着智能语音技术的发展和语音输入功能的不断创新,让语音输入在不同语种、口音、场景下的使用门槛得以大幅降低,而也由此让用户使用率在一定程度上得到了提升。但从现实来说,在过往很长一段时间内,用户在输入法中使用语音输入的日均请求量却一直未能突破10亿次,最好的数据也仅为8亿多次。此番百度输入法的日均语音请求量直接突破10亿次大关,对语音输入来说显然是一次重大跃升,特别是考虑到当下整体智能手机市场进入存量期的现实,对于整个行业而言,都可以说是一次提振。这也是为何日均语音请求量突破10亿次可看作是语音输入的第一个赛点的原因所在——它代表了用户对语音输入这一新输入方式的接受度达到了一个新的维度,意味着语音输入已经具备了相对广泛的用户基础,用户使用语音输入的习惯正在逐步形成。

若以艾媒咨询发布的《2019上半年中国第三方手机输入法专题研究报告》中提到的百度输入法2.71亿语音输入用户为基数来测算,那么当下百度输入法日均语音请求量突破10亿次大关则意味着用户的输入频率已接近3.7次/日。

当然,这只是一个平均数,在现实用户中肯定存在使用语音输入高频与低频的区别,但这仍足以说明使用语音输入的习惯在相当多的用户中已然开始形成。而这为语音输入走进下一个赛点,达成百亿、千亿日均请求量,直至成为与当前拼音输入一样自然普遍的输入方式打下了坚实基础。

先至赛点,技术以人为本的回报

在此,问题也随之而来,同在语音输入赛道,为何百度输入法语音输入能先至赛点,领跑行业?在个人看来,这或是百度输入法语音输入践行技术以人为本而得到的用户回馈。

从现实来说,输入法作为一款极具高频特征的工具型应用,用户衡量这款工具与其功能的核心指标自然也会落脚到这款产品的功能与体验上。而从现实来说,百度输入法日均语音请求量率先突破10亿次大关,其实足以说明用户对百度输入法语音输入功能的认可。事实上,在艾媒咨询发布的《2019中国第三方手机输入法市场年度专题研究报告》中,我们也看到百度输入法语音输入在准确率、用户满意度上均位列行业第一。

但也众所周知的是,不同于字根输入或是拼音输入相对直接的反馈,语音输入虽然从用户角度来看是更为自然便捷的输入方式,但是对于输入法而言,其要将用户说出的语音快速而又准确无误的转化为文字,事实上是一件颇具难度的事情,特别是考虑到人类语音的多样性以及独特的地域性特征。而这也使得语音识别涉及了诸如信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能乃至人的体态语言等多领域。显然这也将大大考验输入法厂商的技术能力。

在此,百度输入法语音输入能在准确率、用户满意度上均获行业第一,与百度世界领先的语音技术带来的技术支撑自是密不可分。事实上百度输入法凝聚了百度深耕多年的语音、图像、NLP和知识图谱等AI能力。诸如:

1、离线在线,语音识别高精准度不变

对于语音输入而言,能够快速准确的识别用户所言是其被用户反复使用的基础。若是用户在使用过程中,三番五次不能准确识别,用户对其的使用欲望必会大大降低。但要达成对用户语音的快速识别,则需要语音识别这一让机器通过识别和理解把语音信号转变为相应文本或命令的核心技术做支撑。而这正是百度的拿手好戏,自2012年就开始在语音识别领域大手笔投入的百度,可以说正引领语音识别技术浪潮。最新的一例是在2019年,百度为进一步提升用户在语音输入时语音识别准确率,其将流式截断多层注意力建模(SMLTA)用于百度输入法中——这是全世界范围内第一次基于Attention技术的在线语音识别服务的大规模上线。

领先的技术优势当然也带来了领先行业的效果。数据显示:SMLTA技术将百度输入法在线语音相对准确率提升15%,超越行业最优竞品15%。同时,百度输入法也将SMLTA技术应用于离线状态下,用以解决过往用户在地铁、电梯、隧道或人流密集等离线场景中遭遇的语音识别不畅的痛点。从结果来看,SMLTA技术让百度输入法语音输入在离线状态下的识别精度达到了在线语音同样水平,与行业对手相比,当下百度输入法离线语音输入准确率已高于行业平均水平35%。

正是基于百度在语音识别领域的多年深耕,将SMLTA技术这种领先于行业的技术运用于百度输入法中,也让百度输入法语音输入无论是在线还是离线状态,都能大大领先于竞争对手,为用户带来高识别精度体验,而这也为百度输入法语音输入获得行业第一的准确度以及满意度打下了坚实的基础。

2、无惧乡音,让方言自由说

如前所述,人类的言语具备多样性以及独特的地域性特征,使得当下我国的通用语言虽然是普通话,但在人们的日常交流中则是使用方言居多,而据教育部2019年文献《中国语言文字概况》介绍,汉语方言可分为官话方言、晋方言、吴方言、徽方言、闽方言、粤方言、客家方言、赣方言、湘方言、平话土话十大方言,并且在这些复杂的方言区内,还可以再分列为若干个方言片(又称为次方言)甚至“方言小片”乃至明确到一个个地点(某市、某县、某镇、某村)的地方方言,如四川话、重庆话、广州话等。

方言众多的现实,无疑是加大了语言识别的难度,但从处于方言区的用户角度来看,却是乡音自由流露要比使用普通话自然得多。而这也需要语音输入产品从用户角度出发,研发出契合不同语言区用户的使用习惯,让他们说方言也能够使用语音输入功能,而不是逼迫不同方言区的用户统一使用普通话这一种语音输入方式。

在此,我们看到百度输入法为此上线了“方言自由说”——其通过技术优化,将普通话和六大方言融合成一个语音识别模型,实现了方言与方言、方言与普通话的混合语音输入,而无需用户首先选择一种“方言识别”、来回切换。

3.不分中外,让中英自由说

随着对外交流的不断加深,新语态的不断涌现,在诸多行业中,中英文混说已成为一种常态。但对于输入法语音输入而言这却成为了新的难题,是颇具难度的存在,以至于在很长一段时间里各家语音输入都只能实现一些简单英文单词的中英混输,并且还会影响到中文识别准确率。

面对现实存在的用户需求与实现中英文混说的技术难点,百度输入法却推出了「中英自由说」,实现了在完全不影响中文语音输入准确率的情况下,高精准的中英文混合语音输入,成为了当前唯一实现高精准中英文混合语音输入的输入法产品。而其实现方式其实与通过实现方言自由说的训练方式有着相似的逻辑——在语音识别算法SMLTA技术支撑下,百度输入法通过对中文音节和英文音素混合建模,并基于海量纯中文、纯英文和中英文三类大数据进行模型训练,再将纯中文、纯英文和中英文三类语言模型并行解码,融合标点和大小写进行处理。

上述只是百度输入法将诸多AI技术无声的融入产品,切实提升用户使用体验,想用户之所想,满足不同用户需求的冰山一角。而在我看来,这倒也生动诠释了科技以人为本、技术为更好的含义。在此之外,事实上基于NLP、图像识别、AR等技术,百度输入法还推出了NLP整句预测、AI斗图、神句配图、皮肤主体C位识别等AI功能,成为业内首家实现多场景整句智能预测的输入法产品,在大大提升输入效率的同时更提升了输入法产品的可玩性。

这种将技术无声融入产品,为用户切实带来体验提升,用户自然也会为之投票,所以用户选择百度输入法,高频使用百度输入法语音输入,使其日均请求量率先达到10亿次赛点,自是水到渠成。

语音输入,让输入无处不在

事实上,从行业来看,AI加持的语音输入也正在成为引领未来的输入新方式。

其实早在2016年,互联网女皇玛丽·米克尔就在其《互联网趋势》(Internet Trends)报告中预判:“语音正在被重塑,成为人机交互的新范式。在过去75年里,每10年就有一次人机交互的重大革新。人类对机器的操作,从物理手柄按键,到物理键盘鼠标,再到触摸屏,而现在语音成为了重要的交互方式。”

当下百度输入法、搜狗输入法、讯飞输入法等积极将AI技术与输入法相结合,在语音输入这种更具普惠与自然性的输入方式上探索深耕,无疑也是试图在新旧交互交替之际,抢先拿到语音交互这一人机交互新范式,进而让输入法产品突破当前产品的桎梏,走入更为广阔的IoT设备中,让语音输入这种更自然、高效的输入模式更加的无处不在。

诚如百度CTO王海峰在2019年百度输入法“AI·新输入全感官输入2.0”发布会上所言:输入法是离用户最近的产品之一,也是AI落地的“桥头堡”,未来的输入法更将应用于各种智能设备与用户的交互,连通包括智能家居、车联网等多种终端场景。

若是考虑到当前的输入法产品事实上已经嫁接起了许多应用,形成了输入法内应用直达的现实,那么在新基建时代,输入法其实更具备成为超级入口的潜力。

而从这个层面来说,百度输入法语音输入日均请求量率先突破10亿次,就更具意义了——在进一步引领行业探索语音输入这种未来输入方式信息的同时,也或将助力百度在新基建时代抢先把握住这一超级入口。

0 阅读:12

邻章

简介:于此,见证科技互联网大时代。