作者 | 杨昌
编辑| 沙漠之影
你试过在15分钟内写3000字吗?
除了知识储备和灵感之外,编码速度对于一个作者来说也是重要的必杀技。 作为一名作者,剑飞最常用的码字神器就是讯飞输入法的语音输入功能。 他还尝试使用讯飞输入法每天更新15万个字符。
虽然输入法是人们使用手机、电脑等智能设备的必备工具,但当被问及最常使用哪个应用程序时,很少有人会想到它。
但随着越来越多的AI技术应用到输入法上,输入法逐渐从工具产品发展成为服务产品,并且变得更加贴心,比如讯飞输入法中的中英文混合输入功能, AI助手提供先进的AI校对、AI桶图等,为用户提供更加个性化、场景化的服务。
今年是讯飞输入法推出的第十一个年头。 每年都会升级讯飞输入法大版本。 11月3日,今年全新升级的输入法发布:讯飞输入法V11.0。 11代讯飞输入法有五大变化:AI语音升级、AI助手升级、AI键盘输入升级、AI表情升级、输入法App UI、App内社区改版。
具体来说,全新升级的讯飞输入法能够给用户带来什么样的不一样的输入体验,而这些升级背后,讯飞输入法又融入了哪些独特的AI能力呢?
为此,志东与科大讯飞输入法事业部总经理程坤进行了交谈。 在解构讯飞输入法5大新亮点的同时,进一步揭开了讯飞在AI赋能输入法方面的逻辑和思维。
1、语音输入的进化,应对中英文混合、街道喧闹的考验
近年来,随着语音识别等相关技术的发展,越来越多的用户开始使用并习惯语音输入的方式。 然而,与拼音输入和手写输入相比,语音输入仍然存在较大的局限性。 最大的局限性之一是容易受到周围环境的影响,比如噪音大、多人说话的嘈杂场合。 确保更好的识别效果是一个需要突破的技术难点。
成坤表示,讯飞自开始深度学习语音识别研究以来,一直在优化迭代其语音识别模型框架,从DNN到RNN到DFCNN再到-,不断提升语音识别的效果,从而保证了讯飞的语音输入输入法。 科大讯飞语音相关产品功能持续优化。
受人耳选择性听觉注意能力的启发,讯飞提出了复杂场景下前后端一体化的语音识别框架TFMA(end-end multi-ASR)框架,重构了原有的语音识别流程。
传统语音识别系统
传统的语音识别是首先通过声学模型对声音进行过滤以获得特征信号,并通过第一识别引擎将这些特征转换为发音信息等音素,然后结合语言模型将语音转换为文本。
在语音转文字的过程中,如果背景音中有多人同时说话,传统的语音识别系统没有办法过滤掉这么多的声音,进而影响准确率输入法的语音识别。
目前,讯飞已经在高效利用多路语音输入方面做出了一些创新。 例如,新发布的TFMA语音识别框架可以解决复杂场景下的语音识别问题。 该方案的技术创新点在于前端和后端联合建模和优化,形成一套自下而上和自上而下的流程。 信号处理的优势保证了系统的鲁棒性。
TFMA 语音识别框架
通过使用TFMA语音识别框架,包括讯飞输入法在内的讯飞软硬件产品都受益匪浅。 这些产品在高噪音、多人说话、小声说话等复杂场景下的语音识别能力再次得到提升,尤其是-10分贝到-15分贝等恶劣场景下的识别,从无法使用变为可用甚至可用便于使用。
程坤表示,除了复杂场景下的识别率提升之外,11代讯飞输入法在语音方面还有一个改进,可以识别更多语言。 讯飞输入法最新版本现已支持阿拉伯语、俄语、意大利语、英语等12种外语的语音输入和同声翻译。
成坤补充道,这种多语言和以往的方言语音输入法的实现,都依赖于讯飞的统一建模技术,将各种语言、方言的语料放到一个模型中进行训练。 训练过程 各种语料不拆解,训练完成后直接输出,这样即使用户的普通话不太标准
系统下载
,讯飞输入法也能保证良好的识别效果。
讯飞输入法具有语音翻译功能,例如中文输入法自动转换为德文文字输入
交流中,成坤表示,从输入法的整个发展历程来看,输入法可以分为两个阶段。 第一阶段是追求效率,可以定义为“1.0版本”。 如何让文字输入快速准确是一个问题。
因为疫情的影响,很多工作和沟通都转移到了线上。 事实上,语音转文字输入法,尤其是多语言输入功能,满足了人们在线交流时快速、准确的转录输入的需求。 。
2、如何让输入法更懂人:它既是宝箱,又是情感书写器
程昆补充道,随着互联网的发展和智能设备用户个性化需求的增加,输入方式也发生了变化。 解决这种个性化需求的输入法可以定义为“2.0版”,对应三类需求。
第一类需求是用户的个性化输入需求。 讯飞推出了AI助手功能来满足这一需求。 例如电脑上用的输入法软件?,有些人喜欢用图像来表达一些内容。 讯飞输入法具有将文字直接转换为图片的功能。 。
讯飞输入法AI图功能,输入文字时自动推荐图片
第二类个性化需求是很多人的投入是为了解决某一类问题。 讯飞还针对用户的此类需求,在输入法中内置了搜索,缩短了用户需求的实现路径。
成坤表示,这一功能的实现实际上是依靠讯飞最新的本地化意图识别引擎来分析用户的意图,然后为用户提供有针对性的服务。
讯飞输入法内置搜索功能
第三类是情感需求。 讯飞希望输入法的AI助手像一个真正的助手一样,能够主动为用户提供一些建议和服务,比如在社区论坛发帖的过程中向用户推荐文案。 在用户聊天时,为用户提供更丰富的表情,帮助校对错别字,一键点赞的时候帮助用户写作等等。
在这个过程中,会利用一些自然语言处理(NLP)技术在本地直接进行分词分析,感知用户想要表达的内容。 此外,本地化的NLP技术将为用户提供更好的体验和更安全的体验。
讯飞输入法AI发帖助手、AI聊天助手、AI好评助手功能
程坤还分享了讯飞输入法在AI助手方面的一些未来目标。 他表示,对于当前版本的讯飞输入法,可以定义为追求效率的“1.0版”到追求情感感知的“2.0版”。 由于是过渡,所以场景覆盖的不是那么全面。 讯飞首先选择用户社交、论坛、电商等一些用户使用频率较高的场景进行适配。 未来会逐渐拓展,比如直播场景、用户写作场景。 ETC。
而且,讯飞输入法未来想要提供的不仅仅是输入工具的功能,还要增加后续的服务环节。 像现在一样,你可以直接在讯飞输入法界面上进行搜索,无需跳出输入界面。 未来,你可能在购物时输入商品名称时,输入法会串联一个比价功能等等。
“事实上,讯飞输入法是整个讯飞产品中使用较多人工智能技术的产品。” 成坤表示,除了语音技术和AI助手之外,讯飞输入法的图像识别功能和随机手写输入功能还融入了讯飞自主研发的很多AI技术,可以识别手写体、印刷体、表格等。 ,还可以执行批改学生作业等多种功能。
讯飞输入法图像识别功能
3、输入法的未来在元宇宙?
除了提升输入法的AI能力外,讯飞还对输入法的界面进行了改版,11代讯飞输入法键盘整体变得更加圆润。
程坤提到,讯飞根据用户自身的特点,对某些页面进行了一些针对性的优化。
讯飞输入法App页面和键盘页面
输入法是人机交互的重要工具。 除了常用的手机、电脑之外,汽车、可穿戴设备等都会需要输入方式来完成操作。
比如汽车内置的输入法,用户对这类输入法的需求与使用手机时对输入法的需求是不同的。 提神醒脑等; 与其他设备相比,智能手表对输入方式的需求有所不同。 讯飞的语音输入功能将为智能手表等屏幕较小的智能设备带来更好的输入体验。
智能手表输入接口
谈到输入法的交互能力,成昆还分享了对输入法未来发展的一些见解。 输入法的文字输入功能可能只是其功能的一部分,未来输入法可能更像是一个助手的存在。
就像最近业界热议的虚拟世界一样,用户与虚拟世界的交互方式可能不仅仅使用如今常用的键盘或文字输入电脑上用的输入法软件?,而可能更像是人与人之间的语音对话。现实。 进行某种交互的形式。
除了语音交互之外,在元界这样的虚拟世界中,人们还需要使用图像来进行交互并识别交互的对方; 还有讯飞正在布局的虚拟形象,通过虚拟形象代表用户自己在虚拟世界中的一个身份,然后结合语音技术和图像技术来实现更好的交互。
科大讯飞推出的虚拟人机交互平台
结论:AI时代的输入法已经从快速准确转向个性化
随着输入法准确度和快速输入能力的提高,用户对输入的需求也越来越大。 考虑到各类用户不同场景的需求,科大讯飞提供针对性的输入解决方案,包括语音输入、图像输入、AI校对、AI助手等。
谈及讯飞输入法,成坤表示,目前大部分讯飞输入法用户都主动从移动应用市场下载安装讯飞输入法,因为讯飞充分考虑了用户的个性化需求。
如何利用AI更精准地匹配用户的个性化需求,或许是未来输入法领域竞争的重要点。