【艾瑞专访】搜狗王砚峰:未来人人都会需要AI录音笔
“搜狗公司的使命是让表达和获取信息更简单,而信息表达和获取的核心载体是语言,我们在AI上也是围绕语言这个核心去展开”。搜狗AI交互事业部总经理王砚峰向艾瑞网介绍了搜狗对于人工智能的定位。
作为一家起家于搜索业务的互联网公司,在原有核心业务保持快速增长的同时,搜狗公司AI技术也在不断突破:语音识别技术升级,搜狗目前可支持识别英日韩法西俄等十余种外语和粤语、四川话等多种方言识别,语音识别准确率达到98%,准确率和响应速度均为行业领头者,在语音输入与语音转写、会场同传、语音采访等多个场景可取得良好的落地效果;多模态识别技术领跑业内,通过对用户唇形、语音、表情的多维输入视频即可将视频内的语音更准确地转写为文字,极大地提升了噪声环境下语音识别效果;语音合成技术持续加码,基于多目标学习、表现力迁移的AI分身、用户“变声”、个性化TTS等都在业界具有先发优势,表现抢眼。
谈到未来搜狗对AI交互的发展规划,王砚峰认为,语音输入法还是要做好,巩固输入法产品的地位;会围绕AI交互这个赛道,推出更多自有品牌的智能硬件,而在终端赋能方面,要让硬件与搜狗输入法、C端数据打通,让搜狗走出提供技术来提供服务。
王砚峰,搜狗AI交互事业部总经理。负责搜狗语音、视觉、NLP等技术的研发及应用,以及基于AI技术的产品创新和行业服务。
从输入法进军智能语音
艾瑞网:首先请您介绍一下,搜狗AI交互的起点是什么产品?
王砚峰:搜狗的AI交互起源于输入法,语音输入是输入法的一个核心功能,搜狗智能语音发展也受益于输入法的大量用户数据与行为数据。
搜狗输入法语音输入功能于11年开始研发,12年面世,13年上线了深度神经网络。
谈及搜狗输入法“刷新”AI交互技能的原因,核心有三点:(1)语音输入提升了用户传递信息的效率,相比打字输入体验更好、更快捷;(2)语音转化场景如翻译场景下,智能语音为用户提供了一个提供方便的入口,当用户说完一条语音信息,相应的译文就已经准备好可以直接发送了,减少了反复的手动操作,搜狗现在已经做到了中英日韩四种对话语音随心译;(3)语言除了是传递信息的工具,也是人们表达自我的一种手段,AI能够帮助输入法产品去做用户个性化的表达。
搜狗输入法作为头部的输入法产品,在这三个方向上都跑得很快。语音输入,传统上是非个性、面向所有用户都一样的语音转文字,2019年我们上线了跟用户词库和语音识别引擎打通的“个性化语音识别”,使用户常用语识别错误率相对下降近40%,比如用户工作场景相关的内容识别率会更高,免去了手动修改的麻烦,这个功能的使用频率很高,甚至使我们搜狗输入法产品的账户登录比例提高10%以上。在语言个性化表达方面,我们2019年推出了变声功能,能够将用户的声音转换成特定人的声音,语速、停顿、情感等说话习惯均可被转换为超高逼真度的指定角色声音;而除了语音类的个性化表达,AI助手“智能汪仔”能够在各种聊天场景中理解用户输入的文字信息,从而为用户推荐丰富多样的表情包和回复的“妙语替换”。
搜狗输入法个性化语音识别
艾瑞网:AI交互是否已经成为了输入法用户的常用功能?AI本身,又能够为输入法产品的商业化提供什么样的想象呢?
王砚峰:没错,用户的使用已经非常高频。截至2019年9月底,搜狗输入法日均语音请求较一年前增长67%,峰值达8.3亿次。目前输入法都是免费产品,未来会做一些增值服务,例如可能在变声上结合大IP来进行增值服务收费。
智能语音的赛道里,不做终端设备是很难出头的
艾瑞网:现阶段智能语音相关的生态当中,有设备、开发平台、标准化的SaaS服务平台、音频内容等等,您怎样看待智能语音的开放性开发平台,这会是一种在技术落地应用和商业变现上能够跑通的模式吗?
王砚峰:搜狗也很早就布局了开放平台,2015年至2016年的时候我们开始通过平台向外输出AI能力,也积累了很多很多的开发者和合作伙伴。不过,对于开放平台而言,找商业模式其实是一个重点。当时,搜狗合作了小米、创维、魅族等头部厂商,但没有基于“开放”探索出好的商业模式。而目前看开放平台只是会相对更容易的降低和行业合作的门槛,更容易的把行业用户引过来,但是建立好的商业模式,还是需要进一步针对行业深耕,尤其是针对传统行业,不仅需要领先的技术,同时也需要针对这个行业下客户的痛点,推出他们更需要的SaaS产品或解决方案,做到更好的服务行业客户,才能形成好的商业落地。
艾瑞网:搜狗目前定位在哪类智能设备?从互联网企业开始投入做硬件,有什么基础,攻坚了哪些问题?
王砚峰:自有品牌的硬件大体上是选便携、随身的品类。目前,我们已经发布了翻译机、录音笔等,未来会做耳机,以解决人在商务生活方面的一些问题。在这些产品上搜狗主打AI能力,帮用户通过AI能力做之前自己无法做到的事情或者需要耗费大量精力的事情。2019年我们的搜狗AI录音笔C1上市,首发当日销量就突破了2万台,说明这件事情是有价值、有市场的,未来人人都会需要一个录音笔,用AI能力做信息的记录。通过搜狗自己的硬件,用户的反馈可以被深度优化打磨,这也为我们在录音转文字这个方向下,沉淀出了行业最领先的核心技术和服务。
过去搜狗研发的糖猫儿童手表为搜狗的AI硬件积累了一些硬件研发、供应链和产品设计的基础,而我们为了现在的翻译机、录音笔在实际场景中的应用,又打磨了从声学信号处理到识别算法的一系列技术。2019年,搜狗自研的Smart Voice麦克风阵列算法更进一步,可对噪声和混响进行多重深度优化,确保人声的高保真还原;我们还把语音转写中切分说话人的技术做进产品,这在业内是首家,双人识别已有90%准确率;同时我们通过研发和数据解决了远场语音转写中声源远近、连读、发音模糊等问题,使录音笔离线转写效果明显高于竞品,在真实场景中达到了可用。通过这些针对场景的技术打磨,你会发现搜狗目前在录音笔行业上,无论是核心的语音转文字能力,还是围绕语音本身的功能创新,都是行业中最领先的。近期,我们还将通过深度学习跨越过去通过阵列技术+传感器优化的方式进一步做好降噪,即上线AI去背景声、人耳听感优化,这会使录音笔在高频场景——采访中的使用效果更好。
听写服务中台化,增值服务模式相对跑通
艾瑞网:对于互联网公司和AI公司来说,终端硬件的销售都不是最终的目的。但我们关注到,类似于智能音箱等聊天交互设备还没能跑通增值服务这件事,在搜狗扎根的便携式功能性设备上,是否有所不同?
王砚峰:搜狗目前基于语音转写在构建C端增值服务能力,录音笔产品+增值服务这种模式已经相对跑通。2019年8月,基于在录音笔产品背后构建的AI服务体系,我们推出了搜狗听写服务,并已经与索尼、爱国者合作,探索 “技术输出-终端产品-用户增值服务付费”这种打法。在这种模式中,合作伙伴只需要做硬件,不需要考虑软件和用户体系,搜狗会面向最终使用者提供完整服务,搜狗开放的不光是背后的AI技术,而是完整的服务,用户是搜狗和设备商共有的。例如爱国者的录音笔用户安装的是搜狗录音助手的App,如果用户在App中进行增值服务付费,合作伙伴也能得到收益分成。现在搜狗录音笔的转写服务可以免费提供,但例如转写速度加快、存储增容等等都可能变成增值服务变现的方式,现在也已经有用户会付费。
To B的开拓一定要充分结合搜狗在行业上的技术优势
艾瑞网:目前搜狗的AI业务矩阵是否覆盖了G端、B端的传统行业?
王砚峰:对于搜狗来说,我们在非消费级市场希望着眼的领域也是搜狗有充分的竞争能力能搞定痛点、有充分技术优势的行业。
比如我们当前在非消费级市场推出的搜狗分身和搜狗同传服务。
在AI虚拟人这个领域,搜狗通过推出“搜狗分身”技术,有很大的先发优势。拿广电行业来说,广电的本质是做内容的生产,通过AI分身,新闻稿件可以直接生成语音,由虚拟的合成主播进行播报。我们和新华社合作的AI合成主播目前已播报新闻6500余条,累积时长超过15000分钟,可以24小时不间断的待命,以应对突发的新闻需求,这就可以节省很多人力。搜狗AI合成主播是2018年发布的,2019年已经升级到第四次迭代,基于AI分身技术的突破能够实现站播,姿态和动作都更自然。AI分身还可以应用于金融领域,成为虚拟柜员;应用于司法领域,成为引导用户完成线上司法诉求的虚拟法官,既权威又形象;还可用于峰会主持、培训讲座等等……
搜狗公司与新华社新媒体中心联合发布的全球首个站立式AI合成主播
搜狗的AI同传服务始于2016年第三届世界互联网大会,当时第一次把已有的语音技术和基于神经网络的实时机器翻译技术结合在一起,进行现场AI同传,至今AI同传已服务数百场会议。
艾瑞网:非消费级领域的业务,会以行业解决方案形式还是以SaaS形式提供服务?
王砚峰:在提供服务的方式上,我们会提供标准化SaaS形式提供AI分身等应用,中小客户,能直接利用搜狗的SaaS平台获取服务。而面向行业中的大客户,我们也会提供整套行业解决方案。
自2012年AI语音功能登录输入法至今,搜狗的AI交互已经走过了八年,形成了主打语言AI的鲜明特色。从自身最熟悉的互联网领域,到以产品+模式创新者姿态加入的硬件终端,和以引领者身份领路前行的AI分身,持续的自我刷新也使科技真正成为了搜狗企业活力延伸拓展、生生不息的导体。