【艾瑞专访】龙梦竹: AI的“规模化”与“高可用”
2019年,思必驰实现了近3倍业绩增长,为2019年交了一份亮眼的答卷。
2020年是思必驰创建的第十三年。在过去的十三年间,公司以赋能终端为重点业务,在智能车载与家用智能终端领域打下基业。近两年,陆续切入企业智能信息服务市场、携手中芯聚源推出语音AI专用芯片,为完善全链路的对话式人工智能技术不断加码,将形成公司新的增长曲线。
4月初,在思必驰刚刚获得4.1亿元E轮融资后,首席营销官龙梦竹接受了艾瑞网的访问,共话智能语音的发展。
龙梦竹,思必驰首席营销官
平台化始终是信息技术行业追逐的终极商业模式,因为产品规模化才能带来企业体量上规模,但高度定制却是客户的现实需求。
对于思必驰而言,把“规模化”与“高可用”两个看似难以调和的对立面统一、融合起来,真正把高可用定制能力交给客户,是智能语音在终端业务发展的核心命题。
企业的战略思考,源于产业的宏观背景。
我国信息技术行业已历经数十年发展,2018年产值超6万亿元,是2000年的100倍,多年来,平台化一直是信息技术行业的发展热点。一方面,聚合多样化、多层级服务能力的平台经济创造了新兴经济和新商业模式,另一方面,平台所提供的标准化/半标准化产品通过将研发中基础环节与模块规模复制,降低流程成本和项目交付中研究人员的时间成本,实现了一定程度的规模经济。具体而言,互联网的发展推出了大平台的概念,而云计算本身就具有明显的平台化、标准化/半标准化服务的特征,其快速发展是信息技术行业平台化发展的一大信号,物联网产业近年的发展也以平台与连接层为重心。
云计算是虚拟化和分布式的技术体系统总称,能够随需应变地从可配置计算资源共享池中获取各类资源。云计算本身就具有明显的平台化、标准化/半标准化服务的特征,其快速发展是信息技术行业平台化发展的一大信号。
物联网是将各种信息传感设备与互联网结合起来而形成的一个巨大网络,2019年物联网平台与连接层融资事件占行业一半以上。
然而,人工智能的平台化之路却并非十分顺利。
在人工智能领域,过去四年,AI平台也是使人工智能走进大众视野的先锋,百度AI开放平台、Face++、讯飞开放平台等使AI明星企业迅速得到广泛认知,但与AI平台聚拢大量开发者、快速推动行业普及形成鲜明对比的是,从商业视角来看,平台化标准服务模式产生的收入量级还是大幅低于定制解决方案模式产生的收入,艾瑞统计的2019年企业级与公共级服务市场中国智能语音市场规模中,平台化输出仅占30%(因消费终端品类繁多、统计口径复杂,未包含在内,以企业级与公共级服务市场数据供读者参考)。高度定制仍然是客户的现实需求,这一矛盾成为众多AI公司发展中面临的问题。
思必驰敏锐地抓住了矛盾中蕴藏的机会。龙梦竹谈到,近年公司发展进入超高速阶段,面临着定制项目接不过来的问题。思必驰给出的解决办法是:把前台的定制交由客户做,自己做好后台服务,扩大能够支持的客户范围,提高项目快速交付的能力。2017年7月,思必驰以对话为核心,自主研发了全链路智能对话定制平台DUI,为开发者提供高可用定制的人机对话技术服务,为智能终端开发者提供核心交互能力,协助传统设备实现智能升级。DUI平台的成功有两个要素:
(1)全链路的智能对话技术。DUI平台囊括的技术能力,包括算法降噪、回声消除、语音识别、语音合成、声纹识别、自然语言理解、智能交互决策、知识图谱、对话管理等全链路智能语音语言技术服务,能够覆盖的场景也涵盖从近场到远场交互、从有屏到无屏的多版本开发套件。这样一来,从信号处理到对话管理等全链路对话技术与开发件就形成了随插即用的模块,使DUI平台用户除能够常规地定制唤醒词、合成音外,还能对产品每一轮交互逻辑、知识图谱、产品技能、图形用户界面做深度定制。
(2)能够提供芯片级一站式方案(Turnkey)。语音AI芯片,是思必驰在打通“全链路”链条上的最后一环。过去,家用智能终端对交互没那么高要求,也就不太需要芯片级的交互体验;而近几年,家用智能终端的交互场景越来越高频,传统上采用主控芯片+AI加速器的方案会造成设备功耗很高、不符合绿色能源要求,用户体验也不够好,这些问题需要专用AI芯片来解决,与此同时,搭载一颗AI芯片也能够节约一定的定制开发费和技术授权费,产品更容易标准化,也容易解决在规模化前提下实现高度定制的问题。
思必驰产品方案简介
成功并非一蹴而就,事实上过去在开发平台方面,思必驰也曾走过一段弯路。2014年,思必驰上线了国内最早的对话智能云平台——对话工厂,但这一时期的对话工厂是一个免费的开放性平台,很难针对开发者面临的各种各样复杂环境提供其需要的技术,在“落地”上踩了坑,后来2015年上线的AIOS端云一体化对话AI操作系统已经能够对终端交互的功能和场景特点做整合、提供中间件,能够较快地调用组合成产品方案,但还没有真正把高可用定制能力交给客户,做到技术能力针对各不同场景的自由组合搭配。于是两年后,DUI平台整装上线,之前积累的数年经验,也成为思必驰能够领先一步、完成AI“规模化”与“高可用”对立统一的财富。
能不能应对不同场景下复杂的端到端口语交互需求,是对话式AI的试金石。
龙梦竹将人机交互划分为四类。
任务型对话,一般是多轮对话,而且需要后台内容支撑与复杂任务处理的能力,如订票就是一个典型的任务型对话场景,背后涉及的技术和数据十分复杂,比同样多轮的“闲聊型AI”支持更复杂的深度语义,同时要求能对具体场景和上下文做出合适的判断,最终以满足用户的真实需求来作为交互成功的标准。
龙梦竹介绍,这四种当前主流的人机对话类型,都属于被动的理解用户意图。尤其在以信息交流为目的的问答式AI方面,多采用“一问一答”的模式。而现在的咨询沟通的难点是,用户只关注单点信息,不知道还有很多未知但又重要的连锁信息,比如办理一项业务时,用户可能一时间只能想到要询问手续费金额,这时就需要机器人去启发用户去关心都需要准备哪些材料、需要提交的时点等。
思必驰针对企业智能信息服务所需要的任务型对话,研发了基于生成式模型的启发式对话技术,推出了会话精灵(Talking Genie)企业智能服务的定制平台,提供智能客服(呼叫中心)及知识机器人等。通过启发式对话技术和复杂结构知识管理技术,会话精灵通过启发式对话适当引导用户关注焦点,把它认为有效的信息都通过反问和引导的方式传递给用户,帮助用户获取更清晰准确的信息,用于营销、内部培训等知识沟通交互情况时,有很好的实践效果。2019年,顺丰、重庆农村商业银行、碧桂园等各行各业的头部企业已经开始推行使用。
会话精灵对话案例
思必驰企业智能服务系统架构
在适配多种用户场景时,支持“全双工”架构的语音交互技术为用户使用体验增添了一重保障,龙梦竹认为,特定单一场景下的全双工语音还不够智能,比如AI只能在音乐播放功能上实现语义打断、多轮交互选择音乐,是无法满足实际场景中用户的交叉需求的,思必驰已经能够实现跨领域的全双工,比如在语音选择音乐播放过程中,可随时岔开话题进行语音订票、询问去外地出差的注意事项。能不能应对复杂的查询需求,是AI人机交互产品需要关注的重点。
厚积方能薄发,长期对技术的专注是思必驰能够通过全链路语音技术、芯片模组实现规模化高度定制的法门,也是其人机交互产品能够越众而出的基础。未来,思必驰依然将在人性化的语音交互技术上继续深挖,围绕 “云+芯”重点布局,聚焦智能终端和企业智能对话服务,打造极致体验的交互产品。