语音界传奇Dan Povey出任爱数智慧首席科学家顾问
近日,语音识别开源工具Kaldi之父,Dan Povey,正式接受北京爱数智慧科技有限公司的邀请,出任爱数智慧的首席科学家顾问(Principal Scientist Advisor)。作为人工智能领域的技术引领者,这是Dan Povey首次正式为中国数据服务企业提供技术顾问工作。
语音识别开源工具Kaldi之父Dan Povey
Dan Povey曾任约翰霍普金斯大学语言和语音处理中心的助理研究教授。他是著名的语音识别开源工具Kaldi的主要开发者和维护者,被称为是Kaldi之父。Kaldi集成了多种语音识别模型,包括隐马尔可夫模型和最新的深度学习神经网络,在语音识别领域有重大影响。
人工智能的发展离不开算法、算力、数据这三大要素。Kaldi作为开源算法工具库,为国内外众多语音技术科研机构和企业提供算法起步工具。而数据作为AI算法的“燃料”,将助力AI公司技术与产业相结合,加快商业落地。由此人工智能数据服务商也成为人工智能生态中必不可少的一环。
图片来自艾瑞咨询《中国人工智能基础数据服务行业白皮书》
数据标注是机器感知世界的“起点”,将混乱和无序的数据进行清洗,将规范化的数据“喂养”给模型才能不断提高AI的使用精度。随着线下数据被采集起来,数据量呈指数式增长,其中80%~90%都是非结构化数据。爱数智慧对这些非结构化数据进行清洗和标注,唤醒数据价值,提高模型识别效率,帮助客户降低建模成本,快速搭建智能化模型。
作为全球领先的数据服务提供商,爱数智慧坚持用技术驱动创新,采用人机协同的数据处理方式,将人在数据处理上举一反三的能力与机器良好的记忆能力相结合,帮助AI公司及行业内客户获得精度可达99%的数据快速处理能力。
同时,为了促进AI行业研究的快速迭代,爱数智慧大力推动数据开源。目前,爱数智慧已经有超10万小时多语种多场景的标准数据集。在参加国际语音盛会INTERSPEECH期间,爱数智慧开源了日语手机朗读数据集,帮助对日语语音模型的测试。此前,爱数智慧在OpenSLR上开源了近800小时的中文手机朗读数据集,可用于中文语音模型训练、测试、开发等多种用途。
2019年9月,Dan Povey应邀出任爱数智慧首席科学家顾问。在Dan Povey的帮助下,爱数智慧将紧跟学术前沿,深耕数据结构化领域,不断推动结构化行业技术创新,挖掘数据价值,为客户提供更高质量的服务,为智能世界提供充足的数据生产力。