用深度学习改变传统语音信号处理,「大象声科」想让机器像人耳一样“聆听”
36氪 · 2020-08-31 09:12:02 · 热度:加载中...
公司目前在手机、耳机等消费电子行业有比较多的应用案例。

智能语音是人工智能技术的重要组成部分,包括声音前端信号处理、语音识别、语义理解、自然语言处理、语音合成等细分领域。在技术的具体落地中,消费级智能硬件是最早显示出市场潜力的赛道,从蓝牙耳机到可穿戴设备再到智能家居,各种产品都离不开相关的智能语音技术,而语音交互的第一步就是听见,声音前端信号处理的效果一定程度上制约了语音识别的效果,当前也有一些公司正在解决这一让各类产品“听得更清晰”的问题。

36氪日前接触到的「大象声科」,是一家专注于机器听觉的人工智能公司。该公司于2017年在深圳成立,致力于应用深度学习变革传统语音信号处理,让机器拥有类似人耳一样的听觉感知能力。据了解,「大象声科」技术的理论基础为CASA(计算机听觉场景分析)+DNN(深度神经网络技术)。CASA 解决的问题是基于人的听觉原理来实现声源分离,该理论的奠基人汪德亮教授也是「大象声科」的首席科学家和联合创始人。大象声科通过将CASA和深度学习相结合,大象声科是业内首家成功实现大规模商用级的噪音和人声的分离,后续有望进一步解决鸡尾酒会问题。鸡尾酒会问题是语音识别领域的痛点和难点,人们在鸡尾酒会中交谈,语音信号会重叠在一起,机器需要将它们分离成独立的信号。

公司创始人兼CEO苗健彰向记者对比了传统信号处理和基于深度学习的信号处理方式的差别——传统的数字信号处理方式主要依据固定噪音特性和方向,通过滤波器对信号进行相应的过滤和增强。但因为生活中的噪音不一定存在固定特性,并可能来自于各种方向反射,所以传统方式或许无法彻底解决复杂噪声环境中的问题。而CASA+DNN的方案是让机器通过训练获得与人类听觉感知相似的机制,从而去认知周边的声场环境,在复杂场景中提取、识别人声。

在技术产业化这一块,大象声科首先从“降噪”切入,一方面解决通讯过程中的噪音干扰问题,让人们在复杂的现实噪声场景中拥有更加清晰、更加私密的通话体验;另一方面解决语音识别中噪声干扰问题,让机器在“听清”之后听得“更懂”。为此,大象声科推出了Vocplus智能语音增强和Vocplus Smart智能语音交互方案,目前已经在手机、耳机、PC、对讲机、VoIP、IoT等行业成功落地。

在研发过程中,苗健彰认为,把技术从理论进行工程落地转化是最大的难点,其中将神经网络小型化和模型的泛化是决定深度学习能否应用于实际产品中的重要环节。“大象声科在这方面有一套独特的技术,能够在不损失精度的情况下,使得算法参数尽量少,计算速度尽量快,这也是为什么目前我们的深度学习降噪算法快速落地到像耳机这类可穿戴产品。另外,市面上已经有上千万台设备搭载了我们算法,帮助我们沉淀了大量数据。大象声科将人耳的听觉机理与深度学习相结合,也大幅提升了算法的泛化性能,形成了较高的技术壁垒。”他介绍。

相较而言,公司目前在手机、耳机等消费电子行业有比较多的应用案例,这和行业本身的需求和规模相关。“现在中国绝大部分的手机品牌,比如小米、OPPO、vivo都已经有使用「大象声科」的通话降噪技术(Vocplus Telecom)以及游戏抗啸叫技术(DHS)的量产案例。”苗健彰说。在前不久发布的华为FreeLace Pro耳机上,也搭载了公司的Vocplus AI三麦通话降噪方案。

此外,自去年以来的TWS耳机增长浪潮,也让越来越多的耳机厂商逐渐采纳以AI技术为主导的通话降噪方案。大象声科率先在蓝牙耳机上落地AI语音降噪的公司,首个成功量产案例是OPPO Enco Q1 。2020年「大象声科」与漫步者合作,成功落地了第一个AI算法结合骨传导sensor的通话降噪方案,可以让TWS耳机在通话时完全屏蔽周围噪音(包含人声噪音在内),实现私密性更强的通话体验。谈及客户方的具体考量维度,苗健彰介绍客户主要会围绕通话清晰度进行评价,在这方面,业内有一套衡量通话降噪效果的客观标准3QUEST,测试指标包括:S-MOS(人声保留程度),N-MOS(噪音消除程度),G-MOS(综合通话降噪性能),而公司由于采用较独特的AI技术,在测评中得以展现优势。

在产业合作上,「大象声科」目前已与Qualcomm,CEVA,Cirrus Logic,Infineon,Rockchip和BES等国内外知名芯片厂商建立合作关系。其中值得一提的是,公司在2018年拿到了小米和高通的融资,并在之后和高通一起进行联合技术推广,这也为公司在市场拓展和品牌建设方面提供了一定帮助。在收费模式上,大象有按照license授权和按项目收费两种方式,当前license总装机量在数千万级别,今年的营收在数千万元量级。

在未来的行业延展中,「大象声科」计划进一步完善整个语音技术链条,把应用场景从近场拓展到远场,为更多行业如助听器、智能家居、会议系统、智能车载等带来更精准更智能的语音解决方案。

团队方面,公司创始人兼CEO苗健彰UBC软件工程学硕士毕业,曾就职于IBM、RBC等500强企业,并在加拿大成功创办过一家软件公司 。联合创始人兼首席科学家汪德亮教授是计算机听觉场景分析奠基人之一,也是全球首位将深度学习应用于语音增强的科学家。联合创始人兼CTO张学良多年从事语音分离、增强算法研发工作,是内蒙古大学计算机学院教授。

在整个市场上,36氪保持关注的公司还包括「声智科技」、「声加科技」等。

本文来源:36氪