【凯泰动态】凯泰资本投资大象声科,让机器“不服噪”
凯泰资本 · 2018-12-14 10:49:48 · 热度:加载中...
大象声科是一家专注于声学信号处理技术和深度学习声学算法的机器听觉智能公司。
人工智能 凯泰资本

语音交互是5G网络时代人机交互的主要方式之一。在语音交互方向,深度学习技术在语音识别和语音合成上表现出良好的应用效果。大象声科在深度学习声学处理技术和听视觉神经计算研究领域在全球具有领先性,我们希望通过对大象声科的投资,利用深度学习技术,创造性地解决目前声学处理方面的难题,让机器更好地造福人类。

——凯泰资本执行总裁 郑华良


近日,凯泰资本完成了对大象声科(深圳)科技有限公司(以下简称“大象声科”)千万级人民币的投资。大象声科成立于2017年2月,是一家专注于声学信号处理技术和深度学习声学算法的机器听觉智能公司,致力于为客户提供高效、低成本的语音增强和语音交互解决方案。目前,公司主要服务客户有高通、小米、努比亚、锤子、美图、51talk、猎豹移动等。今年 7 月,大象声科获得了小米和高通创投数千万元人民币的 Pre-A 轮战略投资,本轮投资将进一步推动大象声科的技术和产品开发、市场拓展以及在多场景的商业落地。



5G时代万物互联催生的多元化交互需求以及智能语音技术快速发展将促使语音交互成为未来主流交互方式之一,市场前景广阔。目前,深度学习技术在语音识别和语音合成领域达到了良好的应用效果,但语音交互技术在实际生活中的落地仍然存在障碍,仅在近场、相对安静的环境中表现出良好的交互体验。从需求端看,语音交互在如安防、汽车、医疗、智能家居、会议、教育等场景下规模化应用市场尚未打开。机器听觉与人类听觉最大的差异在于机器无法准确判断音源的类型,继而对音源进行分离和提取难度高,当前对音源分离和提取在技术上存在瓶颈,导致在远场以及信噪比低的环境中交互体验较差,目前还不能满足相对复杂场景下的语音交互需求。

解决上述问题的关键在于语音识别前端的声学处理环节,传统的加性噪声消除、基于语音谐波模型或线性预测模型的降噪声学处理技术对声音的频谱进行了稳态假设,故无法适应普遍存在的非稳态语音场景。经过研究发现,深度学习技术事先不做稳态假设,通过将目标声音与噪声进行“理想二元掩模”处理,可以将声学信号处理转化为特征分类问题,使得技术的普适性显著提高。基于深度学习的声学处理突破了传统声学处理技术的能力上限,使用场景广泛,效果显著,同时降低了成本。



深度学习技术在声学处理的应用将显著实现语音增强,提高复杂场景下的语音交互体验,拓展应用场景,声学处理环节存在技术的颠覆性创新的机会。凯泰资本通过调研全球技术资源发现,声学处理技术领域人才稀缺,深度学习在声学信号处理中的学术研究由美国俄亥俄州立大学汪德亮教授首创,并由大象声科实现商用,取得了显著的成果。



大象声科拥有资深的声学理论研究背景,具备全球领先的技术研发能力和产品创新能力。公司联合创始人兼首席科学家汪德亮教授在听视觉处理的神经计算研究方面开创性地提出了计算听觉场景分析理论(CASA)与算法,是全球第一个将深度学习应用于语音增强的科学家。大象声科通过CASA与深度学习技术相结合,能够实时分离人声和背景噪声,从环境噪音中提取清晰人声,突破了传统信号处理方案的性能瓶颈。

大象声科成立近两年来,依托算法、软件、硬件三个维度的技术纵深,为云端和终端语音增强和智能语音交互提供先进的解决方案,成功实现了世界上第一个利用深度学习和传统信号处理相结合的单通道手机通话降噪方案,在机器个性化拾音与智能化降噪的应用上,开创了无噪音通讯的先河。此外,公司将单通道语音增强技术与麦克风阵列结合,将多通道语音增强的性能也提升到新台阶,真正解决了语音前端处理的技术难点。


去噪音前波谱 

去噪音后波谱

温馨提醒:忍受15秒的噪音后,您将听到降噪后清晰的声音。


公司语音增强技术及产品化能力得到行业认可,上周,大象声科作为高通的AI合作伙伴在高通骁龙技术峰会上展示了基于高通新一代旗舰处理器骁龙 855的AI通话降噪方案,实现了在极其嘈杂环境中不受噪音干扰,通话可接受到纯净人声的效果。高通产品管理副总裁 Manvinder Singh充分肯定了大象声科自主研发的 AI 智能通话降噪算法,表示与大象声科的合作能够为客户带来比传统语音信号处理算法更优的语音通话质量。除了手机通讯场景外,公司将进一步助力智能家居、智能车载、可穿戴设备、智能安防、教育等行业的发展。




凯泰资本在人工智能领域重点关注颠覆性的技术进步和重塑行业竞争力的产品创新与模式创新,践行产业链投资理念,推动人工智能的产业化进程。以语音交互为例,凯泰资本以“研究驱动投资”的投资逻辑,对语音产业开展了系统的研究,在声学处理、语音识别、自然语言理解、语音合成四大产业核心要素上开展了投资布局,形成了产业链协同优势。 未来,凯泰资本将进一步加深在语音交互产业链的投资,布局语音交互技术在行业应用中产品化的机会。



凯泰资本认为以人工智能为核心的数字科技是未来核心生产力之一,将深刻影响生产资料的分配和生产关系的重塑。凯泰资本践行“研究驱动投资”的投资理念,对人工智能行业的算法、软硬件技术要素、行业应用开展持续而系统的研究,围绕核心技术、应用场景和需求,重点关注颠覆性的技术进步和重塑行业竞争力的产品创新与模式创新,尤其是颠覆规模化存量市场的应用和提高传统行业生产效率方面,我们将持续跟踪投资。

END

全球化加速了知识的融合和技术的快速发展,尤其在信息技术领域,更是日新月异。正在建设的5G网络是互联网信息技术领域的一次重大进步,具有划时代的意义,将重构产业链、重塑行业竞争环境。5G网络高速、高频、高效的属性,对人工智能技术及其应用提出了新的要求。投资大象声科,我们希望推动深度学习声学技术产业化、提高智能语音交互体验的同时,助力5G网络更快更好地服务于人类生产生活。

本文来源:凯泰资本