酱发现| Deep Learning让唇语识别取得颠覆性突破

2016-11-15 Tao酱 AR酱 AR酱
 
↑  ↑  ↑      关注AR酱,
和我们一起发现闪闪发光的AR从业者


公告
到北京了,今天的月亮格外圆,狼人们可以行动起来了。狼人杀走起
 
Tao 酱
饿

上次

刚介绍了肌电手环类产品MYO或许可以帮助聋哑人士表达自己。通过手环,来翻译手语。(酱分享| 一家快倒闭的手势识别公司为何拿了1.2亿融资 )今天,牛津大学的同学们,就绑着google 的 Deep Net和加拿大CIFAR一起送来了这一伟大任务的另一环,帮助听力障碍人士听懂你的唇语的最新黑科技Lip Net。
123,玩游戏
读唇语到底有多难呢?我们大家一起来做个小游戏。
什么?第一次玩有没有新手引导难度?
好的,亲,我们放慢一点
怎么样?读出来了吗?
同学,你的灵力弱爆了
机器学习扫荡一切
我们的电脑分分钟秒杀你,让我们来看看电脑的答案
句子:Place blue in m1 soon
预测:Place blue in m1 soon
虽然我也不懂,为什么他们要用那么奇怪的句子来做测试。但是这改变不了一个事实,你弱爆了。我打赌你一个字都没猜对。

实验室找了3个测试组,听力障碍学生,传统唇语识别方式,和Lip net。
最终,应用了Deep Learning技术的 Lip net 毫无疑问的又一次扫荡了人类组和传统方法组。

人类组,在这次的测试中,仅仅拥有大约50%多一点点的准确率。

传统的唇语识别技术,则有约70%的准确率。

而 Lip Net 就厉害了,Word哥。它的准确率达到了接近 98%。而随着训练数据的增加,其准确率还有进一步提升的可能性与传统的方法相比。之前的研究大多并没有Deep Learning 技术,由于需要对数据进行大量的预处理,且人与人之间有较大的独特性,导致难以规模化泛化应用。

除此之外,另一个巨大的突破是,它不仅仅是第一个运用Deep Learning 在准确率上取得突破的技术。更是将传统方法,只能基于词为单位进行预测归类,超进化成了能够提供整句识别的能力

意义
这项黑科技有众多潜在的应用。据估计,47%的75岁以上的老人,在一定程度上患有听力损失,若是Lips Net 配上AR眼镜能够帮助他们能再一次正常得和孙儿正常得讲故事,聊天呢?你会期待这样的AR大未来的到来吗?而对于听力障碍人群,及聋人群体,这是将是一个足以改变人生的技术。能让聋哑人士,如普通人一样得工作生活。正如在之前的文章中所提到,对残障人士的生产力的解放,将会大大增加全球经济的产值。而除了这个应用以外,这项技术还有更多的潜在的应用领域可以想象。

一个可能的应用是,可以用 Lip Net 辅助现有语音识别技术,在嘈杂环境下提高识别准确率。另外,也可以被用于在嘈杂环境下的沟通或指挥等。

随着深度学习技术在机器视觉,语音语义识别获取突破后,人工智能技术已经取代了一个又一个从前被认为只有人类才能完成的任务。听说今日头条还和北京某大学在共同研发写稿机器人。靠,不会影响到我吧? 我已经没有女朋友了,我不能连工作也被机器人抢了!!
 

AR酱原创
转自微信号AR酱(ARchan_TT)
并附上原文链接

阅读推荐

酱发现 | 这些AR相机不仅美化视频,还有停不住的表情包

酱现场 | Sony PSVR前产品负责人分享行业趋势

酱深度 | 两家AR专利大厂在AR硬件方面的探索


    点击下方“阅读原文”留下联系信息
 
阅读原文