第rb07版:新知 上一版 下一版  
下一篇

“动动嘴皮子”,AI就能知道你在说啥

读唇语软件识别准确率远超人类

图片来源:IC photo

可以想见,由于公益、公共安全、国家安全等领域巨大的潜在需求的牵引,以及AI技术飞速发展的强力推动作用,在不久的将来,AI读唇语有望实现快速推广与深度普及,产业前景十分可期。

据瓶颈被不断突破,使得AI技术在唇语识别领域取得较大成功成为现实。

众多难题有待突破

不过,闫怀志也表示,目前我国人工智能唇语识别技术尚处于起步阶段,若想利用人工智能准确地识别唇语,还有很长的路要走。

从语言本身来看,人类语言具有较高的复杂性,在人类话语所涉及的所有音标中,仅有30%左右是直接由人类嘴唇来控制的,70%是难以通过肉眼,甚至是机器视觉区分的齿音、舌音以及喉音。而且,不同人说话的语气、方言、连词、口音,乃至胡须遮盖等因素,都会导致嘴型的细微变化,而恰恰是这种细微变化,会严重影响人工智能对于唇语的识别和判断。

从技术层面来看,人工智能采集唇语的环境通常较为复杂,若想精准识别难度很高。以目前的人工智能技术而言,对于长句、复杂句式等的识别水平不尽如人意,更不用说还存在着多场景识别、多人像唇语识别等问题。

闫怀志表示,只有解决了上述问题,AI读唇语才能得到突破性提升,迈向成熟发展阶段。

人类不同语种之间千差万别,AI能读懂每个语种的唇语吗?

闫怀志介绍,此前较为成功的AI读唇语系统大多仅限于英语模型,这是因为多数AI模型都是基于英语数据训练而得。但是,从技术框架上来说,不同语种的训练模型是基本一致的,或者说可以依赖于同一类技术手段来实现。

当然,为了适应不同语种的唇语识别,也需要作一些适应性调整:一方面要选择对应语种的数据进行有针对性的训练;另一方面,还需要对AI模型进行调整,比如纳入时间屏蔽、优化语言模型以及改进超参数等。

此外,同一语种也会有不同口型,即便口型类似,也可能代表着完全不同的意思。因此,成熟的AI读唇语系统需要大量的唇语特征样本数据,并尽可能地覆盖多种应用场景、多类型的说话人群,借此来提升训练后的唇语识别模型的泛化能力,提高AI读唇语对于不同口型和不同表意语言的识别准确率。

亟须监管的技术双刃剑

尽管存在种种难题,但仍有越来越多的AI企业开始涉足并计划深耕人工智能唇语识别赛道。目前来看,各大AI巨头的选择不尽相同,具体可分为唇语数据、唇语视频识别、唇语理解等。

闫怀志也表示,目前许多人工智能唇语识别技术领域已实现初步突破,全链条集成前景可期,产业集群正在逐步形成。

从应用场景来看,AI读唇语在社会公益、公共安全等领域都已开始崭露头角。从目前各大巨头的布局以及相关技术的发展趋势来看,AI读唇语预期可在身份识别、国家安全、智慧系统等方面具有广阔的应用前景。“可以想见,由于公益、公共安全、国家安全等领域巨大的潜在需求的牵引,以及AI技术飞速发展的强力推动作用,在不久的将来,AI读唇语有望实现快速推广与深度普及,产业前景十分可期。”闫怀志说。

当然,技术应用是把双刃剑。很多人担心,AI读唇语会使人们对话中的隐私内容遭到泄露,无论当事人是公开发言、窃窃私语或是自言自语。“张张嘴”就被别人窃取聊天内容,仔细想来确实可怕。

闫怀志表示,这种担心并非杞人忧天。AI读唇语导致的隐私泄露,一方面可能是有人恶意进行唇语获取识别,另一方面也可能是正常使用的AI读唇语系统,但其中的存储、使用等环节保护不当,导致相关数据被窃取或滥用,进而对个人权益造成损害。而且,由于涉及到当事人的对话内容,具有明显的方向性,这种隐私泄露的危害性可能要比普通的个人信息泄露更为严重。

因此,闫怀志建议,应从隐私安全保护的角度,在管理层面加强相关法律法规的制定,严格规范和约束AI读唇语的应用场景、范围和目的,加大对技术恶意利用的监管和惩戒力度。此外,还要在技术层面加强AI读唇语系统的安全保护体系建设,以技术手段提高系统的识别精准度,避免技术滥用,切实保障用户对话的内容安全。

(据《科技日报》)

凡呼和浩特融媒体中心记者署名文字、图片,版权均属呼和浩特融媒体中心所有。任何媒体、网站或个人,未经本报授权不得转载、链接、转帖或以其他方式复制发表;
已经由本报授权的媒体、网站,在下载使用时必须注明“来源:呼和浩特融媒体中心”,违者本报将依法追究法律责任。
中国互联网举报中心