揭示AI唇语识别技术:Readtheirlips让视频转录变得轻而易举,隐私安全问题引发关注

随着人工智能技术的发展,一款能够解读唇语的AI软件引起了广泛关注。这款名为Readtheirlips的软件能够在视频中准确识别说话者的话语,即使是在小声说话的情况下也不例外。例如,在一段红毯视频中,布莱克·莱弗利低声说“好紧张”,尽管她的笑容使得肉眼难以辨别唇语,但AI却能轻松识别。就连侃爷这样说话时嘴巴动作不明显的人,其唇语也能被准确捕捉。

网友们对此反响热烈,有人希望将这一功能与Siri等语音助手结合,以便在无需大声说话的情况下进行操作;还有人表示想用它来测试“座机画质”的视频效果。然而,也有不少网友担忧这种技术可能会威胁到个人隐私,甚至有人表示打算戴上口罩来防止被识别。

为了验证Readtheirlips的实际效果,量子位进行了一系列测试。首先,使用了一段奥特曼在斯坦福大学的访谈视频作为测试对象,结果发现生成的文本与原始对话完全吻合。接着,又测试了马斯克的视频,尽管他有很多小表情,但AI的表现依然稳定。然而,当测试对象换成喜欢用手势辅助说话的小扎时,软件出现了识别错误。此外,在测试卡帕西的视频时,由于他说话速度过快,生成的文本也出现了部分错误。

根据测试结果,Readtheirlips更适合处理时间较短且说话者正脸对着镜头的视频。对于较长或说话速度较快的视频,识别效果则会下降。开发团队表示,他们正在努力改进这些问题,并计划逐步提高视频上传时长的限制。

Readtheirlips的工作原理基于大量标注数据的训练,通过面部检测识别嘴唇位置,提取嘴唇的几何特征,并分析嘴唇的动态变化。随后,模型将这些特征与训练数据中的特征进行匹配,识别出视频中人物所说的,并将其组合成完整的句子,确保语法和语义的准确性。最终,识别结果将以文本形式呈现。

Readtheirlips的开发团队Symphonic Labs是一家初创公司,成立于今年4月,目前团队规模不足10人。除了Readtheirlips,他们还开发了一款名为Symphonic的实时文本转录软件,同样基于唇语识别技术。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...