字幕,已经成了现代人的「外挂」。通勤嘈杂,摸鱼易露馅,学习会分心,听和看并用,才能避免进度条白白走了冤枉路。
然而,对一些人来说,字幕不只是锦上添花。
当《失控玩家》的男主角戴上眼镜,他看到了原本无法察觉的信息,不再是个被动的 NPC。
现实里也存在一种智能眼镜,可以提供「行走的弹幕」。尽管没那么科幻,但它同样通向一个信息量更大的世界。
我可以看到你说的话了
科技的意义在于,当上帝关上一道门的时候,打开一扇窗。
一位听障博主的开箱视频,在 TikTok 拿下了 80 万点赞,夙愿得偿,喜极而泣,最纯粹的情感迸发的力量,打动了素昧平生的观众。
▲ 图片来自:TikTok@chrissymarshall_
她手里拿着一个盒子,边笑边流泪,比着手语,努力地说出完整的句子:「我等待这个盒子里的技术很多年了。」
盒子里装的是一款字幕眼镜,外形和普通眼镜没什么两样,却让她可以「看到」周围的声音,那些过去听不清的声音,变成了一行行亮绿色的、科幻感的字幕。
根据视频里的信息,这位博主用的眼镜叫作 Hearview,专为听障人士设计,今年 5 月发布,来自国内的一家科技公司,但不面向国内,市场在海外。
它可以用来娱乐,看电影、看视频、看《黑神话:悟空》的游戏直播。
从刷《老友记》的体验视频来看,文本略有些滞后但准确,配对的手机 app 还可以区分不同的说话人。
同时,它也可以用在面对面的对话,方便听障人士在餐厅点餐、在超市购物、和导购聊天、开车时导航……
HearView 的原理说起来并不复杂,和手机 app 配对,通过智能手机的麦克风捕获声音,AI 算法实时语音转文字,字幕显示在眼镜上。
如果听障人士需要回复他人,可以在 app 输入消息,将文字转换成语音。过往的字幕,也保存在 app 中。
HearView 自称,语音转文字的准确性达到 95%,最远转录 10 米外的语音。说到这里,一个问题呼之欲出:菜市场等吵闹环境里表现会变差吗?
虽然 HearView 表示手机 app 具备噪音消除功能,但我翻遍了各种体验视频,并没有找到嘈杂环境里的实测,所以很难探究效果如何。
官网只提到了一些参数信息,续航 7 小时,重 52 克,适合全天佩戴,还配备了振动和视觉警告,提醒用户注意可能的危险。
轻便,耐用,听起来让人很想剁手,但它实在太贵,很难交个朋友——1799 美元,约 12800 元人民币。
而且,Hearview 存在很大的进步空间,目前它只支持英语和西班牙语,计划支持德语和法语,还不能实现语言的互相翻译。
文本的颜色只有亮绿色,虽然确保了在各种屏幕和照明条件下都可读,然而用户没有选择,就是美中不足。
但存在,便意味着价值。字幕早已是很多人生活的一部分,这还不够,它理应以更方便、直观的形式,陪伴在最需要的人左右。
字幕眼镜虽多,但生活里的挑战更多
实时字幕眼镜,其实并非新鲜事,放在 2 年前,甚至是一个热潮,诞生过不少有趣的项目,但都很难尽善尽美。
英国 AR 初创公司 XRAI,开发了兼容多款 AR 眼镜的语音转文字应用 XRAI Glass。
然而,《连线》杂志记者戴上一款和 XRAI Glass 兼容的 AR 眼镜后发现,语音转文字固然好,但使用过程中,总有这样那样的摩擦。
先是使用体验上的,如果佩戴人工耳蜗和助听器,再戴眼镜可能会不舒服,虽然这款 AR 眼镜已经很轻,但和普通眼镜相比依然厚重。
而且,语音转文字在背景噪音大和多人讲话的时候,效果并不好,实用性大打折扣。
价格也是一个问题,300 多美元的 AR 眼镜已经让钱包隐隐作痛,XRAI Glass 还需要每月花几十美元订阅套餐,像很多语音转文字的软件那样,只能说并不意外。
国内也有类似 Hearview 的产品——亮亮视野的听语者字幕眼镜,分为助听版和翻译版,可以理解普通话、方言和外语,并且支持跨语种翻译。
它的使用方式和 Hearview 相近,下载可译 app,眼镜和手机进行蓝牙配对,用 Wi-Fi 或者热点连接网络,手机端实时语音转文本,眼镜端显示文本。
不过有用户在 App Store 反馈,听语者对方言的支持还是不够多。这是一个非常必要、却也艰难的优化方向,听力不好、习惯说方言的老年人,恰恰最需要这类产品。
也有 YouTube 博主评测发现,听语者的语音识别率高,速度也快,但口音很重的话,识别率会变低。
▲图片来自:YouTube@科技小助手
如果不拘泥于眼镜的形态,耶鲁大学和斯坦福大学的学生设计的一个产品原型很有意思,叫作 Transcribe Glass。
它不是一副眼镜,而是一个平视显示器,可以卡在眼镜的镜框上,开箱即用,将设备连接到 iOS 和 Android 的配套 app,让用户选择自己喜欢的语音转文本软件。
生成的字幕会通过低功耗蓝牙传输到设备,并实时叠加在用户的现实视野中。难得的是定价也格外友好,95 美元,但连测试版都还在候补,直到现在也查不到落地的信息。
除了专注语音转文字的产品,面向所有人的多功能 AR 智能眼镜,往往也包含了字幕功能。
国内价位在两三千的一体化无线智能眼镜,基本都支持语音转文字和多种语言的实时翻译,但转译效率,可能不如专为听障人士打造的 AR 眼镜,持续开着语音转文字时,续航也是一个问题。
当我咨询某个头部的智能眼镜品牌,得到的答案是「不建议听障人士使用」。
▲10 月 22 日,咨询某智能眼镜品牌客服
其实,这种产品最适合大厂出手,特别是 Google,在语音识别、机器翻译和 AR 方面都有深厚的技术积累,实时语音转文字和翻译的能力都遥遥领先。
Google 在 2022 年 I/O 推出了一款可以实时翻译的 AR 眼镜,支持 24 种语言,甚至支持美国手语,字幕就在对话人旁边,不过也只是原型演示,没有下文了。
科技向善是字幕眼镜的大前提,种种的「吹毛求疵」,其实是抱着殷切的心情,希望产品不满现状,不断进化,再做一次,再改进一次,变得更好一点。
字幕是一种权利,像看电影一样看世界
世界卫生组织统计,全球约有 4.66 亿人患有听力损失,其中超过 900 万人为重度耳聋。
即使使用了人工耳蜗或助听器,听障人士理解别人在说什么,仍然需要集中注意力,同时,一些发音相近的词语,光靠唇读难以区分,在理想条件下,英语中只有约 40% 的语音信息,能通过说话者的唇部动作捕捉。
这也是为什么,一个听力障碍的世界,需要文字作为补充。很早之前,就有人为之努力了。
古巴裔美国默片演员艾默生·罗梅罗,同时也是一位听障人士,在 1947 年开创了有声电影的字幕。
默片时代,观众可以通过电影画面和插入的文本了解故事情节,但当有声电影兴起,许多像他一样的听障观众反而失去了看电影的机会,因为他们无法听到台词,电影又缺乏字幕。
于是,罗梅罗决定自己手工制作字幕:当时的电影通过胶片播放,他将胶片切片,并在帧之间插入带有字幕的图像。
后续的字幕技术,可以看作是罗梅罗精神的延续,同时,也有了更多方便听障人士看电影的设计,比如,一些美国电影院提供预制字幕的眼镜。
2012 年,索尼推出了一款提供给部分影院的 CC 字幕眼镜,与普通字幕不同,CC 字幕不仅包含对话内容,还包括非语言信息,如背景音乐、音效、环境声音。
这款眼镜在每侧配备小型投影仪,绿色的字幕看起来就像是漂浮在大银幕前。
观众无论坐在影院哪个位置,都可以清晰地看到字幕。用户还可以调整字幕的亮度、显示距离以及角度,切换六种语言。
这款眼镜甚至支持 3D,用户就不必多带副眼镜观看 3D 电影。这很重要,避免了一种鼻梁很忙的情况:同时戴着普通眼镜、3D 眼镜、CC 字幕眼镜看电影。
▲ 图片来自:Reddit@ellowTonkaTrunk,发布于 2022 年
这一幕有些讽刺,却像一个隐喻——以寻常的视角了解这个世界,一些人总需要付出更多。
还不够完美的、但未来可期的实时字幕眼镜,至少让我们看到了一种美好的可能。
韩国电影《寄生虫》导演奉俊昊曾在奥斯卡颁奖典礼说:「一旦你克服了 1 英寸高的字幕障碍,你将会看到更多精彩的电影。」
当电影里常见的字幕出现在生活里,它可以让需要的人看到更多的信息,并拥有不退出对话的权利。
Google 的翻译 AR 眼镜宣传片有一句话很打动人:我直视着你的眼睛,你看起来也在直视我的眼睛。
几乎没有存在感,便是科技的最好状态。
在保证高效、准确的前提下,交流还可以回归自然,不占双手,不需要低着头看手机,也不用一直盯着嘴唇,而是面对面,眼神接触,一如千万年前就有的模样。
文章来源于互联网:凤凰网-智能眼镜这个被忽略的功能,他们已经离不开了