我仍然记得那封改变我对视频可及性看法的电子邮件。发件人是莎拉,一位听障的研究生,她已经尝试跟随我的在线课程几个星期。"我可以看到你教学时的热情,"她写道,"但我不知道你在说什么。"这条信息在七年前发送,开启了我从休闲内容创作者到可及性倡导者的旅程——最终成为一家大型流媒体平台的高级可及性顾问,在那里我帮助了超过200家公司将他们的视频内容变得对数百万用户可及。
💡 关键要点
- 理解可及性环境:不只是合规性
- 字幕:视频可及性的基础
- 音频描述:用文字描绘画面
- 转录:可及性的无名英雄
这些统计数据令人震惊:根据世界卫生组织,全球有超过15亿人生活在某种形式的听力损失中,而约有2.85亿人视力受损。然而,2023年WebAIM的一项研究发现,流行平台上的视频中仅有31%包含准确的字幕,而少于5%提供音频描述。我们留下了巨大的观众群体——这不仅是道德错误,也是一个重大的商业失误。优先考虑可及性的公司平均观众参与度提高了28%,内容完成率提升了35%。
在ai-mp4.com, 我们致力于通过为每个人提供专业级的可及性工具来改变这些数字。但是,仅靠技术是远远不够的。你需要理解为什么、如何,以及区分合规内容与真正可及内容的细微差别。本文借鉴了我十年来与内容创作者、法律团队以及最重要的,残疾用户本身合作的经验。
理解可及性环境:不只是合规性
当大多数人考虑视频可及性时,他们会立即跳到法律要求——如《美国残疾人法》、第508节或《欧洲可及性法》。是的,合规性非常重要。我曾参与三起大型诉讼,因不可及的视频内容而面临超过50万美元的处罚。但是,单单关注法律最低限度会忽视更大的图景。
真正的可及性是关于普遍设计:创建适合每个人的内容,而不论他们的能力如何。在我任职于一家大型大学期间,我们进行了一项与1200名学生的有趣研究。我们发现,71%没有障碍的学生定期使用字幕——在嘈杂的咖啡馆、熬夜学习时,或当英语不是他们的母语时。字幕不仅仅是一种帮助;它们是改善所有人体验的功能。
商业案例同样 compelling。当Netflix在2014年至2018年期间在可及性功能上进行了大量投资时,他们的订阅用户数增长了8900万。虽然并非所有的增长都可直接归因于可及性,但他们的内部研究显示,更好的可及性特征的市场具有23%的更高留存率。可及内容本质上是更好的内容。
但这里是大多数人没有意识到的:可及性不是二进制的。从完全不可及到黄金标准的可及性之间存在一个光谱,而且大多数内容都落在中间。自动生成的字幕可能比没有好,但它们还不够好。我已经审查了数千个自动生成字幕的视频,平均准确率徘徊在70-80%——这听起来不错,但你意识到这意味着每四到五个单词就有一个是错的。对于技术内容、医学信息或任何具有专业词汇的内容,那准确度下降到50%或更低。
字幕:视频可及性的基础
让我们从字幕开始,因为它们是最常见的可及性功能,也是大多数人错误的那个。我花了数百个小时审查字幕文件,我可以告诉你,适当的字幕与优秀的字幕之间的差别是巨大的。
"可及性不是你在最后添加的功能——它是一种基本设计原则,使你的内容对所有人都更好,而不仅仅是对有障碍的用户。"
首先,让我们澄清术语。闭合字幕(可以开关)不仅包括对话,还包括音效、音乐提示和说话者识别。相对而言,字幕通常只包含口头对话,并假定观众可以听到其他音频元素。出于可及性目的,你需要闭合字幕。
高质量的字幕需要三个要素:准确性、同步性和完整性。准确性意味着准确获取单词——我的意思是完全正确。95%的准确率听起来可能令人印象深刻,但在一段10分钟、1500个单词的视频中,那就是75个错误。我建议目标准确率达到99%或更高,这通常需要人类审查,即便是从AI生成的字幕开始。
同步性同样至关重要。字幕应在音频后的100毫秒内出现,并保持在屏幕上,足够时间供舒适阅读。一般规则是字幕的显示时间至少为一秒,最多为六秒,阅读速度不超过每分钟160个单词。我见过太多视频,字幕闪过得太快以至于让即便是熟练的阅读者也无法跟上,或与音频滞后以至于几乎无用。
完整性意味着包括所有内容:对话、音效、音乐及说话者识别。当有人敲门时,你的字幕应该写上"[敲门]"。当紧张音乐响起时,标记为"[紧张音乐]"或"[激励音乐]"。当多人发言时,标识谁在说话。这些细节对试图理解所说内容以及场景的完整上下文和情感语气的听障和听力受损观众至关重要。
在ai-mp4.com,我们开发了AI工具,使你自动完成90%的工作,但最后的10%——人类审查和精细化——则是将适当与优秀区分开的关键。我总是对客户说:预算要考虑人类审查。如果你关心质量,这是不可或缺的。
音频描述:用文字描绘画面
如果字幕是视频可及性的基础,那么音频描述就是常常被忽视的第二大支柱。音频描述为盲人和低视力观众提供视觉元素的叙述,这是我看到的实施中最常见的误解和最大缺口。
| 可及性功能 | 帮助对象 | 实施难度 | 平均成本影响 |
|---|---|---|---|
| 闭合字幕 | 听障/有听力障碍的人、非母语者、闭音观看者 | 低(有自动化工具可用) | 每分钟1-3美元 |
| 音频描述 | 盲人/低视力用户 | 高(需要写脚本和录音) | 每分钟15-50美元 |
| 转录 | 听障用户、SEO、可搜索性 | 低(通常是字幕的副产品) | 每分钟0.50-2美元 |
| 手语翻译 | 以手语为母语的听障用户 | 非常高(需要专业翻译) | 每分钟100-200美元 |
| 键盘导航 | 运动障碍用户、重度用户 | 中等(需要播放器定制) | 仅开发时间 |
这是我在培训课程中使用的一个场景:想象一部纪录片中一个关键场景,受访者的面部表情从自信变为不安,当他们查看文件时。一个有视力的观众能立即捕捉到这个变化并理解其重要性。而盲人观众听到对话,但错过了视觉叙事。这就是音频描述的用武之地:“她看了一眼纸,微笑渐渐消退,眉头紧锁。”
好的音频描述是一种艺术形式。你需要在对话和声音的自然停顿中工作,描述正在发生的事情,而不是进行评论或解释。你不是说“她看起来很担心”——那是解释。你应该说“她的微笑消失了,眉头皱起”——那是描述。观众自己得出结论。
我曾与专业音频描述者合作,他们能在简单的停顿中传递令人惊叹的信息量。关键在于优先级:哪些视觉信息对理解故事必不可少?在烹饪视频中,你需要描述添加的材料、展示的烹饪技巧以及菜肴的最终外观。除非与内容相关,否则你不需要描述背景中的每个器具或厨师围裙的颜色。
技术要求也很重要。音频描述应以清晰、自然的声音录制,并与主要音频的音量相匹配。它应该作为单独的音轨提供,观众可以启用,而不是嵌入式。