Tôi vẫn nhớ email đã thay đổi cách tôi suy nghĩ về khả năng truy cập video. Nó từ Sarah, một sinh viên tốt nghiệp khiếm thính, người đã cố gắng theo dõi khóa học trực tuyến của tôi trong nhiều tuần. "Tôi có thể thấy đam mê của bạn khi bạn dạy," cô ấy viết, "nhưng tôi không hiểu bạn đang nói gì." Tin nhắn đó, được gửi cách đây bảy năm, đã khởi đầu hành trình của tôi từ một người tạo nội dung bình thường đến một nhà vận động cho khả năng truy cập - và cuối cùng là vai trò hiện tại của tôi như một tư vấn viên cao cấp về khả năng truy cập tại một nền tảng phát trực tuyến lớn, nơi tôi đã giúp hơn 200 công ty làm cho nội dung video của họ có thể truy cập được cho hàng triệu người dùng.
💡 Những điểm chính
- Hiểu về Cách thức Khả năng Truy cập: Hơn cả Việc Tuân thủ
- Phụ đề: Nền tảng của Khả năng Truy cập Video
- Mô tả Âm thanh: Vẽ Hình bằng Từ ngữ
- Bảng sao: Người hùng chưa được công nhận của Khả năng Truy cập
Các thống kê thật nghiêm trọng: theo Tổ chức Y tế Thế giới, có hơn 1,5 tỷ người trên toàn thế giới sống với một số hình thức khiếm thính, trong khi khoảng 285 triệu người bị khiếm thị. Tuy nhiên, một nghiên cứu năm 2023 của WebAIM cho thấy chỉ 31% video trên các nền tảng phổ biến bao gồm phụ đề chính xác, và ít hơn 5% cung cấp mô tả âm thanh. Chúng ta đang bỏ lỡ một khán giả lớn - không chỉ sai về mặt đạo đức, mà còn là một sai lầm lớn trong kinh doanh. Các công ty ưu tiên khả năng truy cập thấy mức tăng trung bình 28% trong sự tương tác của người xem và tăng 35% tỷ lệ hoàn thành nội dung.
Tại ai-mp4.com, chúng tôi đã làm việc để thay đổi những con số này bằng cách cung cấp các công cụ khả năng truy cập ở cấp độ chuyên nghiệp cho mọi người. Nhưng chỉ công nghệ không đủ. Bạn cần hiểu lý do, cách thức, và những sắc thái phân tách nội dung tuân thủ khỏi nội dung thực sự có thể truy cập. Bài viết này rút ra từ một thập kỷ kinh nghiệm làm việc với các nhà tạo nội dung, các đội ngũ pháp lý, và quan trọng nhất, người dùng có khuyết tật.
Hiểu về Cách thức Khả năng Truy cập: Hơn cả Việc Tuân thủ
Khi phần lớn mọi người nghĩ về khả năng truy cập video, họ ngay lập tức nhảy vào các yêu cầu pháp lý - Đạo luật người khuyết tật của Mỹ, Điều 508, hoặc Đạo luật Khả năng Truy cập Châu Âu. Và đúng, việc tuân thủ là quan trọng. Tôi đã tư vấn cho ba vụ kiện lớn mà các công ty đã phải chịu các hình phạt vượt quá 500.000 đô la vì nội dung video không thể truy cập. Nhưng chỉ tập trung vào các mức tối thiểu pháp lý làm bỏ qua bức tranh lớn hơn.
Khả năng truy cập thực sự là thiết kế toàn cầu: tạo ra nội dung phù hợp cho tất cả mọi người, bất kể khả năng của họ. Trong thời gian làm việc tại một trường đại học lớn, chúng tôi đã tiến hành một nghiên cứu thú vị với 1.200 sinh viên. Chúng tôi phát hiện ra rằng 71% sinh viên không khuyết tật thường xuyên sử dụng phụ đề - trong các quán cà phê ồn ào, trong các buổi học đêm khuya, hoặc khi tiếng Anh không phải là ngôn ngữ mẹ đẻ của họ. Phụ đề không chỉ là một sự điều chỉnh; chúng là một tính năng giúp cải thiện trải nghiệm cho tất cả mọi người.
Chúng cũng có lý do kinh doanh hấp dẫn. Khi Netflix đầu tư mạnh vào các tính năng khả năng truy cập từ năm 2014 đến 2018, họ đã thấy số lượng người đăng ký tăng thêm 89 triệu người. Mặc dù không tất cả sự phát triển đó có thể quy cho khả năng truy cập, nhưng nghiên cứu nội bộ của họ cho thấy các thị trường có các tính năng khả năng truy cập tốt hơn có tỷ lệ giữ chân cao hơn 23%. Nội dung có thể truy cập đơn giản là nội dung tốt hơn.
Nhưng đây là điều mà phần lớn mọi người không nhận ra: khả năng truy cập không phải là nhị phân. Có một phổ từ hoàn toàn không thể truy cập đến khả năng truy cập tiêu chuẩn vàng, và hầu hết nội dung nằm ở giữa. Phụ đề tự động có thể tốt hơn là không có gì, nhưng chúng không đủ tốt. Tôi đã xem xét hàng ngàn video có phụ đề tự động, và tỷ lệ chính xác trung bình rơi vào khoảng 70-80% - điều này nghe có vẻ tốt cho đến khi bạn nhận ra rằng điều đó có nghĩa là một trong bốn hoặc năm từ là sai. Đối với nội dung kỹ thuật, thông tin y tế, hoặc bất kỳ thứ gì có từ vựng chuyên biệt, độ chính xác đó giảm xuống còn 50% hoặc thấp hơn.
Phụ đề: Nền tảng của Khả năng Truy cập Video
Chúng ta hãy bắt đầu với phụ đề, vì đây là tính năng khả năng truy cập phổ biến nhất và là điều mà hầu hết mọi người mắc sai lầm. Tôi đã dành hàng trăm giờ để xem xét các tệp phụ đề, và tôi có thể nói với bạn rằng sự khác biệt giữa phụ đề đủ và phụ đề xuất sắc là rất lớn.
"Khả năng truy cập không phải là một tính năng bạn thêm vào cuối cùng - nó là một nguyên tắc thiết kế cơ bản giúp nội dung của bạn tốt hơn cho mọi người, không chỉ riêng người dùng khuyết tật."
Đầu tiên, hãy làm rõ thuật ngữ. Phụ đề đóng (có thể được bật và tắt) không chỉ bao gồm đối thoại mà còn cả hiệu ứng âm thanh, chỉ dấu nhạc, và xác định người nói. Ngược lại, phụ đề thường chỉ bao gồm đối thoại nói và giả định rằng người xem có thể nghe các yếu tố âm thanh khác. Để phục vụ mục đích khả năng truy cập, bạn cần phụ đề đóng.
Phụ đề chất lượng yêu cầu ba yếu tố: độ chính xác, đồng bộ hóa, và tính đầy đủ. Độ chính xác có nghĩa là ghi đúng từ - và tôi có nghĩa là hoàn toàn đúng. Tỷ lệ chính xác 95% có thể nghe có vẻ ấn tượng, nhưng trong một video 10 phút với 1.500 từ, đó là 75 lỗi. Tôi khuyên nên đặt mục tiêu cho độ chính xác 99% trở lên, điều này thường yêu cầu xem xét của con người ngay cả khi bắt đầu với phụ đề do AI tạo ra.
Đồng bộ hóa cũng rất quan trọng. Phụ đề nên xuất hiện trong vòng 100 mili giây so với âm thanh và giữ trên màn hình đủ lâu để đọc thoải mái. Quy tắc chung là phụ đề nên hiển thị ít nhất một giây và tối đa là sáu giây, với tốc độ đọc không vượt quá 160 từ mỗi phút. Tôi đã thấy quá nhiều video mà phụ đề xuất hiện quá nhanh đến nỗi ngay cả những người đọc thành thạo cũng không thể theo kịp, hoặc chậm trễ xa so với âm thanh đến mức gần như vô dụng.
Tính đầy đủ có nghĩa là bao gồm mọi thứ: đối thoại, hiệu ứng âm thanh, nhạc, và xác định người nói. Khi ai đó gõ cửa, phụ đề của bạn nên nói "[gõ cửa]". Khi nhạc kịch tăng lên, hãy ghi chú là "[nhạc căng thẳng]" hoặc "[nhạc nâng cao tinh thần]". Khi nhiều người nói, hãy xác định ai là người đang nói. Những chi tiết này có ý nghĩa rất lớn đối với những người xem khiếm thính và khó nghe đang cố gắng hiểu không chỉ những gì đang được nói, mà còn cả bối cảnh đầy đủ và tông màu cảm xúc của cảnh.
Tại ai-mp4.com, chúng tôi đã phát triển các công cụ AI giúp bạn hoàn thành 90% công việc một cách tự động, nhưng 10% cuối cùng - việc xem xét và hoàn thiện của con người - chính là điều phân tách sự đủ từ sự xuất sắc. Tôi luôn nói với khách hàng: hãy dành ngân sách cho việc xem xét của con người. Nó không phải là tùy chọn nếu bạn quan tâm đến chất lượng.
Mô tả Âm thanh: Vẽ Hình bằng Từ ngữ
Nếu phụ đề là nền tảng của khả năng truy cập video, thì mô tả âm thanh là trụ cột thứ hai thường bị bỏ qua. Mô tả âm thanh cung cấp lời kể về các yếu tố hình ảnh cho người dùng khiếm thị và thị lực kém, và đó là nơi tôi thấy nhiều sự nhầm lẫn nhất cũng như những khoảng cách lớn trong việc thực hiện.
| Tính năng Khả năng Truy cập | Ai được Giúp đỡ | Độ Khó trong Triển khai | Tác động Chi phí Trung bình |
|---|---|---|---|
| Phụ đề Đóng | Người khiếm thính/nghe yếu, người nói không phải là tiếng mẹ đẻ, người xem không có âm thanh | Thấp (có các công cụ tự động) | $1-3 mỗi phút |
| Mô tả Âm thanh | Người khiếm thị/thị lực kém | Cao (cần viết kịch bản và ghi âm giọng nói) | $15-50 mỗi phút |
| Bảng sao | Người khiếm thính, SEO, khả năng tìm kiếm | Thấp (thường là sản phẩm phụ của phụ đề) | $0.50-2 mỗi phút |
| Phiên dịch Ngôn ngữ Ký hiệu | Người khiếm thính mà ngôn ngữ đầu tiên là ký hiệu | Rất cao (cần phiên dịch viên chuyên nghiệp) | $100-200 mỗi phút |
| Điều hướng Bằng Bàn phím | Người có khiếm khuyết vận động, người dùng chuyên nghiệp | Trung bình (cần tùy chỉnh trình phát) | Chỉ thời gian phát triển |
Đây là một kịch bản mà tôi sử dụng trong các buổi đào tạo: hãy tưởng tượng một cảnh quan trọng trong một bộ phim tài liệu nơi biểu cảm trên khuôn mặt của chủ thể thay đổi từ tự tin sang không chắc chắn khi họ xem xét một tài liệu. Một người xem mắt nhìn nhận sự chuyển biến đó ngay lập tức và hiểu được ý nghĩa của nó. Một người xem khiếm thị nghe được đối thoại nhưng bỏ lỡ câu chuyện hình ảnh. Đó là lúc mô tả âm thanh lên tiếng: "Cô ấy nhìn xuống tờ giấy, nụ cười của cô ấy phai nhạt khi làn sóng suy tư hiện rõ trên trán."
Mô tả âm thanh tốt là một nghệ thuật. Bạn đang làm việc trong các khoảng dừng tự nhiên trong đối thoại và âm thanh, mô tả những gì đang diễn ra mà không thêm thắt hay diễn giải. Bạn không nói "Cô ấy trông lo lắng" - đó là sự diễn giải. Bạn đang nói "Nụ cười của cô ấy phai nhạt và trán cô ấy nhíu lại" - đó là sự mô tả. Người xem tự rút ra kết luận của riêng mình.
Tôi đã làm việc với những người mô tả âm thanh chuyên nghiệp có thể nhồi nhét những thông tin đáng kinh ngạc vào những khoảng dừng ngắn. Chìa khóa là sự ưu tiên: thông tin hình ảnh nào là cần thiết cho việc hiểu câu chuyện? Trong một video nấu ăn, bạn cần mô tả nguyên liệu được thêm vào, kỹ thuật nấu ăn được trình diễn, và hình thức cuối cùng của món ăn. Bạn không cần phải mô tả mọi dụng cụ trong bối cảnh hoặc màu sắc của tạp dề của đầu bếp trừ khi nó có liên quan đến nội dung.
Các yêu cầu kỹ thuật cũng rất quan trọng. Mô tả âm thanh nên được ghi âm bằng một giọng nói rõ ràng, trung tính với âm lượng phù hợp với âm thanh chính. Nó nên được cung cấp dưới dạng một bản âm thanh tách riêng mà người xem có thể bật, chứ không phải được tích hợp mà không thể tắt.