Saya masih ingat email yang mengubah cara saya berpikir tentang aksesibilitas video. Itu dari Sarah, seorang mahasiswa pascasarjana tunarungu yang mencoba mengikuti kursus online saya selama berminggu-minggu. "Saya bisa melihat semangat Anda saat mengajar," tulisnya, "tapi saya tidak mengerti apa yang Anda katakan." Pesan itu, yang dikirim tujuh tahun lalu, memulai perjalanan saya dari pembuat konten biasa menjadi advokat aksesibilitas — dan akhirnya ke peran saya saat ini sebagai Konsultan Aksesibilitas Senior di sebuah platform streaming besar, di mana saya telah membantu lebih dari 200 perusahaan membuat konten video mereka dapat diakses oleh jutaan pengguna.
💡 Poin Penting
- Memahami Lanskap Aksesibilitas: Lebih Dari Sekadar Kepatuhan
- Teks: Fondasi Aksesibilitas Video
- Deskripsi Audio: Melukis Gambar dengan Kata-kata
- Transkrip: Pahlawan Tak Terlupakan Aksesibilitas
Statistiknya cukup mengkhawatirkan: menurut Organisasi Kesehatan Dunia, lebih dari 1,5 miliar orang di seluruh dunia hidup dengan beberapa bentuk kehilangan pendengaran, sementara sekitar 285 juta orang mengalami gangguan penglihatan. Namun, studi 2023 oleh WebAIM menemukan bahwa hanya 31% video di platform populer yang menyertakan teks yang akurat, dan kurang dari 5% menawarkan deskripsi audio. Kita meninggalkan audiens yang besar — tidak hanya secara etis salah, tetapi juga merupakan kesalahan bisnis yang signifikan. Perusahaan yang memprioritaskan aksesibilitas melihat rata-rata peningkatan 28% dalam keterlibatan pemirsa dan peningkatan 35% dalam tingkat penyelesaian konten.
Di ai-mp4.com, kami telah bekerja untuk mengubah angka-angka ini dengan membuat alat aksesibilitas kelas profesional tersedia untuk semua orang. Namun teknologi saja tidak cukup. Anda perlu memahami mengapa, bagaimana, dan nuansa yang memisahkan konten yang mematuhi aturan dari konten yang benar-benar dapat diakses. Artikel ini menggambarkan dari pengalaman saya selama satu dekade bekerja dengan pembuat konten, tim hukum, dan yang terpenting, pengguna dengan disabilitas itu sendiri.
Memahami Lanskap Aksesibilitas: Lebih Dari Sekadar Kepatuhan
Ketika kebanyakan orang berpikir tentang aksesibilitas video, mereka segera melompat ke persyaratan hukum — Undang-Undang Penyandang Disabilitas Amerika, Bagian 508, atau Undang-Undang Aksesibilitas Eropa. Dan ya, kepatuhan itu penting. Saya telah memberikan konsultasi dalam tiga tuntutan hukum besar di mana perusahaan menghadapi denda melebihi $500.000 untuk konten video yang tidak dapat diakses. Namun, fokus hanya pada minimum hukum mengabaikan gambaran yang lebih besar.
Aksesibilitas yang sebenarnya adalah tentang desain universal: menciptakan konten yang berfungsi untuk semua orang, tanpa memandang kemampuan mereka. Selama waktu saya di sebuah universitas besar, kami melakukan studi menarik dengan 1.200 siswa. Kami menemukan bahwa 71% siswa tanpa disabilitas secara teratur menggunakan teks — di kafe yang bising, selama sesi belajar larut malam, atau ketika bahasa Inggris bukan bahasa pertama mereka. Teks bukan hanya akomodasi; itu adalah fitur yang meningkatkan pengalaman untuk semua orang.
Kasus bisnisnya juga sama menariknya. Ketika Netflix berinvestasi besar-besaran dalam fitur aksesibilitas antara 2014 dan 2018, mereka melihat basis pelanggan mereka tumbuh sebesar 89 juta pengguna. Meskipun tidak semua pertumbuhan itu dapat dianggap langsung berkaitan dengan aksesibilitas, penelitian internal mereka menunjukkan bahwa pasar dengan fitur aksesibilitas yang lebih baik memiliki tingkat retensi 23% lebih tinggi. Konten yang dapat diakses adalah konten yang lebih baik.
Tapi inilah yang kebanyakan orang tidak sadari: aksesibilitas bukanlah biner. Ada spektrum dari yang sepenuhnya tidak dapat diakses hingga yang gold-standard bisa diakses, dan sebagian besar konten berada di suatu tempat di tengah. Teks yang dihasilkan secara otomatis mungkin lebih baik daripada tidak sama sekali, tetapi itu tidak cukup baik. Saya telah meninjau ribuan video berteks otomatis, dan rata-rata tingkat akurasi berkisar sekitar 70-80% — yang terdengar lumayan sampai Anda menyadari itu berarti satu dari setiap empat atau lima kata salah. Untuk konten teknis, informasi medis, atau apapun dengan kosakata khusus, tingkat akurasi itu turun menjadi 50% atau lebih rendah.
Teks: Fondasi Aksesibilitas Video
Mari kita mulai dengan teks, karena mereka adalah fitur aksesibilitas yang paling umum dan yang paling sering salah dipahami oleh banyak orang. Saya telah menghabiskan ratusan jam untuk meninjau file teks, dan saya dapat memberitahu Anda bahwa perbedaan antara teks yang memadai dan teks yang luar biasa sangat besar.
"Aksesibilitas bukanlah fitur yang Anda tambahkan di akhir — ini adalah prinsip desain fundamental yang membuat konten Anda lebih baik untuk semua orang, bukan hanya pengguna dengan disabilitas."
Pertama, mari kita jelaskan terminologi. Teks tertutup (yang bisa dinyalakan dan dimatikan) tidak hanya mencakup dialog tetapi juga efek suara, musik, dan identifikasi pembicara. Subtitle, sebaliknya, biasanya hanya mencakup dialog yang diucapkan dan mengasumsikan pemirsa dapat mendengar elemen audio lainnya. Untuk tujuan aksesibilitas, Anda ingin menggunakan teks tertutup.
Teks berkualitas memerlukan tiga elemen: akurasi, sinkronisasi, dan kelengkapan. Akurasi berarti mendapatkan kata-kata dengan benar — dan saya maksudkan dengan benar. Tingkat akurasi 95% mungkin terdengar mengesankan, tetapi dalam video berdurasi 10 menit dengan 1.500 kata, itu berarti 75 kesalahan. Saya menyarankan untuk mencapai akurasi 99% atau lebih tinggi, yang biasanya memerlukan tinjauan manusia bahkan saat memulai dengan teks yang dihasilkan oleh AI.
Sinkronisasi juga sama pentingnya. Teks harus muncul dalam 100 milidetik dari audio dan tetap di layar cukup lama untuk dibaca dengan nyaman. Aturan umumnya adalah teks harus ditampilkan minimal satu detik dan maksimal enam detik, dengan kecepatan membaca tidak melebihi 160 kata per menit. Saya telah melihat terlalu banyak video di mana teks muncul begitu cepat sehingga bahkan pembaca terampil tidak dapat mengikuti, atau tertinggal begitu jauh di belakang audio sehingga pada dasarnya tidak berguna.
Kelengkapan berarti mencakup semuanya: dialog, efek suara, musik, dan identifikasi pembicara. Ketika seseorang mengetuk pintu, teks Anda harus mengatakan "[ketukan]". Ketika musik dramatis meningkat, catat sebagai "[musik tegang]" atau "[musik mengangkat]". Ketika beberapa orang berbicara, identifikasi siapa yang berbicara. Detail ini sangat penting bagi pemirsa tunarungu dan sulit mendengar yang berusaha memahami tidak hanya apa yang dikatakan, tetapi juga konteks penuh dan nada emosional dari adegan tersebut.
Di ai-mp4.com, kami telah mengembangkan alat AI yang secara otomatis memberi Anda 90% dari jalan tersebut, tetapi 10% terakhir — tinjauan dan penyempurnaan manusia — adalah apa yang memisahkan yang memadai dari yang luar biasa. Saya selalu memberi tahu klien: anggarkan untuk tinjauan manusia. Itu bukan opsional jika Anda peduli tentang kualitas.
Deskripsi Audio: Melukis Gambar dengan Kata-kata
Jika teks adalah fondasi aksesibilitas video, deskripsi audio adalah pilar kedua yang sering diabaikan. Deskripsi audio memberikan narasi elemen visual untuk pemirsa tunanetra dan dengan penglihatan rendah, dan di sinilah saya melihat kebingungan paling besar dan celah keterapan terbesar.
| Fitur Aksesibilitas | Siapa yang Dibantu | Kesulitan Implementasi | Dampak Biaya Rata-rata |
|---|---|---|---|
| Teks Tertutup | Tunarungu/keras mendengar, penutur non-pribumi, pemirsa tanpa suara | Rendah (alat otomatis tersedia) | $1-3 per menit |
| Deskripsi Audio | Pengguna tunanetra/penglihatan rendah | Tinggi (memerlukan penulisan skrip dan rekaman suara) | $15-50 per menit |
| Transkrip | Pengguna tunarungu, SEO, pencarian | Rendah (sering hasil sampingan dari teks) | $0.50-2 per menit |
| Interpretasi Bahasa Isyarat | Pengguna tunarungu yang bahasa pertamanya adalah isyarat | Sangat Tinggi (memerlukan penerjemah profesional) | $100-200 per menit |
| Navigasi Keyboard | Pengguna dengan gangguan motor, pengguna power | Sedang (memerlukan kustomisasi pemutar) | Waktu pengembangan saja |
Berikut adalah skenario yang saya gunakan dalam sesi pelatihan: bayangkan sebuah adegan penting dalam sebuah dokumenter di mana ekspresi wajah subjek berubah dari percaya diri menjadi tidak pasti saat mereka meninjau sebuah dokumen. Pemirsa yang dapat melihat menangkap perubahan itu dengan segera dan memahami artinya. Pemirsa tunanetra mendengar dialog tetapi melewatkan cerita visual. Di sinilah deskripsi audio masuk: "Dia melirik kertas, senyumannya memudar saat alisnya berkerut."
Deskripsi audio yang baik adalah seni. Anda bekerja dalam jeda alami dalam dialog dan suara, menggambarkan apa yang terjadi tanpa memberikan penafsiran atau menafsirkan. Anda tidak mengatakan "Dia terlihat khawatir" — itu adalah penafsiran. Anda mengatakan "Senyumannya memudar dan alisnya berkerut" — itu adalah deskripsi. Pemirsa menarik kesimpulan mereka sendiri.
Saya telah bekerja dengan deskriptor audio profesional yang dapat memasukkan informasi luar biasa ke dalam jeda singkat. Kuncinya adalah prioritas: informasi visual apa yang penting untuk memahami cerita? Dalam video memasak, Anda perlu menggambarkan bahan-bahan yang ditambahkan, teknik memasak yang ditunjukkan, dan penampilan akhir hidangan. Anda tidak perlu menggambarkan setiap peralatan di latar belakang atau warna apron koki kecuali itu relevan dengan konten.
Persyaratan teknis juga penting. Deskripsi audio harus direkam dengan suara yang jelas dan netral pada volume yang cocok dengan audio utama. Ini harus tersedia sebagai trek audio terpisah yang dapat diaktifkan pemirsa, bukan diintegrasikan ke dalam audio utama.