Tại Sao Thông Số Nền Tảng Thực Sự Quan Trọng (Và Không Như Bạn Nghĩ)
Hầu hết các nhà sáng tạo đối xử với thông số kỹ thuật giống như điều khoản dịch vụ—một thứ mà bạn nên đọc nhưng không bao giờ thực sự làm. Họ xuất ra theo mặc định của phần mềm chỉnh sửa mà họ sử dụng, tải lên và hy vọng cho điều tốt nhất. Đôi khi thì hiệu quả. Thường thì không. Và họ không bao giờ biết lý do tại sao. Lý do thông số quan trọng không có gì liên quan đến những gì các nền tảng công khai khuyến nghị. YouTube nói rằng Shorts có thể "lên đến 60 giây" và TikTok nói rằng video có thể "lên đến 10 phút", nhưng đó chỉ là những giới hạn về những gì họ sẽ chấp nhận. Những gì họ thực sự thúc đẩy là một câu chuyện hoàn toàn khác. Cả hai nền tảng đều sử dụng quy trình xử lý đa giai đoạn. Khi bạn tải lên một video, nó không đi thẳng đến người xem. Đầu tiên, nó được chuyển mã—chuyển đổi thành nhiều phiên bản ở các mức chất lượng khác nhau cho việc phát trực tiếp thích ứng. Trong quá trình chuyển mã này, nền tảng phân tích các đặc điểm kỹ thuật của video của bạn. Độ phân giải, bitrate, tốc độ khung hình, không gian màu, mức âm thanh, thậm chí cấu trúc GOP (Nhóm Hình ảnh) trong codec của bạn. Nếu video nguồn của bạn đã gần giống như những gì nền tảng muốn xuất ra, thì quá trình chuyển mã sẽ nhanh chóng và sạch sẽ. Thuật toán coi đây là một tín hiệu chất lượng. Video của bạn nhanh chóng vào hồ bơi gợi ý và người xem thấy một kết quả sắc nét, mượt mà giữ họ xem lâu hơn. Nếu video nguồn của bạn là một mớ hỗn độn—tốc độ khung hình sai, bitrate phình to, không gian màu không khớp—quá trình chuyển mã sẽ mất nhiều thời gian hơn và giới thiệu các hiện tượng nén. Thuật toán giải thích điều này là chất lượng thấp. Video của bạn sẽ bị đánh giá thấp, và ngay cả khi nó được hiển thị, người xem thấy một phiên bản giảm chất lượng khiến họ nhanh chóng lướt qua. Tôi đã học điều này theo cách khó khăn với một thương hiệu thể hình mà tôi quản lý. Chúng tôi đã quay trên một chiếc Sony A7S III, những cảnh 4K tuyệt đẹp ở 120fps cho những hiệu ứng chuyển động chậm. Chúng tôi xuất ra với chất lượng đầy đủ—4K, bitrate 100Mbps, đầu ra 60fps—và tải lên cả hai nền tảng. Hiệu suất trên TikTok thì ở mức trung bình. YouTube Shorts thì thảm bại. Vấn đề là gì? Cả hai nền tảng đều nhận được tệp lớn này và phải làm việc quá sức để nén nó lại. Máy chủ TikTok mất 15-20 phút để xử lý một video dài 45 giây. YouTube Shorts đôi khi mất hơn một giờ. Khi các video đã lên sóng và sẵn sàng để vào thuật toán gợi ý, khoảng thời gian quan trọng trong giờ đầu tiên đã trôi qua. Khi tôi chuyển sang xuất ở 1080p, 30fps, với bitrate 10Mbps, thời gian xử lý giảm xuống còn chưa đầy 2 phút trên cả hai nền tảng. Quan trọng hơn, số lượt xem trong giờ đầu tiên tăng trung bình 340%. Nội dung giống nhau, chiến lược đăng tải giống nhau, chỉ khác nhau về thông số kỹ thuật.Cuộc Thí Nghiệm Ba Tháng Đã Thay Đổi Mọi Thứ
Vào tháng Giêng, tôi quyết định xử lý điều này như một cuộc thí nghiệm khoa học nghiêm túc. Tôi có 12 thương hiệu sản xuất nội dung, có nghĩa là tôi có khối lượng để làm việc. Tôi đã tạo ra một ma trận thử nghiệm với 47 cấu hình xuất khác nhau, thay đổi độ phân giải, tốc độ khung hình, bitrate, codec và cài đặt âm thanh. Mỗi thương hiệu sẽ sản xuất một nội dung mỗi tuần. Chúng tôi sẽ xuất nội dung đó dưới nhiều cấu hình khác nhau và tải lên chúng như các video tách biệt trên cả hai nền tảng, cách nhau 48 giờ để tránh tình trạng cạnh tranh nội bộ. Chúng tôi theo dõi lượt xem trong giờ đầu tiên, lượt xem 24 giờ, thời gian xem trung bình và tỷ lệ tương tác (thích + bình luận + chia sẻ trên mỗi lượt xem). Các thương hiệu trải dài từ làm đẹp, thể hình đến đánh giá công nghệ và nấu ăn. Các loại nội dung khác nhau, nhân khẩu học khán giả khác nhau, lịch trình đăng tải khác nhau. Nếu một xu hướng xuất hiện trên tất cả, tôi sẽ biết rằng đó là vấn đề của thông số chứ không phải của nội dung. Tuần đầu tiên là một mớ hỗn độn. Một số cấu hình thực hiện tốt hơn nhiều so với những cấu hình khác, nhưng không có xu hướng rõ ràng. Một xuất 4K sẽ thành công lớn cho một thương hiệu nhưng thất bại cho một thương hiệu khác. 60fps sẽ tăng cường tương tác cho nội dung công nghệ nhưng lại gây thiệt hại cho video nấu ăn. Tuần ba là khi tôi nhận thấy điều gì đó kỳ lạ. Tài khoản TikTok của thương hiệu làm đẹp liên tục vượt trội hơn YouTube Shorts từ 3-4 lần, bất kể cài đặt xuất. Nhưng thương hiệu đánh giá công nghệ lại cho thấy xu hướng ngược lại—YouTube Shorts đang thống trị. Ban đầu tôi nghĩ đây là do đối tượng, nhưng sau đó tôi nhìn vào các đặc điểm thực tế của video. Nội dung làm đẹp: rất nhiều cảnh gần, chuyển động mượt mà, ánh sáng nhẹ nhàng, ít mờ chuyển động. Nội dung công nghệ: ghi màn hình, cắt nhanh, độ tương phản cao, cạnh sắc. Thuật toán nén của TikTok được tối ưu hóa cho profile nội dung làm đẹp. Nó bảo toàn tông màu da và xử lý tốt các chuyển đổi màu dần. Nhưng nó thực sự phá hủy các cạnh sắc nét và chi tiết tinh. Văn bản trên màn hình trở nên mờ. Cảnh sản phẩm mất đi sự rõ nét. YouTube Shorts làm điều ngược lại. Nó tấn công mạnh hơn với sự làm mềm da (có thể khiến nội dung làm đẹp trông nhựa) nhưng bảo tồn chi tiết và độ sắc nét tốt hơn. Ghi màn hình và văn bản giữ được độ sắc nét. Đây là bước đột phá. Các thông số “tốt nhất” không phải là phổ quát—chúng phụ thuộc vào loại nội dung của bạn và thuật toán nén của nền tảng nào sẽ đối xử tốt hơn với nó. Đến tuần thứ tám, tôi đã có đủ dữ liệu để tạo ra các preset xuất tùy chỉnh cho nội dung. Đến tuần thứ mười hai, mỗi thương hiệu đều đạt được số lượt xem năm con số trong 24 giờ đầu tiên trên cả hai nền tảng. Video có hiệu suất kém nhất trong tháng cuối vẫn có 8,000 lượt xem. Ba tháng trước, đó sẽ là video tốt nhất của chúng tôi.Khi Một Video Nấu Ăn Dạy Tôi Về Keyframes
Một trong những thương hiệu tôi quản lý là một kênh công thức nấu ăn. Khái niệm đơn giản: cảnh trên cao của đôi tay chuẩn bị thực phẩm, tăng tốc để vừa trong 60 giây, với văn bản chồng lên cho các nguyên liệu và các bước. Nội dung này đang hoạt động tốt trên TikTok (20-40K lượt xem mỗi video) nhưng gần như không có dấu hiệu gì trên YouTube Shorts (500-2K lượt xem). Tôi không thể tìm ra lý do. Các thông số khớp với dữ liệu thử nghiệm của tôi. 1080p, 30fps, bitrate 8Mbps, codec H.264. Mọi thứ đều phải được tối ưu. Nhưng YouTube rõ ràng đã đánh giá thấp những video này. Sau đó, tôi đã xem một trong những video trên điện thoại của tôi và tôi đã thấy điều đó: mỗi lần video chuyển sang bước tiếp theo trong công thức, có một chút giật. Không phải là đông cứng, chỉ là một chút hiccup nhỏ khiến chuyển động cảm thấy giật cục. Trên TikTok, video tương tự thì mượt mà. Tôi đã mở tệp nguồn trong MediaInfo và kiểm tra cấu trúc GOP. GOP là viết tắt của Nhóm Hình ảnh—đó là cách mà các codec video tổ chức khung hình. Bạn có khung I (hình ảnh đầy đủ) và khung P (hình ảnh một phần tham chiếu từ các khung trước). Khoảng cách giữa các khung I là độ dài GOP của bạn. Các video nấu ăn của chúng tôi có độ dài GOP là 250 khung hình. Ở 30fps, đó là một khung I mỗi 8.3 giây. Nhưng chúng tôi đã thực hiện cắt mỗi 2-3 giây. Mỗi lần chúng tôi cắt, codec phải tham chiếu đến các khung hình mà không còn tồn tại trong ngữ cảnh của bản chỉnh sửa, buộc bộ giải mã phải làm việc chăm chỉ hơn và đôi khi gây ra những giật nhỏ đó. Trình phát của TikTok thì khoan dung hơn với điều này. Trình phát của YouTube Shorts thì không. Tôi đã thay đổi cài đặt xuất của chúng tôi để buộc một khung I mỗi 30 khung (1 giây ở 30fps). Kích thước tệp tăng khoảng 15%, nhưng sự giật biến mất. Quan trọng hơn, số lượt xem trên YouTube Shorts đã tăng lên để phù hợp với hiệu suất của TikTok. Thuật toán đã phát hiện các vấn đề giải mã đó và xem chúng như là vấn đề chất lượng."Lỗi lớn nhất mà các nhà sáng tạo mắc phải là nghĩ rằng các nền tảng quan tâm đến những gì trông tốt đối với mắt người. Họ quan tâm đến những gì dễ cho máy chủ của họ xử lý và cho thuật toán của họ phân tích. Một video trông hoàn hảo đối với bạn có thể là một cơn ác mộng tính toán cho nền tảng."Phát hiện về keyframe này đã dẫn tôi đến một chuỗi nghiên cứu. Tôi bắt đầu kiểm tra độ dài GOP trên tất cả các loại nội dung. Nội dung cắt nhanh (như đánh giá công nghệ với nhiều B-roll) cần các khung I mỗi 0.5-1 giây. Nội dung chậm hơn (như video thiền hoặc footage môi trường) có thể đi 2-3 giây giữa các khung I mà không gặp vấn đề gì. Điểm ngọt ngào cho hầu hết nội dung? Khung I mỗi 1 giây (30 khung ở 30fps, 60 khung ở 60fps). Nó đủ thường xuyên để xử lý các cắt một cách sạch sẽ nhưng không quá thường xuyên đến mức làm phình to kích thước tệp không cần thiết.
Các Con Số Thực: Điều Gì Thực Sự Hoạt Động
Dưới đây là dữ liệu từ cuộc thí nghiệm ba tháng của tôi, được trung bình trên tất cả 12 thương hiệu và 144 video tổng cộng:| Cấu Hình Xuất | Lượt Xem Trung Bình TikTok (24 giờ) | Lượt Xem Trung Bình YouTube Shorts (24 giờ) | Thời Gian Xem Trung Bình TikTok | Thời Gian Xem Trung Bình YouTube |
|---|---|---|---|---|
| 4K, 60fps, 50Mbps | 8,400 | 3,200 | 42% | 38% |
| 4K, 30fps, 25Mbps | 12,100 | 6,800 | 45% | 41% |
| 1080p, 60fps, 15Mbps | 18,600 | 14,200 | 48% | 46% |
| 1080p, 30fps, 10Mbps | 24,300 | 19,700 | 51% | 49% |
| 1080p, 30fps, 8Mbps | 26,800 | 22,400 | 52% | 51% |
| 1080p, 30fps, 5Mbps | 21,700 | 18,900 | 49% | 48% |
| 720p, 30fps, 5Mbps | 15,200 | 12,600 | 44% | 43% |