FFmpeg for Beginners: The Commands You Actually Need [Español]

# FFmpeg para Principiantes: Los Comandos que Realmente Necesitas Mi primer comando de FFmpeg tardó 45 minutos en escribirse y produjo un archivo de 0 bytes. Lo había copiado de Stack Overflow, cambié el nombre del archivo de entrada, presioné enter, y observé cómo el terminal se deslizaba con mensajes crípticos sobre "sobrecarga de multiplexión" y "duplicación de cuadros" antes de escupir un archivo que no se abriría en ningún reproductor. Lo intenté de nuevo. Otro archivo de 0 bytes. El tercer intento hizo que mi computadora portátil se bloqueara. Ahora, siete años después, puedo transcodificar cualquier cosa mientras duermo. He escrito más de 10,000 comandos de FFmpeg para todo, desde la graduación de color HDR 4K hasta canales de transmisión en tiempo real que manejan millones de espectadores. Mantengo la wiki interna de FFmpeg de nuestra empresa, que ha crecido hasta 247 páginas de recetas, dificultades y conocimientos adquiridos sobre peculiaridades de códecs que no están documentados en ningún otro lugar. Esto es lo que desearía que alguien me hubiera dicho desde el primer día: FFmpeg no es difícil porque la sintaxis sea complicada. Es difícil porque nadie explica el modelo mental. Una vez que entiendes cómo FFmpeg piensa sobre flujos, contenedores y códecs, todo encaja en su lugar. Dejas de copiar comandos a ciegas y comienzas a componerlos como oraciones. Esta guía contiene los comandos que realmente uso cada semana, no los casos exóticos que llenan la mayoría de los tutoriales. Estos son los caballos de batalla que manejan el 90% de las tareas de video del mundo real. No solo explicaré qué hace cada comando, sino también por qué funciona y cuándo lo usarías en lugar de otras alternativas.

Cómo Funciona Realmente FFmpeg (Y Por Qué Tu Primer Comando Falló)

FFmpeg opera sobre un principio simple que todos entienden mal al principio: lee flujos de entradas, los procesa a través de filtros y los escribe en salidas. La confusión proviene del hecho de que un solo archivo de video contiene múltiples flujos—generalmente un flujo de video, uno o más flujos de audio, y a veces flujos de subtítulos o flujos de metadatos. Cuando ejecutas `ffmpeg -i input.mp4 output.mp4`, FFmpeg hace un montón de suposiciones sobre lo que quieres. Elige el flujo de video "mejor", el flujo de audio "mejor", los copia a través de codificadores predeterminados y los multiplexa en el contenedor de salida. Esto funciona bien para conversiones simples, pero se desmorona en el momento en que necesitas control. La razón por la que mi primer comando produjo un archivo de 0 bytes fue porque había especificado combinaciones de códecs y contenedores incompatibles. Estaba tratando de poner un flujo de video VP9 en un contenedor MP4, lo cual no es compatible. FFmpeg comenzó a codificar, se dio cuenta de que no podía escribir la salida y se rindió. El mensaje de error estaba enterrado en 200 líneas de salida que no sabía cómo leer. Aquí está el modelo mental que cambió todo para mí: piensa en FFmpeg como un canal con tres etapas. Primero, desmultiplexión—FFmpeg abre tu archivo de entrada y lo separa en flujos individuales. Segundo, procesamiento—cada flujo pasa por un códec (codificador/decodificador) y filtros opcionales. Tercero, multiplexión—los flujos procesados se empaquetan en un contenedor de salida. Cada comando de FFmpeg sigue este patrón: ``` ffmpeg [opciones globales] [opciones de entrada] -i input [opciones de salida] output ``` El orden es enormemente importante. Las opciones antes de `-i` se aplican a la entrada. Las opciones después de `-i` se aplican a la salida. Si pones `-c:v libx264` antes de `-i`, FFmpeg intentará decodificar la entrada como H.264, lo cual probablemente no es lo que deseas. Ponlo después de `-i`, y codifica la salida como H.264. El otro concepto crucial son los especificadores de flujo. Cuando escribes `-c:v`, estás diciendo "aplica este códec a los flujos de video." `-c:a` se dirige a los flujos de audio. `-c:s` se dirige a los subtítulos. Puedes ser aún más específico con `-c:v:0` para el primer flujo de video o `-c:a:1` para el segundo flujo de audio. Una vez que entendí esta estructura, dejé de producir archivos de 0 bytes. Podía leer la salida de FFmpeg y entender lo que estaba haciendo en cada etapa. Podía depurar problemas aislando si la cuestión estaba en la desmultiplexión, el procesamiento o la multiplexión.

El Día en que Transcodifiqué 50,000 Videos (Y Lo que Aprendí)

Hace tres años, nuestra empresa adquirió a un competidor. Parte de la adquisición incluía su biblioteca de videos completa—50,000 videos en un formato que no soportábamos. Habían usado un códec propietario que requería un reproductor específico, y necesitábamos que todo fuera convertido a H.264 estándar para nuestra plataforma. El enfoque ingenuo habría sido escribir un bucle simple: para cada video, ejecutar FFmpeg con configuraciones básicas, esperar a que terminara, pasar al siguiente. A un promedio de 2 minutos por video, eso habría tomado 69 días de procesamiento continuo. Teníamos dos semanas. Este proyecto me enseñó más sobre FFmpeg que los tres años anteriores combinados. Aprendí sobre aceleración de hardware, procesamiento paralelo y las docenas de configuraciones de codificador que realmente importan. Aprendí cuáles métricas de calidad son significativas y cuáles son tonterías de marketing. Más importante aún, aprendí que el comando "mejor" de FFmpeg depende completamente de tus restricciones. Terminamos construyendo un sistema de transcodificación distribuido que procesaba 200 videos simultáneamente a través de 40 máquinas. Cada máquina ejecutaba 5 instancias de FFmpeg, cuidadosamente ajustadas para maximizar el uso de CPU sin excesos. Usamos decodificación acelerada por hardware donde estaba disponible, pero codificación por software porque la diferencia de calidad era significativa para nuestro caso de uso. El comando en el que nos decidimos se veía así: ```bash ffmpeg -hwaccel auto -i input.mov \ -c:v libx264 -preset medium -crf 23 \ -c:a aac -b:a 128k \ -movflags +faststart \ -max_muxing_queue_size 1024 \ output.mp4 ``` Déjame desglosar por qué cada opción es importante. `-hwaccel auto` le dice a FFmpeg que use decodificación de hardware si está disponible—esto redujo nuestro tiempo de decodificación en un 60% en máquinas con GPUs compatibles. `-preset medium` equilibra la velocidad de codificación con la eficiencia de compresión. Probamos todos los presets; `medium` fue el punto dulce donde obtuvimos el 95% de la calidad de `slower` en la mitad del tiempo. La configuración `-crf 23` controla la calidad usando el Factor de Tasa Constante. Números más bajos significan mayor calidad y archivos más grandes. Probamos valores de CRF de 18 a 28 en una muestra de 100 videos y hicimos que nuestro equipo de video realizara comparaciones de calidad a ciegas. Nadie pudo distinguir de manera confiable CRF 23 de CRF 20, pero los tamaños de archivo eran un 30% más pequeños. `-movflags +faststart` mueve el átomo moov al comienzo del archivo, lo que permite la reproducción progresiva a través de HTTP. Sin esta bandera, los navegadores tienen que descargar el archivo completo antes de que puedan comenzar a reproducir. Esta única opción mejoró nuestras métricas de experiencia del usuario en un 15%. La opción `-max_muxing_queue_size 1024` resolvió un problema que nos costó tres días de depuración. Algunos de los videos de origen tenían tasas de fotogramas variables que causaban que los búferes internos de FFmpeg se desbordaran. El tamaño de cola predeterminado es de 8 paquetes, lo cual no es suficiente para contenido VFR. Aumentarlo a 1024 eliminó los errores de "Demasiados paquetes en búfer para la transmisión de salida" que estaban fallando el 5% de nuestras conversiones. Terminamos el proyecto en 11 días. El sistema distribuido procesó 4,545 videos por día, con una tasa de éxito del 99.2%. Las fallas fueron todos archivos de origen que estaban corrompidos o usaban códecs que no podíamos decodificar. Aún uso variaciones de ese comando hoy—es la base de todo nuestro canal de procesamiento de video.

Matriz de Compatibilidad de Códec y Contenedor

Uno de los aspectos más frustrantes de FFmpeg para principiantes es entender qué códecs funcionan con qué contenedores. Puedes pasar una hora elaborando el comando perfecto solo para que falle porque estás tratando de poner un códec incompatible en un contenedor que no lo soporta. Aquí está la matriz de compatibilidad que consulto constantemente:

Contenedor	Códigos de Video	Códigos de Audio	Mejor Para
MP4	H.264, H.265, AV1	AAC, MP3, Opus	Reproducción web, dispositivos móviles, compatibilidad universal
WebM	VP8, VP9, AV1	Vorbis, Opus	Transmisión web, proyectos de código abierto, YouTube
MKV	Cualquier cosa	Cualquier cosa	Archivado, múltiples pistas de audio, subtítulos
MOV	H.264, ProRes, DNxHD	AAC, PCM	Edición profesional, ecosistema de Apple
AVI	MPEG-4, H.264 (limitado)	MP3, PCM	Sistemas heredados (evitar para nuevos proyectos)
TS	H.264, H.265, MPEG-2	AAC, MP3, AC-3	Transmisión, streaming HLS

El contenedor MKV es especial porque es un contenedor universal que soporta prácticamente cualquier códec. Cuando no estoy seguro si una combinación de códec/contenedor funcionará, uso MKV como prueba. Si funciona en MKV pero falla en MP4, sé que es una limitación del contenedor, no un problema del códec. MP4 es el contenedor más ampliamente compatible, pero tiene requisitos estrictos. Soporta oficialmente H.264 y H.265 para video, y AAC para audio. A veces puedes forzar otros códecs en MP4, pero la compatibilidad de reproducción se vuelve impredecible. Aprendí esto de la manera difícil cuando puse audio Opus en un archivo MP4—se reproducía bien en mi máquina Linux, pero fallaba en cada dispositivo iOS. WebM es el formato de contenedor abierto de Google, diseñado específicamente para uso web. Solo soporta VP8, VP9 y AV1 para video, y Vorbis u Opus para audio. La ventaja es que todos los navegadores modernos admiten WebM de forma nativa. La desventaja es que no es tan ampliamente soportado fuera de contextos web. Para trabajar profesionalmente en video, MOV sigue siendo el estándar. Soporta códecs de alta calidad como ProRes y DNxHD que preservan la máxima calidad para la edición. Estos códecs producen archivos enormes—un video ProRes 422 HQ de 1 minuto a 1080p es de aproximadamente 2GB—pero están diseñados para edición, no para distribución.

Los Ajustes de Calidad que Nadie Explica Correctamente

Cada tutorial de FFmpeg te dice que uses `-crf 23` para "buena calidad" o `-b:v 5M` para "5 megabits por segundo." Pero nadie explica lo que realmente hacen estos ajustes o cómo elegir los valores correctos para tu contenido. He pasado cientos de horas probando ajustes de calidad en diferentes tipos de contenido. Esto es lo que he aprendido: no hay un ajuste "mejor" universal. Los parámetros de calidad óptimos dependen de tu tipo de contenido, audiencia objetivo y método de distribución.

"El Factor de Tasa Constante (CRF) es un modo de codificación basado en calidad donde especificas un nivel de calidad y dejas que el codificador use tantos bits como necesite para lograr esa calidad. Valores de CRF más bajos significan mayor calidad y archivos más grandes. El rango es de 0 a 51 para H.264, donde 0 es sin pérdidas y 51 es la peor calidad posible. El predeterminado es 23, que se considera 'visualmente transparente' para la mayoría del contenido—lo que significa que la mayoría de las personas no pueden distinguirlo de la fuente."

El problema con CRF es que produce salida de tasa de bits variable. Una escena de acción de alta movilidad podría usar 10 Mbps mientras que una escena estática de conversación usa 2 Mbps. Esto es eficiente para el tamaño del archivo, pero puede causar problemas para la transmisión donde necesitas un uso predecible del ancho de banda. Para la transmisión, deseas tasa de bits constante (CBR) o tasa de bits variable con restricciones (VBR). Aquí está el comando que uso para la transmisión: ```bash ffmpeg -i input.mp4 \ -c:v libx264 -preset medium \ -b:v 5M -maxrate 5M -bufsize 10M \ -c:a aac -b:a 128k \ output.mp4 ``` La `-b:v 5M` establece la tasa de bits objetivo en 5 megabits por segundo. `-maxrate 5M` se asegura de que nunca supere esa tasa. `-bufsize 10M` establece el tamaño del búfer del decodificador en el doble de la tasa de bits, que es la recomendación estándar. Esto produce una salida que se transmite sin interrupciones. Pero aquí está lo que la mayoría de la gente hace mal: los requisitos de tasa de bits escalan con la resolución y el movimiento, no de forma lineal. Un video de 1080p no necesita el doble de la tasa de bits de un video de 720p—necesita aproximadamente 1.5x. Un video 4K no necesita cuatro veces la tasa de bits de 1080p—necesita aproximadamente 2.5x.

"El sistema visual humano es logarítmico, no lineal. Duplicar la tasa de bits no"