ConvertiloConvertilo

Vídeo a Texto Online — Transcripción y Subtítulos

Suelta un MP4, MOV, WebM o MKV — Whisper transcribe el habla directamente en tu navegador. Español, inglés, ruso y más de 16 idiomas. Sin registro, los archivos nunca salen de tu dispositivo.

Arrastra y suelta tu archivo aquí o haz clic para seleccionar

Sobre la transcripción de vídeo en el navegador

Video to Text es la transcripción automática del habla de un archivo de vídeo. Suelta un MP4, MOV, WebM o MKV — el navegador extrae la pista de audio, y Whisper (el modelo de licencia abierta de OpenAI) la divide en ventanas de 30 segundos, localiza el habla, añade puntuación y devuelve el texto. Luego cópialo, descarga un .txt, o pulsa 'Traducir' para abrir el resultado en nuestro traductor.

Bajo el capó — Whisper, convertido a formato ONNX y ejecutado mediante transformers.js (Hugging Face) como WebAssembly directamente en tu navegador. Admite 99 idiomas; mostramos 16 de los más comunes en la interfaz — español, inglés, ruso, alemán, francés, italiano, portugués, ucraniano, polaco, checo, turco, neerlandés, chino, japonés, coreano, árabe. El modo 'Auto' permite que Whisper detecte el idioma a partir de los primeros segundos de audio.

El vídeo nunca sale de tu dispositivo — la transcripción se ejecuta localmente, en el navegador. El modelo se descarga una vez (~75 MB para Tiny, ~145 MB para Base) y se almacena en caché. Sin registro, sin subida a un servidor. Los archivos largos (>5 min) tardan más en transcribirse — ese es el precio de mantener la privacidad.

Dónde resulta útil

Transcribir una entrevista de YouTube

Descargaste una entrevista o pódcast en vídeo — suelta el archivo y obtén texto listo para editar, citar o convertir en un artículo. Whisper maneja bien la puntuación y funciona con el habla conversacional habitual.

Hacer el acta de un webinar

Grabaste una llamada de Zoom o un webinar — convierte el vídeo en texto para encontrar rápidamente quién dijo qué y enviar un resumen al equipo. La precisión es mejor con una grabación limpia y sin mucho ruido de fondo.

Extraer subtítulos de un vídeo

Grabando para YouTube o TikTok — transcribe el habla para añadir subtítulos o escribir rápidamente una descripción. El texto se puede editar directamente en la página antes de descargarlo.

Transcribir un tutorial en idioma extranjero

Conferencia en inglés, tutorial en alemán, película en español — transcribe primero el habla y luego pulsa '→ Traducir' para abrir el texto en nuestro traductor (también funciona localmente).

Preguntas frecuentes

¿Qué formatos de vídeo se admiten?

Cualquiera que el navegador pueda decodificar: MP4 (H.264 + AAC — el más común), MOV (de iPhone), WebM, MKV, M4V, AVI, MPEG. El vídeo en sí no hace falta — solo extraemos la pista de audio. Si tu archivo no se abre, prueba a convertirlo primero a MP4, por ejemplo con nuestro convertidor de vídeo.

¿Se sube el vídeo a un servidor?

No. La transcripción es totalmente del lado del cliente — el modelo Whisper se descarga una vez a tu dispositivo y funciona localmente mediante WebAssembly. El archivo de vídeo en sí nunca se sube. Puedes desconectarte de internet tras cargar el modelo — la transcripción seguirá funcionando.

¿Qué precisión tiene?

Para voz limpia — normalmente 90–96% (modelo Tiny) o 94–98% (modelo Base). La precisión baja con música de fondo, varios hablantes simultáneos, acentos fuertes y jerga especializada. Si el vídeo tiene música o efectos altos, plantéate extraer primero solo el habla con nuestra herramienta 'Audio desde vídeo' + un editor.

¿Cuál es el tamaño máximo de vídeo?

Hasta 500 MB. Eso cubre la mayoría de los vídeos 720p de hasta 1–2 horas, o 1080p de hasta 30–60 minutos. Si tu archivo es más grande, recórtalo en cualquier editor de vídeo o recodifícalo antes a una tasa de bits menor. La calidad de vídeo no importa para la transcripción — solo el audio.

¿Cuánto tarda en transcribirse un vídeo de una hora?

Tiny en una CPU suele ir casi en tiempo real — 1 hora de vídeo ≈ 1 hora de transcripción. Base es 1,5–2× más lento pero más preciso. La primera ejecución es más lenta porque el modelo debe descargarse (~75 MB para Tiny, ~145 MB para Base). Después, el modelo queda en caché en el navegador y se omite en los siguientes archivos.

¿En qué se diferencia de los subtítulos automáticos de YouTube?

YouTube solo transcribe vídeos públicos, requiere subirlos a un servidor y a veces produce subtítulos automáticos de mala calidad. Aquí es privado, sin cuenta, puedes transcribir cualquier vídeo, ya sea de trabajo, personal o confidencial. El texto se puede editar en el navegador y se descarga al instante.

¿Puedo traducir la transcripción enseguida?

Sí — tras la transcripción, haz clic en '→ Traducir'. Se abre nuestro traductor de texto con el texto ya rellenado. La traducción también funciona localmente (mediante Bergamot WASM de Mozilla), sin subir nada.

También puedes probar