Audio a Texto Online — Transcripción Gratis
Transcribe MP3, WAV, M4A: español, inglés, ruso y más de 16 idiomas. Funciona con Whisper localmente en tu navegador. Gratis, sin registro.
Arrastra y suelta tu archivo aquí o haz clic para seleccionar
Sobre el reconocimiento de voz en el navegador
Speech-to-Text es la transcripción automática de audio a texto. Suelta un MP3, WAV o M4A — Whisper (el modelo de licencia abierta de OpenAI) divide la grabación en ventanas de 30 segundos, localiza el habla, añade puntuación y devuelve el texto. Luego cópialo, descarga un .txt, o pulsa 'Traducir' para abrir el resultado en nuestro traductor.
Bajo el capó — Whisper, convertido a formato ONNX y ejecutado mediante transformers.js (Hugging Face) como WebAssembly directamente en tu navegador. Admite 99 idiomas; mostramos 16 de los más comunes en la interfaz — español, inglés, ruso, alemán, francés, italiano, portugués, ucraniano, polaco, checo, turco, neerlandés, chino, japonés, coreano, árabe. El modo 'Auto' permite que Whisper detecte el idioma a partir de los primeros segundos de audio.
El audio nunca sale de tu dispositivo — la transcripción se ejecuta localmente, en el navegador. El modelo se descarga una vez (~75 MB para Tiny, ~145 MB para Base) y se almacena en caché. Sin registro, sin límites, nada se sube a un servidor. Los archivos largos (>5 min) tardan más en transcribirse — ese es el precio de mantener la privacidad.
Dónde resulta útil
Transcribir una entrevista o pódcast
¿Grabaste una conversación con un experto o tu propio pódcast? Suelta el archivo y obtén texto listo para editar, citar o convertir en un artículo. Whisper maneja bien la puntuación y separa las líneas.
Hacer el acta de una reunión
Grabaste una reunión en un teléfono o Zoom — convierte la grabación en texto para encontrar rápidamente quién dijo qué y enviar un resumen. La precisión es mejor con una grabación limpia y sin mucho ruido.
Extraer citas de mensajes de voz
Notas de voz de Telegram, mensajes de voz de WhatsApp, memos de voz de iPhone — exporta el archivo, transcríbelo a texto. Útil cuando necesitas encontrar lo que dijo tu contacto o citarlo.
Transcribir un discurso extranjero y traducirlo
Conferencia en inglés, tutorial en vídeo en alemán, canción en español — transcribe primero y luego pulsa 'Traducir' para abrir el texto en nuestro traductor (también funciona localmente).
Preguntas frecuentes
¿Qué idiomas se admiten?
El desplegable muestra 16 de los más comunes: español, inglés, ruso, alemán, francés, italiano, portugués, ucraniano, polaco, checo, turco, neerlandés, chino, japonés, coreano, árabe. El propio modelo Whisper reconoce ~99 idiomas — el modo 'Auto' elige el idioma a partir de los primeros segundos. Si tu idioma no aparece en la lista, elige 'Auto'.
¿Se sube el audio a un servidor?
No. La transcripción es totalmente del lado del cliente — el modelo Whisper ONNX se descarga una vez a tu dispositivo (desde huggingface.co) y funciona localmente mediante WebAssembly. El archivo de audio en sí nunca se sube. Puedes desconectarte de internet tras cargar el modelo — la transcripción seguirá funcionando.
¿Qué precisión tiene?
Para voz limpia — normalmente 90–96% (modelo Tiny) o 94–98% (modelo Base). La precisión baja con ruido de fondo, varios hablantes simultáneos, acentos, habla poco clara y jerga especializada. Consejo — graba cerca del micrófono, sin música de fondo, y elige Base si la precisión importa.
¿Qué formatos de audio se admiten?
Cualquiera que la Web Audio API pueda decodificar: MP3, WAV, M4A (AAC de iPhone), AAC, OGG Vorbis, FLAC, OPUS, audio WebM. Memos de voz de iPhone (.m4a), notas de voz de Telegram (.ogg/.oga), grabaciones de Zoom (.m4a), pódcast estándar (.mp3) — todos funcionan.
¿Cuánto tarda la transcripción?
Depende de la duración y el modelo. Tiny en una CPU suele ir casi en tiempo real (1 minuto de audio ≈ 1 minuto de transcripción), Base es 1,5–2× más lento pero más preciso. La primera ejecución es más lenta porque el modelo debe descargarse (~75 MB para Tiny, ~145 MB para Base). Después, el modelo queda en caché en el navegador.
¿Puedo descargar el texto con marcas de tiempo?
No en la versión actual — solo texto plano. Whisper puede devolver marcas de tiempo a nivel de frase y de palabra; puede que lo añadamos en el futuro. ¿Necesitas subtítulos .srt o .vtt? Avísanos y lo añadiremos.
¿Puedo traducirlo enseguida?
Sí — tras la transcripción, haz clic en '→ Traducir'. Se abre nuestro traductor de texto con el texto ya rellenado. La traducción también funciona localmente (mediante Bergamot WASM de Mozilla), sin subir nada.