Audio a Texto Online — Transcripción Gratis

Transcribe MP3, WAV, M4A: español, inglés, ruso y más de 16 idiomas. Funciona con Whisper localmente en tu navegador. Gratis, sin registro.

Arrastra y suelta tu archivo aquí o haz clic para seleccionar

Idioma hablado

Modelo

Sobre el reconocimiento de voz en el navegador

Speech-to-Text es la transcripción automática de audio a texto. Suelta un MP3, WAV o M4A — Whisper (el modelo de licencia abierta de OpenAI) divide la grabación en ventanas de 30 segundos, localiza el habla, añade puntuación y devuelve el texto. Luego cópialo, descarga un .txt, o pulsa 'Traducir' para abrir el resultado en nuestro traductor.

Bajo el capó — Whisper, convertido a formato ONNX y ejecutado mediante transformers.js (Hugging Face) como WebAssembly directamente en tu navegador. Admite 99 idiomas; mostramos 16 de los más comunes en la interfaz — español, inglés, ruso, alemán, francés, italiano, portugués, ucraniano, polaco, checo, turco, neerlandés, chino, japonés, coreano, árabe. El modo 'Auto' permite que Whisper detecte el idioma a partir de los primeros segundos de audio.

El audio nunca sale de tu dispositivo — la transcripción se ejecuta localmente, en el navegador. El modelo se descarga una vez (~75 MB para Tiny, ~145 MB para Base) y se almacena en caché. Sin registro, sin límites, nada se sube a un servidor. Los archivos largos (>5 min) tardan más en transcribirse — ese es el precio de mantener la privacidad.

Dónde resulta útil

Transcribir una entrevista o pódcast

¿Grabaste una conversación con un experto o tu propio pódcast? Suelta el archivo y obtén texto listo para editar, citar o convertir en un artículo. Whisper maneja bien la puntuación y separa las líneas.

Hacer el acta de una reunión

Grabaste una reunión en un teléfono o Zoom — convierte la grabación en texto para encontrar rápidamente quién dijo qué y enviar un resumen. La precisión es mejor con una grabación limpia y sin mucho ruido.

Extraer citas de mensajes de voz

Notas de voz de Telegram, mensajes de voz de WhatsApp, memos de voz de iPhone — exporta el archivo, transcríbelo a texto. Útil cuando necesitas encontrar lo que dijo tu contacto o citarlo.

Transcribir un discurso extranjero y traducirlo

Conferencia en inglés, tutorial en vídeo en alemán, canción en español — transcribe primero y luego pulsa 'Traducir' para abrir el texto en nuestro traductor (también funciona localmente).

Preguntas frecuentes

¿Qué idiomas se admiten?

El desplegable muestra 16 de los más comunes: español, inglés, ruso, alemán, francés, italiano, portugués, ucraniano, polaco, checo, turco, neerlandés, chino, japonés, coreano, árabe. El propio modelo Whisper reconoce ~99 idiomas — el modo 'Auto' elige el idioma a partir de los primeros segundos. Si tu idioma no aparece en la lista, elige 'Auto'.

¿Se sube el audio a un servidor?

No. La transcripción es totalmente del lado del cliente — el modelo Whisper ONNX se descarga una vez a tu dispositivo (desde huggingface.co) y funciona localmente mediante WebAssembly. El archivo de audio en sí nunca se sube. Puedes desconectarte de internet tras cargar el modelo — la transcripción seguirá funcionando.

¿Qué precisión tiene?

Para voz limpia — normalmente 90–96% (modelo Tiny) o 94–98% (modelo Base). La precisión baja con ruido de fondo, varios hablantes simultáneos, acentos, habla poco clara y jerga especializada. Consejo — graba cerca del micrófono, sin música de fondo, y elige Base si la precisión importa.

¿Qué formatos de audio se admiten?

Cualquiera que la Web Audio API pueda decodificar: MP3, WAV, M4A (AAC de iPhone), AAC, OGG Vorbis, FLAC, OPUS, audio WebM. Memos de voz de iPhone (.m4a), notas de voz de Telegram (.ogg/.oga), grabaciones de Zoom (.m4a), pódcast estándar (.mp3) — todos funcionan.

¿Cuánto tarda la transcripción?

Depende de la duración y el modelo. Tiny en una CPU suele ir casi en tiempo real (1 minuto de audio ≈ 1 minuto de transcripción), Base es 1,5–2× más lento pero más preciso. La primera ejecución es más lenta porque el modelo debe descargarse (~75 MB para Tiny, ~145 MB para Base). Después, el modelo queda en caché en el navegador.

¿Puedo descargar el texto con marcas de tiempo?

No en la versión actual — solo texto plano. Whisper puede devolver marcas de tiempo a nivel de frase y de palabra; puede que lo añadamos en el futuro. ¿Necesitas subtítulos .srt o .vtt? Avísanos y lo añadiremos.

¿Puedo traducirlo enseguida?

Sí — tras la transcripción, haz clic en '→ Traducir'. Se abre nuestro traductor de texto con el texto ya rellenado. La traducción también funciona localmente (mediante Bergamot WASM de Mozilla), sin subir nada.

También puedes probar

Imágenes

Comprimir, convertir, recortar

PDF

Unir, dividir, convertir

Herramientas de texto

Mayúsculas, transliteración, Markdown

Herramientas

QR, contraseñas, JSON, Base64

Calculadoras

Porcentajes, descuentos, préstamos