ConvertiloConvertilo

Audio a Texto Online — Transcripción Gratis

Transcribe MP3, WAV, M4A: español, inglés, ruso y más de 16 idiomas. Funciona con Whisper localmente en tu navegador. Gratis, sin registro.

Arrastra y suelta tu archivo aquí o haz clic para seleccionar

Sobre el reconocimiento de voz en el navegador

Speech-to-Text es la transcripción automática de audio a texto. Suelta un MP3, WAV o M4A — Whisper (el modelo de licencia abierta de OpenAI) divide la grabación en ventanas de 30 segundos, localiza el habla, añade puntuación y devuelve el texto. Luego cópialo, descarga un .txt, o pulsa 'Traducir' para abrir el resultado en nuestro traductor.

Bajo el capó — Whisper, convertido a formato ONNX y ejecutado mediante transformers.js (Hugging Face) como WebAssembly directamente en tu navegador. Admite 99 idiomas; mostramos 16 de los más comunes en la interfaz — español, inglés, ruso, alemán, francés, italiano, portugués, ucraniano, polaco, checo, turco, neerlandés, chino, japonés, coreano, árabe. El modo 'Auto' permite que Whisper detecte el idioma a partir de los primeros segundos de audio.

El audio nunca sale de tu dispositivo — la transcripción se ejecuta localmente, en el navegador. El modelo se descarga una vez (~75 MB para Tiny, ~145 MB para Base) y se almacena en caché. Sin registro, sin límites, nada se sube a un servidor. Los archivos largos (>5 min) tardan más en transcribirse — ese es el precio de mantener la privacidad.

Dónde resulta útil

Transcribir una entrevista o pódcast

¿Grabaste una conversación con un experto o tu propio pódcast? Suelta el archivo y obtén texto listo para editar, citar o convertir en un artículo. Whisper maneja bien la puntuación y separa las líneas.

Hacer el acta de una reunión

Grabaste una reunión en un teléfono o Zoom — convierte la grabación en texto para encontrar rápidamente quién dijo qué y enviar un resumen. La precisión es mejor con una grabación limpia y sin mucho ruido.

Extraer citas de mensajes de voz

Notas de voz de Telegram, mensajes de voz de WhatsApp, memos de voz de iPhone — exporta el archivo, transcríbelo a texto. Útil cuando necesitas encontrar lo que dijo tu contacto o citarlo.

Transcribir un discurso extranjero y traducirlo

Conferencia en inglés, tutorial en vídeo en alemán, canción en español — transcribe primero y luego pulsa 'Traducir' para abrir el texto en nuestro traductor (también funciona localmente).

Preguntas frecuentes

¿Qué idiomas se admiten?

El desplegable muestra 16 de los más comunes: español, inglés, ruso, alemán, francés, italiano, portugués, ucraniano, polaco, checo, turco, neerlandés, chino, japonés, coreano, árabe. El propio modelo Whisper reconoce ~99 idiomas — el modo 'Auto' elige el idioma a partir de los primeros segundos. Si tu idioma no aparece en la lista, elige 'Auto'.

¿Se sube el audio a un servidor?

No. La transcripción es totalmente del lado del cliente — el modelo Whisper ONNX se descarga una vez a tu dispositivo (desde huggingface.co) y funciona localmente mediante WebAssembly. El archivo de audio en sí nunca se sube. Puedes desconectarte de internet tras cargar el modelo — la transcripción seguirá funcionando.

¿Qué precisión tiene?

Para voz limpia — normalmente 90–96% (modelo Tiny) o 94–98% (modelo Base). La precisión baja con ruido de fondo, varios hablantes simultáneos, acentos, habla poco clara y jerga especializada. Consejo — graba cerca del micrófono, sin música de fondo, y elige Base si la precisión importa.

¿Qué formatos de audio se admiten?

Cualquiera que la Web Audio API pueda decodificar: MP3, WAV, M4A (AAC de iPhone), AAC, OGG Vorbis, FLAC, OPUS, audio WebM. Memos de voz de iPhone (.m4a), notas de voz de Telegram (.ogg/.oga), grabaciones de Zoom (.m4a), pódcast estándar (.mp3) — todos funcionan.

¿Cuánto tarda la transcripción?

Depende de la duración y el modelo. Tiny en una CPU suele ir casi en tiempo real (1 minuto de audio ≈ 1 minuto de transcripción), Base es 1,5–2× más lento pero más preciso. La primera ejecución es más lenta porque el modelo debe descargarse (~75 MB para Tiny, ~145 MB para Base). Después, el modelo queda en caché en el navegador.

¿Puedo descargar el texto con marcas de tiempo?

No en la versión actual — solo texto plano. Whisper puede devolver marcas de tiempo a nivel de frase y de palabra; puede que lo añadamos en el futuro. ¿Necesitas subtítulos .srt o .vtt? Avísanos y lo añadiremos.

¿Puedo traducirlo enseguida?

Sí — tras la transcripción, haz clic en '→ Traducir'. Se abre nuestro traductor de texto con el texto ya rellenado. La traducción también funciona localmente (mediante Bergamot WASM de Mozilla), sin subir nada.

También puedes probar