Aún no ha celebrado su segundo cumpleaños, pero está muy adelantada a su tiempo. ElevenLabs, una empresa estadounidense de investigación de tecnología de voz y editor de software de inteligencia artificial de audio, acaba de completar su primera ronda de financiación. Esta financiación, por un importe de 19 millones de dólares, se utilizará para continuar su investigación sobre la IA de voz y el despliegue de sus productos. La operación fue codirigida por los emprendedores Nat Friedman, CEO de GitHub y Daniel Gross, fundador de Pionero así como el fondo de capital riesgo Andreessen Horowitz. En esta ronda de financiación también participaron Credo Ventures, Concept Ventures y una serie de inversores estratégicos, entre ellos Mike Krieger, cofundador de Instagram, Brendan Iribe, cofundador de Oculus VR, Anjney Midha, cofundador de Ubiquity6, Mustafa Suleyman. , cofundador de Deepmind & Inflection, y muchos otros. Tenga en cuenta que tras esta adquisición, Andreessen Horowitz forma parte de la junta directiva.

Fundada por Mati Staniszewski, ex miembro de Palantir, y Piotr Dabkowski, ex ingeniero de software de Google, la joven empresa pasó su primer año desarrollando modelos de inteligencia artificial de audio capaces de crear las voces más versátiles y sensibles al contexto. Su plataforma, lanzada en versión beta en enero de 2023, ha atraído a más de 1 millón de usuarios registrados hasta la fecha que han generado más de 10 años de contenido de audio en creatividad, entretenimiento, juegos y edición. Sus herramientas pueden convertir cualquier texto en voz utilizando voces sintéticas, voces clonadas o creando voces artificiales completamente nuevas que pueden adaptarse según las preferencias de género, edad y acento. La joven empresa ha conseguido alcanzar un nivel de calidad de voz que califica como “casi indistinguible de la de un ser humano real con una latencia inferior a 1 segundo”.

Índice
  1. “Rompiendo completamente las barreras del idioma”
  2. Una herramienta de doblaje con IA prevista para 2023

“Rompiendo completamente las barreras del idioma”

Su plataforma se ha utilizado en particular para crear audiolibros, dar voz a personajes de videojuegos, ayudar a las personas con discapacidad visual a acceder a contenidos escritos en línea y alimentar el primer canal de radio con inteligencia artificial del mundo. Mati Staniszewski, CEO y cofundador de ElevenLabs, no oculta su orgullo: “Durante los últimos cinco meses, hemos visto nuestra tecnología adoptada por millones de creadores, empresas y mentes curiosas. Estamos apenas al comienzo de este viaje y ahora que Nat, Daniel y Andreessen Horowitz se unen a nosotros, tenemos los mejores socios para continuar en el ambicioso camino del futuro”. Con esta financiación, la start-up ofrece otros productos y llega a otros sectores. Así, ahora ofrece herramientas adicionales “que permiten a cualquiera crear un audiolibro completo en la plataforma en pocos minutos, así como un modelo de detección de voz mediante IA”.

Llamada Proyectos, la última innovación en inteligencia artificial de ElevenLabs es un flujo de trabajo muy buscado para editar y crear contenido hablado dinámico y de formato largo. Disponible ahora en acceso temprano Por lo tanto, antes de un lanzamiento general en julio, Projects está dirigido a los creadores de contenido, como editores y autores independientes, para que accedan a un nivel de control antes inalcanzable sobre su contenido de audio generado por IA. Para lograrlo, la empresa ha invertido mucho en su investigación sobre síntesis de voz de formato largo y relleno de audio. ElevenLabs incluso comparó Projects con Google Docs en términos de simplicidad y usabilidad.

Una herramienta de doblaje con IA prevista para 2023

Projects se une al conjunto de productos de ElevenLabs, que incluye Speech Synthesis, una plataforma de síntesis de voz que aprovecha voces sintéticas preexistentes, y VoiceLab, un flujo de trabajo para crear una voz única o una versión digital de una voz existente. La plataforma también proporcionó recientemente acceso a Eleven Multilingual, un modelo de conversión de texto a voz que se puede utilizar en los principales idiomas europeos. Todos estos desarrollos deberían conducir al desarrollo de una herramienta de doblaje de IA, cuyo lanzamiento está previsto para finales de este año. Con esta herramienta, los usuarios podrán doblar cualquier vídeo a cualquier idioma de forma eficiente y escalable, conservando la voz del hablante original. La empresa ya está realizando una serie de pruebas con socios de la industria para implementar el doblaje de IA a escala.

ElevenLabs también presenta su clasificador de voz con IA. Esta herramienta proporciona los medios para descargar una muestra de audio y determinar si el clip contiene audio generado por la IA del editor. Descrita como la primera de su tipo en el campo del audio generativo, la herramienta ahora está disponible para el público y para socios seleccionados en forma de API. Para Piotr Dabkowski, CTO y cofundador de ElevenLabs, el futuro parece prometedor: “Desde nuestra creación en abril de 2022, nos hemos centrado en construir un equipo excelente. [..]. Con un grupo tan sólido de colegas y socios, estamos en camino de hacer realidad nuestra ambición de romper por completo las barreras lingüísticas a través de la tecnología”. En definitiva, la joven empresa pretende “hacer que todos los contenidos sean universalmente accesibles en cualquier idioma y con cualquier voz”, como indica Mati Staniszewski.