Una startup de un año llamada Lemon Slice anunció que ha asegurado $10.5 millones en financiamiento inicial para acelerar el desarrollo de avatares digitales generadores de video que hablen y demuestren emociones en tiempo real, un avance que sus fundadores argumentan podría hacer que el servicio al cliente, el aprendizaje en línea e incluso la terapia se sientan más personales que los chatbots actuales limitados a texto.
Lanzada en 2024 por compañeros del MIT Lina Colucci y Sidney Primas, junto con el especialista en visión por computadora Andrew Weitz, Lemon Slice está construyendo un modelo de 20 mil millones de parámetros capaz de transformar una única imagen estática en un avatar interactivo en transmisión. El capital reciente, liderado por Matrix Partners con participación de Y Combinator y una cartera de inversores ángel reconocidos, financiará ingenieros adicionales, cubrirá el costoso tiempo de GPU y allanará el camino para un lanzamiento comercial el próximo año, según la empresa.
La ronda subraya la rapidez con que está intensificándose la carrera por humanizar las interfaces de inteligencia artificial. Aunque modelos de lenguaje grandes como ChatGPT han hecho que la conversación natural por texto sea casi trivial, el video en vivo sigue siendo obstinadamente difícil debido a las demandas de procesamiento y el infame «valle inquietante» que hace que los rostros sintéticos se sientan inquietantes. Al afirmar que puede generar 20 fotogramas por segundo en una única GPU y entregar los resultados a desarrolladores a través de un embed de una línea o API, Lemon Slice espera superar a rivales en un espacio que ya incluye D-ID, HeyGen, Synthesia y creadores de avatares como Genies y Soul Machine.
Detalles de la financiación
La ronda inicial de $10.5 millones fue reportada primero por TechCrunch el 23 de diciembre de 2025, que señaló la participación del cofundador de Dropbox Arash Ferdowsi, el cofundador de Twitch Emmett Shear y el dúo musical The Chainsmokers a través de Mantis VC, junto con los inversores institucionales principales. Ilya Sukhar, socio general de Matrix, declaró en observaciones preparadas que el equipo está «no solo creando demostraciones, sino entregando productos reales de aprendizaje automático», señalando su decisión de enfocarse en escalar canalizaciones de datos y computación en lugar de crear manualmente trucos de sincronización de labios.
Lo que está construyendo Lemon Slice
En el corazón del stack de la empresa está Lemon Slice-2, un modelo de estilo difusión entrenado en miles de millones de fotogramas. Según notas técnicas compartidas por los fundadores, el sistema mapea señales de audio-texto a formas de boca, movimientos de cabeza y parpadeos, luego renderiza la composición en tiempo real. Una capa de voz separada, impulsada por ElevenLabs, genera discurso que puede coincidir con la grabación del usuario o elegir de una biblioteca de voces sintéticas. Los desarrolladores pueden:
• Cargar una única foto de la cabeza para crear un avatar persistente.
• Modificar fondos, vestuario e iluminación a través de indicaciones de texto.
• Alternar entre personajes humanoides y no humanoides estilizados.
• Incrustar el avatar como un widget con una línea de JavaScript o invocarlo vía REST para flujos del lado del servidor.
«En los primeros días de la IA generativa, reconocimos que las interacciones de video se volverían cada vez más interactivas», dijo Colucci en una declaración. «Nuestro objetivo es crear avatares que se sientan naturales y atractivos, yendo más allá de las limitaciones actuales de las representaciones digitales».
Los experimentos de casos de uso en marcha incluyen un conserje de comercio electrónico que puede guiar a los compradores a través de tablas de tallas, un tutor de aprendizaje de idiomas que gesticula mientras habla y un asistente de terapia cognitivo-conductual que refleja el estado de ánimo del cliente. Lemon Slice no ha nombrado clientes piloto pero dijo que varias plataformas de educación y capacitación están probando la beta privada.
Salvaguardas y gobernanza
Con las preocupaciones sobre deepfakes escalando en la agenda política, la empresa dice que ha colocado «salvaguardas sólidas» alrededor del producto. Los algoritmos de coincidencia de rostros bloquean intentos de cargar la semejanza de figuras públicas, y el motor de voz rechaza muestras marcadas como protegidas bajo leyes de privacidad biométrica. Una capa de moderación de modelo de lenguaje grande examina scripts generados para detectar acoso, desinformación o desencadenantes de automutilación antes de que el avatar aparezca en pantalla. «La seguridad es una característica de primera clase, no una ocurrencia tardía», dijo Primas.
Por qué los inversores están prestando atención
Además de mostrar demostraciones en vivo en hardware modesto, Lemon Slice se diferencia al entregar un modelo generalizado en lugar de actores personalizados grabados en un estudio, un enfoque que puede reducir costos para empresas que necesitan cientos de videos de capacitación en diferentes idiomas. Jared Friedman, socio de Y Combinator, dijo que la arquitectura finalmente podría empujar avatares realistas «sobre el valle inquietante». Ese potencial de escala está atrayendo interés considerable incluso mientras los mercados de riesgo se enfrían en otros lugares.
Panorama competitivo
La startup entra en un campo saturado. Synthesia vende videos de capacitación prerenderizados protagonizados por 140 avatares con licencia, mientras que D-ID y HeyGen se enfocan en clips de marketing de corta duración. Genies construye personas caricaturescas para celebridades, y Soul Machine combina CGI con sensores de detección de emociones. La propuesta de Lemon Slice es que su rendimiento de 20 fps y una única GPU hace que avatares completamente interactivos sean viables para centros de llamadas o PNJs en juegos donde la latencia y el costo importan. Si los proveedores establecidos coincidirán con esa eficiencia o se basarán en su ventaja inicial en contratos empresariales es una pregunta abierta.
Hoja de ruta
Hoy la empresa emplea ocho personas. Weitz dijo que los nuevos fondos más que duplicarán la cantidad de personal, con búsquedas abiertas para ingenieros de investigación versados en modelos de difusión, líderes de producto para empaquetar el SDK y personal de ventas para convertir pilotos en niveles pagos. Una suscripción por niveles, con precio según minutos renderizados, está programada para lanzamiento público a mediados de 2026. «No podemos ser solo una demostración interesante», agregó Weitz. «Las empresas necesitan garantías de tiempo de actividad, acuerdos de procesamiento de datos y registros de auditoría, y esa infraestructura no es barata».
Implicaciones más amplias (análisis)
Si Lemon Slice o sus competidores tienen éxito, el video podría convertirse en la modalidad predeterminada para muchas interacciones de IA. Un representante de servicio al cliente de un banco podría aparecer como un avatar humano aprobado por la marca en lugar de una burbuja de chat giratoria; las aulas globales podrían convocar a un instructor de idiomas realista con gestos y acentos localizados; las aplicaciones de salud mental podrían ofrecer un rostro sensible que asiente y mantiene contacto visual, aliviando la incomodidad que algunos usuarios sienten con bots de texto. Para las empresas, la promesa es mayor participación y retención; para los usuarios, podría significar servicios más ricos y accesibles. Sin embargo, el mismo realismo que atrae a los inversores también genera preocupaciones sobre consentimiento, robo de identidad y erosión de la confianza en medios grabados. Las salvaguardas técnicas efectivas y la divulgación clara serán cruciales a medida que la tecnología se escale.
Fuentes
- https://techcrunch.com/2025/12/23/lemon-slice-nabs-10-5m-from-yc-and-matrix-to-build-out-its-digital-avatar-tech/
