Entrevista: Jae Lee, CEO de TwelveLabs – Reinventando cómo entendemos el vídeo con inteligencia artificial

Perspectivas desde TechCrunch Sessions: AI 2025 sobre cómo la IA multimodal revoluciona el análisis de vídeo para marketing, seguridad y gestión de activos digitales

En TechCrunch Sessions: AI 2025, celebrado el pasado 5 de junio en UC Berkeley, Jae Lee, cofundador y CEO de TwelveLabs, compartió conversación junto a Logan Kilpatrick (Google DeepMind) y Danielle Perszyk (Amazon). El foco: cómo las startups pueden construir y escalar sobre modelos multimodales de IA, especialmente en vídeo.

TwelveLabs se presenta como una de las empresas pioneras en «video-first AI»: modelos diseñados para extraer, analizar y buscar en vídeos de forma profunda, con aplicaciones que abren un nuevo horizonte para las industrias del marketing, medios, seguridad y gestión de contenido digital.

Sobre la visión de TwelveLabs

¿Por qué centrarse en vídeo?

Según Jae Lee:

“Video is the fastest-growing — and most data-intensive — medium, yet most organizations aren’t going to devote human resources to cull through all their video archives.”

Esta afirmación subraya que, aunque el vídeo representa el formato con mayor crecimiento y complejidad, todavía no existen soluciones efectivas para su análisis automatizado. Aquí es donde TwelveLabs entra, permitiendo a marcas y empresas buscar, resumir y comprender vídeo automáticamente.

Qué hace diferente a su tecnología

Lee explica:

Los modelos de TwelveLabs interpretan acciones, objetos y sonidos, no solo texto.
Abordan el vídeo con una mentalidad de principio: “multimodal desde el arranque”, no añadiendo IA como una capa secundaria.
Permiten personalizar los modelos con datos propios: los clientes pueden entrenar IA sobre su librería de contenido, algo que grandes modelos generalistas no facilitan.

Este enfoque “video-centric” abre aplicaciones prácticas:

Marketing y medios: generar highlights automáticos, extracciones que impulsan contenido social.
Seguridad: detección en tiempo real de incidentes en webs, almacenes, cámaras públicas.
Gestión de activos digitales: buscar fragmentos específicos sin etiquetado manual, acelerando procesos.

Aplicaciones reales y casos de éxito

Jae Lee señala que sistemas como Marengo pueden:

Traducir una referencia (imagen o audio) en una búsqueda de vídeo relevante.
Integrarse en plataformas como Databricks y Snowflake para enriquecer workflows de datos.
Identificar patrones y anomalías en flujos de vídeo para seguridad urbana o industrial.

Con más de 30.000 desarrolladores activos, TwelveLabs ha sido adoptado por entidades gubernamentales y empresas que usan su API para análisis, segmentación y generación de insights en gran escala.

Ética, sesgos y bases de datos

Un tema crucial es el sesgo en modelos que interpretan rostros o comportamientos. Lee explica que:

“We haven’t released formal bias benchmarks…Until we’ve […] accomplished this goal… we’re actively working to create AI that empowers organizations responsibly”.

Se comprometen a publicar herramientas que midan y controlen el sesgo, y aseguran que TwelveLabs se entrena con datos públicos o licenciados, no con datos sensibles de clientes.

Claves para integrar IA multimodal en tu empresa

A partir de la charla de Jae Lee, aquí tienes cómo puedes aplicar sus aprendizajes:

Analiza tu inventario de vídeos

Tienes vídeos olvidados que podrían ayudar a generar insights o contenido reutilizable.

Define casos de uso claros

Marketing: resúmenes de eventos, creación de highlights, segmentación de audiencia.
Seguridad: detección de comportamientos fuera de norma.
Enterprise: análisis de reuniones, formación y procesos.

Personaliza tu modelo

Aprovecha que puedes entrenarlo sobre tu contenido oficial para que entienda tu contexto de marca o estándar de producción.

Enfócate en integración

Incorpora la API en tu data pipeline para análisis automatizados: desde Snowflake, Databricks o tu CMS.

Gestiona expectativas éticas

Asegura transparencia en el uso de vídeo y evalúa sesgos antes de cualquier lanzamiento público o regulado.

La IA multimodal aplicada al vídeo representa una nueva frontera para el marketing, la comunicación y la gestión empresarial. DoceLabs y Jae Lee están mostrando cómo no basta con aplicar IA genérica: se trata de modelos diseñados desde el inicio para comprender el lenguaje visual y auditivo del vídeo.

Para las empresas, esto supone:

Extraer valor de activos infrautilizados.
Automatizar creación y análisis de contenido.
Mejorar seguridad y control.
Hacer más accesible el contenido para su equipo y sus audiencias.

Entrevista: Jae Lee, CEO de TwelveLabs – Reinventando cómo entendemos el vídeo con inteligencia artificial

Sobre la visión de TwelveLabs

¿Por qué centrarse en vídeo?

Qué hace diferente a su tecnología

Aplicaciones reales y casos de éxito

Ética, sesgos y bases de datos

Claves para integrar IA multimodal en tu empresa

Elementos Relacionados

Entrevista a Tim Cook, CEO de Apple

Entrevista a Satya Nadella, CEO de Microsoft

Entrevista a Manuel Serrano Ortega, Presidente de Coolhunting Group

No queremos ser testigos del cambio, queremos ser catalizadores del cambio ayudando a crecer, a desarrollarse y a transformar a los que serán creadores de futuro mañana.

Este es un ecosistema en continuo movimiento. ¿Quieres formar parte de la transformación?