Bienvenido/a a ICEMD, nuestro Instituto de Innovación

Entrevista: Jae Lee, CEO de TwelveLabs – Reinventando cómo entendemos el vídeo con inteligencia artificial

Cómo la IA multimodal revoluciona el análisis de vídeo para marketing

Artículo
publicado: 25 Jun 2025
3 de lectura

COMPARTIR:

Perspectivas desde TechCrunch Sessions: AI 2025 sobre cómo la IA multimodal revoluciona el análisis de vídeo para marketing, seguridad y gestión de activos digitales

En TechCrunch Sessions: AI 2025, celebrado el pasado 5 de junio en UC Berkeley, Jae Lee, cofundador y CEO de TwelveLabs, compartió conversación junto a Logan Kilpatrick (Google DeepMind) y Danielle Perszyk (Amazon). El foco: cómo las startups pueden construir y escalar sobre modelos multimodales de IA, especialmente en vídeo.

TwelveLabs se presenta como una de las empresas pioneras en «video-first AI»: modelos diseñados para extraer, analizar y buscar en vídeos de forma profunda, con aplicaciones que abren un nuevo horizonte para las industrias del marketing, medios, seguridad y gestión de contenido digital.

Sobre la visión de TwelveLabs

 

¿Por qué centrarse en vídeo?

Según Jae Lee:

“Video is the fastest-growing — and most data-intensive — medium, yet most organizations aren’t going to devote human resources to cull through all their video archives.”

Esta afirmación subraya que, aunque el vídeo representa el formato con mayor crecimiento y complejidad, todavía no existen soluciones efectivas para su análisis automatizado. Aquí es donde TwelveLabs entra, permitiendo a marcas y empresas buscar, resumir y comprender vídeo automáticamente.

Qué hace diferente a su tecnología

Lee explica:

  • Los modelos de TwelveLabs interpretan acciones, objetos y sonidos, no solo texto.
  • Abordan el vídeo con una mentalidad de principio: “multimodal desde el arranque”, no añadiendo IA como una capa secundaria.
  • Permiten personalizar los modelos con datos propios: los clientes pueden entrenar IA sobre su librería de contenido, algo que grandes modelos generalistas no facilitan.

Este enfoque “video-centric” abre aplicaciones prácticas:

  1. Marketing y medios: generar highlights automáticos, extracciones que impulsan contenido social.
  2. Seguridad: detección en tiempo real de incidentes en webs, almacenes, cámaras públicas.
  3. Gestión de activos digitales: buscar fragmentos específicos sin etiquetado manual, acelerando procesos.

Aplicaciones reales y casos de éxito

Jae Lee señala que sistemas como Marengo pueden:

  • Traducir una referencia (imagen o audio) en una búsqueda de vídeo relevante.
  • Integrarse en plataformas como Databricks y Snowflake para enriquecer workflows de datos.
  • Identificar patrones y anomalías en flujos de vídeo para seguridad urbana o industrial.

Con más de 30.000 desarrolladores activos, TwelveLabs ha sido adoptado por entidades gubernamentales y empresas que usan su API para análisis, segmentación y generación de insights en gran escala.

Ética, sesgos y bases de datos

Un tema crucial es el sesgo en modelos que interpretan rostros o comportamientos. Lee explica que:

“We haven’t released formal bias benchmarks…Until we’ve […] accomplished this goal… we’re actively working to create AI that empowers organizations responsibly”.

Se comprometen a publicar herramientas que midan y controlen el sesgo, y aseguran que TwelveLabs se entrena con datos públicos o licenciados, no con datos sensibles de clientes.

Claves para integrar IA multimodal en tu empresa

A partir de la charla de Jae Lee, aquí tienes cómo puedes aplicar sus aprendizajes:

  1. Analiza tu inventario de vídeos

Tienes vídeos olvidados que podrían ayudar a generar insights o contenido reutilizable.

  1. Define casos de uso claros
  • Marketing: resúmenes de eventos, creación de highlights, segmentación de audiencia.
  • Seguridad: detección de comportamientos fuera de norma.
  • Enterprise: análisis de reuniones, formación y procesos.
  1. Personaliza tu modelo

Aprovecha que puedes entrenarlo sobre tu contenido oficial para que entienda tu contexto de marca o estándar de producción.

  1. Enfócate en integración

Incorpora la API en tu data pipeline para análisis automatizados: desde Snowflake, Databricks o tu CMS.

  1. Gestiona expectativas éticas

Asegura transparencia en el uso de vídeo y evalúa sesgos antes de cualquier lanzamiento público o regulado.

La IA multimodal aplicada al vídeo representa una nueva frontera para el marketing, la comunicación y la gestión empresarial. DoceLabs y Jae Lee están mostrando cómo no basta con aplicar IA genérica: se trata de modelos diseñados desde el inicio para comprender el lenguaje visual y auditivo del vídeo.

Para las empresas, esto supone:

  • Extraer valor de activos infrautilizados.
  • Automatizar creación y análisis de contenido.
  • Mejorar seguridad y control.
  • Hacer más accesible el contenido para su equipo y sus audiencias.

Elementos Relacionados

vídeos
artículos
estudios
ebooks
infografías
eventos

No queremos ser testigos del cambio, queremos ser catalizadores del cambio ayudando a crecer, a desarrollarse y a transformar a los que serán creadores de futuro mañana.

Este es un ecosistema en continuo movimiento. ¿Quieres formar parte de la transformación?

Escríbenos y en breve nos pondremos en contacto contigo.

O si lo prefieres, llámanos al 914 52 41 00