Perspectivas desde TechCrunch Sessions: AI 2025 sobre cómo la IA multimodal revoluciona el análisis de vídeo para marketing, seguridad y gestión de activos digitales
En TechCrunch Sessions: AI 2025, celebrado el pasado 5 de junio en UC Berkeley, Jae Lee, cofundador y CEO de TwelveLabs, compartió conversación junto a Logan Kilpatrick (Google DeepMind) y Danielle Perszyk (Amazon). El foco: cómo las startups pueden construir y escalar sobre modelos multimodales de IA, especialmente en vídeo.
TwelveLabs se presenta como una de las empresas pioneras en «video-first AI»: modelos diseñados para extraer, analizar y buscar en vídeos de forma profunda, con aplicaciones que abren un nuevo horizonte para las industrias del marketing, medios, seguridad y gestión de contenido digital.
Según Jae Lee:
“Video is the fastest-growing — and most data-intensive — medium, yet most organizations aren’t going to devote human resources to cull through all their video archives.”
Esta afirmación subraya que, aunque el vídeo representa el formato con mayor crecimiento y complejidad, todavía no existen soluciones efectivas para su análisis automatizado. Aquí es donde TwelveLabs entra, permitiendo a marcas y empresas buscar, resumir y comprender vídeo automáticamente.
Lee explica:
Este enfoque “video-centric” abre aplicaciones prácticas:
Jae Lee señala que sistemas como Marengo pueden:
Con más de 30.000 desarrolladores activos, TwelveLabs ha sido adoptado por entidades gubernamentales y empresas que usan su API para análisis, segmentación y generación de insights en gran escala.
Un tema crucial es el sesgo en modelos que interpretan rostros o comportamientos. Lee explica que:
“We haven’t released formal bias benchmarks…Until we’ve […] accomplished this goal… we’re actively working to create AI that empowers organizations responsibly”.
Se comprometen a publicar herramientas que midan y controlen el sesgo, y aseguran que TwelveLabs se entrena con datos públicos o licenciados, no con datos sensibles de clientes.
A partir de la charla de Jae Lee, aquí tienes cómo puedes aplicar sus aprendizajes:
Tienes vídeos olvidados que podrían ayudar a generar insights o contenido reutilizable.
Aprovecha que puedes entrenarlo sobre tu contenido oficial para que entienda tu contexto de marca o estándar de producción.
Incorpora la API en tu data pipeline para análisis automatizados: desde Snowflake, Databricks o tu CMS.
Asegura transparencia en el uso de vídeo y evalúa sesgos antes de cualquier lanzamiento público o regulado.
La IA multimodal aplicada al vídeo representa una nueva frontera para el marketing, la comunicación y la gestión empresarial. DoceLabs y Jae Lee están mostrando cómo no basta con aplicar IA genérica: se trata de modelos diseñados desde el inicio para comprender el lenguaje visual y auditivo del vídeo.
Para las empresas, esto supone:
Escríbenos y en breve nos pondremos en contacto contigo.
O si lo prefieres, llámanos al 914 52 41 00