Multimodal AI

Models that see, hear, and read at once.

Multimodal AI describes models that take in and reason across more than one kind of data — text, images, audio, and video — in a single system, aligning those modalities so the model can answer about an image, transcribe and act on speech, or ground a response in a chart.

7 episodes

Gemini 3 & Robot Dogs: Inside Google DeepMind's AI Experiments | Paige Bailey Paige Bailey, Google DeepMind · Jan 14, 2026 · Transcript
The 2025 AI Shift: From Chat to Task Completion & Reliable Action | Galileo Founders Vikram Chatterji & Atindriyo Sanyal · May 28, 2025 · Transcript
Low-Code AI: From Requirements to Apps in Minutes | OutSystems' Rodrigo Coutinho Rodrigo Coutinho, OutSystems · Apr 16, 2025 · Transcript
The Making of Gemini 2.0: DeepMind's Approach to AI Development and Deployment | Logan Kilpatrick Logan Kilpatrick, Google DeepMind · Feb 12, 2025 · Transcript
Practical Lessons for GenAI Evals | Chip Huyen & Vivienne Zhang Chip Huyen & Vivienne Zhang · Dec 4, 2024 · Transcript
GenAI Predictions for 2025 | Databricks & Cohere Sara Hooker, Craig Wiley & Vikram Chatterji · Nov 20, 2024 · Transcript
Got Agents? Agentic Workflows & Architecture | Weaviate, Unstructured & CrewAI Brian Raymond, Bob van Luijt & João Moura · Nov 13, 2024 · Transcript

Explainer on this topic

What Is Multimodal AI Explainer · Jun 16, 2026

Guests on this topic

Paige Bailey Vikram Chatterji Atindriyo Sanyal Rodrigo Coutinho Logan Kilpatrick Chip Huyen Vivienne Zhang Sara Hooker Craig Wiley Brian Raymond Bob van Luijt João Moura