My talks at CVPR 2026 workshops | Juan Carlos Niebles

This is an accompanying post for my CVPR 2026 workshop talks.
I share slide decks below, link each workshop page, and include a short summary of each talk.

1) Agentic Ambient Intelligence: Perception, Reasoning & Action

Workshop: CV4Smalls 2026 @ CVPR
Slides (PDF): Download slides

Quick summary

This talk presents a capability stack for real-world AI assistants that operate in physical environments.
The focus is on four ingredients: space-time grounding, long-horizon active evidence search, scalable long-context video understanding, and motion-guided action/control.

Covered papers:

Strefer [1]
Active Video Perception (AVP) [2]
Linear Scaling Video VLMs for Long Video Understanding [3]
Future Optical Flow Prediction (FOFPred) [4]

2) Scaling Transformers: Architectures, Longer Contexts, Better Data

Workshop: T4V 2026 @ CVPR
Slides (PDF): Download slides

Quick summary

Transformers are central to modern visual AI, but progress is increasingly constrained by three bottlenecks: expensive architecture exploration, long-context inference costs, and limited open data foundations for fair benchmarking.
This talk is organized around those three levers: post-training architecture editing, efficient long/streaming inference, and large permissively licensed datasets.

Covered papers:

Exploring Diffusion Transformer Designs via Grafting [5]
Linear Scaling Video VLMs for Long Video Understanding [3]
GPIC: A Giant Permissive Image Corpus for Visual Generation [6]

3) Agentic Ambient Intelligence: Efficient Understanding & Action

Workshop: VITA 2026 @ CVPR
Slides (PDF): Download slides

Quick summary

This talk focuses on building practical Virtual Intelligent Task Assistants (VITAs) that can understand user intent, process long egocentric/streaming visual input, and react in time.
The emphasis is on efficient perception loops, long-context scaling, streaming event detection, and action-oriented motion prediction.

Covered papers:

Active Video Perception (AVP) [2]
Linear Scaling Video VLMs for Long Video Understanding [3]
Streaming Detection of Queried Event Start (SDQES) [7]
Future Optical Flow Prediction (FOFPred) [4]

References

Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data

Honglu Zhou, Xiangyu Peng, Shrikant Kendre, Michael S Ryoo, Silvio Savarese, Caiming Xiong, and Juan Carlos Niebles

In ICCV Workshop on What is Next in Multimodal Foundation Models?. Honolulu, Hawaii. Oct 2025

arXiv Bib Video Code Poster Website Data

@inproceedings{Zhou_ICCVW_2025,
  author = {Zhou, Honglu and Peng, Xiangyu and Kendre, Shrikant and Ryoo, Michael S and Savarese, Silvio and Xiong, Caiming and Niebles, Juan Carlos},
  title = {Strefer: Empowering Video {LLMs} with Space-Time Referring and Reasoning via Synthetic Instruction Data},
  booktitle = {ICCV Workshop on What is Next in Multimodal Foundation Models?},
  address = {Honolulu, Hawaii},
  month = oct,
  year = {2025},
}

Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding

Ziyang Wang, Honglu Zhou, Shijie Wang, Junnan Li, Caiming Xiong, Silvio Savarese, Mohit Bansal, Michael S. Ryoo, and Juan Carlos Niebles

In IEEE/CVF Conference on Computer Vision and Pattern Recognition, Findings (CVPR Findings). Denver, Colorado. Jun 2026

arXiv Bib Code Website

@inproceedings{Wang_CVPRF_2026,
  title = {Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding},
  author = {Wang, Ziyang and Zhou, Honglu and Wang, Shijie and Li, Junnan and Xiong, Caiming and Savarese, Silvio and Bansal, Mohit and Ryoo, Michael S. and Niebles, Juan Carlos},
  booktitle = {IEEE/CVF Conference on Computer Vision and Pattern Recognition, Findings (CVPR Findings)},
  year = {2026},
  month = jun,
  address = {Denver, Colorado},
}

Linear Scaling Video VLMs for Long Video Understanding

Cristobal Eyzaguirre, Jiajun Wu, and Juan Carlos Niebles

May 2026

arXiv Bib Blog

@preprint{EyzaguirreStateKV2026,
  title = {Linear Scaling Video VLMs for Long Video Understanding},
  author = {Eyzaguirre, Cristobal and Wu, Jiajun and Niebles, Juan Carlos},
  year = {2026},
  month = may,
}

Future Optical Flow Prediction Improves Robot Control and Video Generation

Kanchana Ranasinghe, Honglu Zhou, Yu Fang, Luyu Yang, Le Xue, Ran Xu, Caiming Xiong, Silvio Savarese, Michael S Ryoo, and Juan Carlos Niebles

In IEEE/CVF Conference on Computer Vision and Pattern Recognition, Findings (CVPR Findings). Denver, Colorado. Jun 2026

arXiv Bib Code Slides Website

@inproceedings{Ranasinghe_CVPRF_2026,
  title = {Future Optical Flow Prediction Improves Robot Control and Video Generation},
  author = {Ranasinghe, Kanchana and Zhou, Honglu and Fang, Yu and Yang, Luyu and Xue, Le and Xu, Ran and Xiong, Caiming and Savarese, Silvio and Ryoo, Michael S and Niebles, Juan Carlos},
  booktitle = {IEEE/CVF Conference on Computer Vision and Pattern Recognition, Findings (CVPR Findings)},
  year = {2026},
  month = jun,
  address = {Denver, Colorado},
}

Oral

Exploring Diffusion Transformer Designs via Grafting

Keshigeyan Chandrasegaran, Michael Poli, Daniel Y Fu, Dongjun Kim, Lea M Hadzic, Manling Li, Agrim Gupta, Stefano Massaroli, Azalia Mirhoseini, Juan Carlos Niebles, and 2 more authors

In Advances in Neural Information Processing Systems (NeurIPS). San Diego, California. Dec 2025

Awarded arXiv Bib Blog Code Website Talk

Oral

@inproceedings{chandrasegaran_NeurIPS_2025,
  title = {Exploring Diffusion Transformer Designs via Grafting},
  author = {Chandrasegaran, Keshigeyan and Poli, Michael and Fu, Daniel Y and Kim, Dongjun and Hadzic, Lea M and Li, Manling and Gupta, Agrim and Massaroli, Stefano and Mirhoseini, Azalia and Niebles, Juan Carlos and Ermon, Stefano and Fei-Fei, Li},
  booktitle = {Advances in Neural Information Processing Systems (NeurIPS)},
  address = {San Diego, California},
  year = {2025},
  month = dec,
}

GPIC: A Giant Permissive Image Corpus for Visual Generation

Keshigeyan Chandrasegaran, Kyle Sargent, Suchir Agarwal, Michael Jang, Michael Poli, Juan Carlos Niebles, Justin Johnson, Jiajun Wu, and Li Fei-Fei

May 2026

arXiv Bib Code Website Data

@preprint{KeshikGPIC2026,
  title = {GPIC: A Giant Permissive Image Corpus for Visual Generation},
  author = {Chandrasegaran, Keshigeyan and Sargent, Kyle and Agarwal, Suchir and Jang, Michael and Poli, Michael and Niebles, Juan Carlos and Johnson, Justin and Wu, Jiajun and Fei-Fei, Li},
  year = {2026},
  month = may,
}

Streaming Detection of Queried Event Start

Cristobal Eyzaguirre, Eric Tang, Shyamal Buch, Adrien Gaidon, Jiajun Wu, and Juan Carlos Niebles

In Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track. Vancouver, Canada. Dec 2024

arXiv Bib Blog Code Website Data

@inproceedings{Eyzaguirre_NeurIPS_2024,
  author = {Eyzaguirre, Cristobal and Tang, Eric and Buch, Shyamal and Gaidon, Adrien and Wu, Jiajun and Niebles, Juan Carlos},
  title = {Streaming Detection of Queried Event Start},
  booktitle = {Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track},
  address = {Vancouver, Canada},
  month = dec,
  year = {2024},
}

1) Agentic Ambient Intelligence: Perception, Reasoning & Action

Quick summary

2) Scaling Transformers: Architectures, Longer Contexts, Better Data

Quick summary

3) Agentic Ambient Intelligence: Efficient Understanding & Action

Quick summary

References

Enjoy Reading This Article?