MIT-IBM Sight And Sound

Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval
Nina Shvetsova, Brian Chen, Andrew Rouditchenko, Samuel Thomas, Brian Kingsbury, Rogerio Feris, David Harwath, James Glass, Hilde Kuehne, CVPR 2022

Paper , Code

Routing with Self-Attention for Multimodal Capsule Networks
Kevin Duarte, Brian Chen, Nina Shvetsova, Andrew Rouditchenko, Samuel Thomas, Alexander Liu, David Harwath, James Glass, Hilde Kuehne, Mubarak Shah; arXiv:2112.00775

Paper

Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos
Brian Chen, Andrew Rouditchenko, Kevin Duarte, Hilde Kuehne, Samuel Thomas, Angie Boggust, Rameswar Panda, Brian Kingsbury, Rogerio Feris, David Harwath, James Glass, Michael Picheny, Shih-Fu Chang; ICCV 2021

Paper , Code

AVLnet: Learning Audio-Visual Language Representations from Instructional Videos
Andrew Rouditchenko, Angie Boggust, David Harwath, Brian Chen, Dhiraj Joshi, Samuel Thomas, Kartik Audhkhasi, Hilde Kuehne, Rameswar Panda, Rogerio Feris, Brian Kingsbury, Michael Picheny, Antonio Torralba, James Glass; Interspeech 2021

Paper , Code

Cascaded Multilingual Audio-Visual Learning from Videos
Andrew Rouditchenko, Angie Boggust, David Harwath, Samuel Thomas, Hilde Kuehne, Brian Chen, Rameswar Panda, Rogerio Feris, Brian Kingsbury, Michael Picheny, James Glass; Interspeech 2021

Paper , Code

Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input
David Harwath, Adrià Recasens, Dídac Surís, Galen Chuang, Antonio Torralba, James Glass; IJCV 2020

Paper

Sight and sound

An MIT-IBM Watson
AI Project

People

Jim Glass

PI - MIT

Hilde Kuehne

PI - IBM

Leonid Karlinsky

PI - IBM

David Harwath

Senior Advisor
TU Austin

Brian
Kingsbury

Senior Advisor
IBM Research

Rogério
Feris

Senior Advisor
MIT-IBM Watson Lab

Samuel Thomas

Senior Advisor
IBM Research

Andrew Rouditchenko

PhD - MIT

Nina Shvetsova

PhD - Goethe University Frankfurt

Brian Chen

Phd - Columbia University

Layne Berry

PhD - University of Virginia

Alexander Liu

PhD - MIT

Yuan Gong

PhD - MIT

Papers

Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval
Nina Shvetsova, Brian Chen, Andrew Rouditchenko, Samuel Thomas, Brian Kingsbury, Rogerio Feris, David Harwath, James Glass, Hilde Kuehne, CVPR 2022

Routing with Self-Attention for Multimodal Capsule Networks
Kevin Duarte, Brian Chen, Nina Shvetsova, Andrew Rouditchenko, Samuel Thomas, Alexander Liu, David Harwath, James Glass, Hilde Kuehne, Mubarak Shah; arXiv:2112.00775

Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos
Brian Chen, Andrew Rouditchenko, Kevin Duarte, Hilde Kuehne, Samuel Thomas, Angie Boggust, Rameswar Panda, Brian Kingsbury, Rogerio Feris, David Harwath, James Glass, Michael Picheny, Shih-Fu Chang; ICCV 2021

Past Members

Kevin Duarte
Aisha Urooj
Sirnam Swetha
Aslı Çelik
Angie W Boggust
Kartik Audhkhasi
Dhiraj Joshi
Danny Gutfreund
Yang Zhang
Rameswar Panda
Antonio Torralba

Sight and soundAn MIT-IBM WatsonAI Project

People

Jim Glass

PI - MIT

Hilde Kuehne

PI - IBM

Leonid Karlinsky

PI - IBM

David Harwath

Senior Advisor TU Austin

BrianKingsbury

Senior AdvisorIBM Research

RogérioFeris

Senior AdvisorMIT-IBM Watson Lab

Samuel Thomas

Senior AdvisorIBM Research

Andrew Rouditchenko

PhD - MIT

Nina Shvetsova

PhD - Goethe University Frankfurt

Brian Chen

Phd - Columbia University

Layne Berry

PhD - University of Virginia

Alexander Liu

PhD - MIT

Yuan Gong

PhD - MIT

Papers

Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval Nina Shvetsova, Brian Chen, Andrew Rouditchenko, Samuel Thomas, Brian Kingsbury, Rogerio Feris, David Harwath, James Glass, Hilde Kuehne, CVPR 2022

Routing with Self-Attention for Multimodal Capsule NetworksKevin Duarte, Brian Chen, Nina Shvetsova, Andrew Rouditchenko, Samuel Thomas, Alexander Liu, David Harwath, James Glass, Hilde Kuehne, Mubarak Shah; arXiv:2112.00775

Multimodal Clustering Networks for Self-supervised Learning from Unlabeled VideosBrian Chen, Andrew Rouditchenko, Kevin Duarte, Hilde Kuehne, Samuel Thomas, Angie Boggust, Rameswar Panda, Brian Kingsbury, Rogerio Feris, David Harwath, James Glass, Michael Picheny, Shih-Fu Chang; ICCV 2021

Past Members

Kevin Duarte Aisha Urooj Sirnam Swetha Aslı Çelik Angie W Boggust Kartik Audhkhasi Dhiraj Joshi Danny Gutfreund Yang Zhang Rameswar Panda Antonio Torralba

Sight and sound

An MIT-IBM Watson
AI Project

Senior Advisor
TU Austin

Brian
Kingsbury

Senior Advisor
IBM Research

Rogério
Feris

Senior Advisor
MIT-IBM Watson Lab

Senior Advisor
IBM Research

Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval
Nina Shvetsova, Brian Chen, Andrew Rouditchenko, Samuel Thomas, Brian Kingsbury, Rogerio Feris, David Harwath, James Glass, Hilde Kuehne, CVPR 2022

Routing with Self-Attention for Multimodal Capsule Networks
Kevin Duarte, Brian Chen, Nina Shvetsova, Andrew Rouditchenko, Samuel Thomas, Alexander Liu, David Harwath, James Glass, Hilde Kuehne, Mubarak Shah; arXiv:2112.00775

Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos
Brian Chen, Andrew Rouditchenko, Kevin Duarte, Hilde Kuehne, Samuel Thomas, Angie Boggust, Rameswar Panda, Brian Kingsbury, Rogerio Feris, David Harwath, James Glass, Michael Picheny, Shih-Fu Chang; ICCV 2021

Kevin Duarte
Aisha Urooj
Sirnam Swetha
Aslı Çelik
Angie W Boggust
Kartik Audhkhasi
Dhiraj Joshi
Danny Gutfreund
Yang Zhang
Rameswar Panda
Antonio Torralba