Shaking Up VLMs: Comparing Transformers and Structured State Space Models for Vision & Language Modeling

Jan 1, 2024·

Georgios Pantazopoulos

,

Malvina Nikandrou

,

Alessandro Suglia

,

Oliver Lemon

,

Arash Eshghi

· 0 min read

Type

Journal article

Publication

CoRR

Last updated on Jan 1, 2024

← Shaking Up VLMs: Comparing Transformers and Structured State Space Models for Vision & Language Modeling Jan 1, 2024

Visually Grounded Language Learning: A Review of Language Games, Datasets, Tasks, and Models Jan 1, 2024 →