Article-Journal

Visually Grounded Language Learning: A Review of Language Games, Datasets, Tasks, and Models

Visually Grounded Language Learning: A Review of Language Games, Datasets, Tasks, and Models

Jan 1, 2024

Shaking Up VLMs: Comparing Transformers and Structured State Space Models for Vision & Language Modeling

Jan 1, 2024

Repairs in a Block World: A New Benchmark for Handling User Corrections with Multi-Modal Language Models

Jan 1, 2024

PIXAR: Auto-Regressive Language Modeling in Pixel Space

Jan 1, 2024

Lost in Space: Probing Fine-grained Spatial Understanding in Vision and Language Resamplers

Jan 1, 2024

LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks

Jan 1, 2024

Learning To See But Forgetting To Follow: Visual Instruction Tuning Makes LLMs More Prone To Jailbreak Attacks

Jan 1, 2024

Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks

Jan 1, 2024

Enhancing Continual Learning in Visual Question Answering with Modality-Aware Feature Distillation

Jan 1, 2024

CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts

Jan 1, 2024