AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding

Jan 1, 2024·

Alessandro Suglia

,

Claudio Greco

,

Katie Baker

,

Jose L. Part

,

Ioannis Papaioannou

,

Arash Eshghi

,

Ioannis Konstas

,

Oliver Lemon

· 0 min read

Type

Journal article

Publication

CoRR

Last updated on Jan 1, 2024

← AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding Jan 1, 2024

CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts Jan 1, 2024 →