LLaVa

Автор Владислав Касаткин На чтение 1 мин Просмотров 869 Опубликовано 16.11.2023

Инструмент для углубленного понимания языка и зрения.

Инструмент LLaVA (Large Language and Vision Assistant) – это инновационная большая мультимодальная модель, предназначенная для визуального и языкового понимания общего назначения. Она сочетает в себе кодер зрения и большую языковую модель (LLM) Vicuna и проходит сквозное обучение. LLaVA демонстрирует впечатляющие возможности чата, имитируя производительность мультимодального GPT-4, и устанавливает новый уровень точности на задачах Science QA. Ключевой особенностью инструмента является его способность генерировать мультимодальные данные “язык – изображение – инструкция – следование”, используя только язык GPT-4. LLaVA имеет открытый исходный код и общедоступные данные, модели и код. Он доработан для решения таких задач, как визуальные чаты и рассуждения в научной области, и в обеих областях достиг высокой производительности.

Открыть LLaVa