В последнее время нейросети становятся все более разнообразными и продвинутыми. Одним из ярких примеров является Kandinsky 2.1 – улучшенная версия нейросети от «Сбера», которая способна генерировать изображения по текстовому запросу, смешивать несколько картинок, а также создавать изображение на основе другого.
Кандинский 2.1 была представлена на сайте компании, а также доступна через «умные» устройства Sber, в приложении «Салют», на платформах ML Space и Fusion Brain, а также в Telegram-боте. Это уже не первое обновление линейки Kandinsky: вспомним предыдущую версию Kandinsky 2.0, которая дебютировала в ноябре 2022 года.
Новая версия нейросети значительно обновлена: число параметров выросло с 2 млрд до 3,3 млрд, а модель была дополнительно обучена на 170 млн пар «текст — изображение». Это позволило значительно улучшить качество генерации изображений, особенно таких сложных объектов, как лица.
Kandinsky 2.1 примечательна своим функционалом: она способна создавать изображения по текстовому описанию, изменять их по текстовому запросу, смешивать несколько рисунков, дорисовывать недостающие части и генерировать изображения, похожие на заданное. В работе нейросети используется специальное представление картинки от CLIP – классификатора изображений от OpenAI.
Одной из ключевых особенностей Kandinsky 2.1 является многоязычность: нейросеть способна понимать запросы на 101 языке, включая русский и английский. Разработчики из Sber AI и ученые из Института искусственного интеллекта AIRI обучали модель на объединенном датасете Sber AI и SberDevices.
В целом, Kandinsky 2.1 стала значимым шагом вперед для генерации и обработки изображений при помощи нейросетей, упрощая и ускоряя создание контента для пользователей по всему миру.