OpenAI представила генерацию изображений для GPT-4o - Каталог НЕЙРОСЕТЕЙ и ИИ инструментов

Компания OpenAI анонсировала новую функцию генерации изображений, встроенную в модель GPT-4o. Теперь пользователи могут создавать изображения прямо в чате с GPT — без необходимости переходить в отдельные инструменты вроде DALL·E. Это очередной шаг к превращению GPT-4o в универсального ассистента, способного не только обрабатывать текст, но и генерировать визуальный контент.

Широкоформатное изображение, сделанное на телефон, — стеклянная доска в комнате с видом на мост Бэй-Бридж. В поле зрения — женщина, пишущая в футболке с большим логотипом OpenAI. Почерк выглядит естественным и немного небрежным, и мы видим отражение фотографа.

Текст гласит:

(слева)
“Передача между модальностями:

Предположим, что мы напрямую моделируем
p(текст, пиксели, звук) [уравнение]
с помощью одного большого авторегрессионного преобразователя.

Плюсы:
* генерация изображений с использованием обширных знаний о мире
* рендеринг текста на новом уровне
* встроенное контекстное обучение
* унифицированный стек после обучения

Минусы:
* разная скорость передачи данных в разных режимах
* вычисления не адаптивны

(Вправо)
«Исправления:
* модель сжатых представлений
* составьте авторегрессионный приор с мощным декодером»

В правом нижнем углу доски она рисует схему:
Подробнее

^{Лучший из 8}

селфи фотографа, когда она оборачивается, чтобы дать ему пять

^{Лучший из 8}

Что такое генерация изображений в GPT-4o

Новая функция позволяет пользователям задавать визуальные запросы в естественном языке — от простых («нарисуй город будущего») до сложных и многослойных («иллюстрация для научно-фантастического романа в стиле 80-х с неоновыми огнями и туманом»). Система интерпретирует запрос и выдает изображение прямо в чате. Не нужно переформулировать или использовать специальные теги — всё работает «из коробки».

Снимок экрана 2025-03-24 в 10:48:37 утра

превратите это в фотографию

Снимок экрана 2025-03-24 в 10:48:47 утра

^{Лучшее из ~ 4}

OpenAI подчеркивает, что качество генерации улучшено: изображения создаются быстрее, становятся более детализированными, а анимация процесса — плавной. Пользователю доступна возможность наблюдать, как изображение постепенно проявляется, что делает взаимодействие более живым.

Подарите этому коту детективную шляпу и монокль

^{Лучший из 1}

Превратите это в видеоигру класса «А», созданную с помощью игрового движка 4K, и добавьте пользовательский интерфейс в виде наложения из таинственной ролевой игры, где мы можем видеть шкалу здоровья и мини-карту вверху, а также заклинания внизу с единообразной и узнаваемой иконографией

^{Лучший из 1}

обновите до соотношения сторон 16:9, добавьте больше заклинаний в пользовательский интерфейс и уменьшите масштаб, чтобы мы видели кота от третьего лица, идущего по Манхэттену в стиле стимпанк, создавая красивый контраст и освещение, как в лучшей игре с рейтингом «ААА», с холодными цветами

^{Лучшее из 2-х}

создайте интерфейс, когда игрок открывает меню, и мы видим профиль персонажа-кота с его снаряжением и другую страницу с активными заданиями (и это должно иметь смысл в контексте вселенной, которую мы описываем на изображении)

^{Лучший из 8}

Безопасность и защита от злоупотреблений

С момента запуска функции текстовой генерации изображений в DALL·E 3, OpenAI активно развивает методы контентной модерации. Генератор изображений GPT-4o использует аналогичную архитектуру, включая:

• автоматическую фильтрацию опасных или неэтичных запросов;

• распознавание вредоносного контента;

• маркировку изображений с помощью системы C2PA, которая указывает, что изображение создано ИИ.

Эти меры особенно важны на фоне роста числа инструментов дипфейков и генеративного контента, способного вводить пользователей в заблуждение.

Зачем это нужно пользователям

Генерация изображений в GPT-4o особенно интересна тем, кто работает с визуальным контентом: дизайнерам, маркетологам, авторам презентаций и создателям цифровых продуктов. Возможность быстро получить иллюстрацию к идее прямо в ходе диалога с ИИ — это экономия времени и новый уровень интерактивности.

Сценарии применения:

• создание обложек и иллюстраций для статей;

• разработка визуальных концептов продуктов;

• помощь в визуализации идей на этапе мозгового штурма;

• генерация сторибордов и кадров для видео.

Конкуренция на фоне других генеративных ИИ

Появление этой функции поднимает планку для других игроков, таких как Midjourney, Pika или Ideogram. Но ключевое отличие GPT-4o — в синергии между текстом, изображением и (в будущем) видео и аудио в одном интерфейсе.

OpenAI стремится не просто создать отдельный инструмент генерации изображений, а предложить единое пространство для взаимодействия с ИИ. Это напоминает интеграцию Excel с Power BI или Photoshop с Firefly: одно окно — множество задач.

Когда и где доступно

Функция генерации изображений в GPT-4o пока внедряется постепенно. На момент написания статьи она уже работает в десктопной версии ChatGPT (при использовании GPT-4o) и доступна через API. Мобильная версия получит поддержку позже.

Заключение

Генерация изображений в GPT-4o — это не просто очередная галочка в списке функций. Это шаг в сторону по-настоящему универсального ИИ-инструмента. OpenAI продолжает приближать будущее, в котором взаимодействие с искусственным интеллектом становится неотъемлемой частью креативной и профессиональной работы.

Теперь создавать визуальный контент так же просто, как отправить сообщение в чат.