OpenAI представила свою новую модель искусственного интеллекта под названием GPT-4o, которая обещает принести “уровень интеллекта GPT-4” всем пользователям, включая бесплатные аккаунты.
Сегодня на прямой трансляции OpenAI объявила о выпуске GPT-4 Omni. Это новейшая флагманская модель, которая обещает предоставить уровень интеллекта, сравнимый с GPT-4, всем пользователям, даже тем, кто пользуется бесплатным аккаунтом. Она также обладает рядом улучшений по сравнению с предыдущей версией GPT-4. Главный технический директор OpenAI Мира Мурати заявила, что GPT-4o обеспечивает “уровень интеллекта GPT-4”, но улучшает возможности GPT-4 в области текста, изображений и звука.
GPT-4o (где “o” означает “омни”) – это шаг к намного более естественному взаимодействию человека с компьютером. Он принимает в качестве входных данных любую комбинацию текста, аудио и изображений, а также генерирует любую комбинацию текста, аудио и изображений в качестве выходных данных. Модель способна реагировать на аудио входы уже через 232 миллисекунды, среднее время ответа составляет 320 миллисекунд, что сопоставимо с временем реакции человека в разговоре.
Основное преимущество GPT-4o заключается в том, что она работает быстрее, чем предыдущая версия GPT-4, и имеет улучшенные возможности. Новая модель обещает превосходный интеллект, который доступен даже для пользователей бесплатной версии. В сравнении с предыдущими моделями, такими как GPT-3.5 и GPT-4, задержки в режиме голоса с использованием GPT-4o существенно снизились. Ранее время ожидания составляло в среднем 2,8 секунды (GPT-3.5) и 5,4 секунды (GPT-4). С GPT-4o это время сократилось до нескольких сотен миллисекунд. Платные пользователи сохранят свою пятикратную пропускную способность по сравнению с бесплатными пользователями.
В прошлом для режима голоса использовалась цепочка из трех отдельных моделей: одна простая модель транскрибировала аудио в текст, GPT-3.5 или GPT-4 обрабатывали текст и выдавали текст, а третья простая модель преобразовывала этот текст обратно в аудио. Однако это приводило к потере многих данных, таких как тон, различные говорящие или фоновые шумы, а также невозможности передать смех, пение или эмоции.
С GPT-4o была обучена единая новая модель, которая обрабатывает текст, изображения и аудио. Это означает, что все входные и выходные данные обрабатываются одной нейронной сетью. Несмотря на то что GPT-4o является первой моделью, которая комбинирует все эти модальности, мы только начинаем исследовать, что может делать модель и какие у нее ограничения.
Кроме того, OpenAI продемонстрировала реальные возможности аудио в реальном времени. На презентации был показан пример, как ChatGPT дает обратную связь о том, как вести презентацию в прямом эфире. Интересно, что теперь можно прервать ChatGPT, и он также может в некоторой степени распознавать эмоции пользователя, например, определять уровень стресса по дыханию.
Эти новости станут важным шагом в развитии искусственного интеллекта, делая его доступным и полезным для всех пользователей, не только для платных подписчиков.