5 отличий GPT-4 от ChatGPT
Новая модель ИИ GPT-4, разработанная OpenAI, дебютировала и уже используется во всех областях – от виртуального волонтера для слабовидящих до усовершенствованного бота для изучения языка в Duolingo. Но что отличает GPT-4 от предыдущих версий, таких как ChatGPT и GPT-3.5? Вот пять самых больших различий между этими популярными системами.
Во-первых, что в названии? Хотя ChatGPT изначально описывалась как GPT-3.5 (и, следовательно, на несколько итераций дальше GPT-3), сама по себе она не является версией большой языковой модели OpenAI, а скорее представляет собой чат-интерфейс для любой модели. Система ChatGPT, которая взорвала популярность в последние несколько месяцев, была способом взаимодействия с GPT-3.5, а теперь это способ взаимодействия с GPT-4.
С учетом сказанного, давайте разберемся в различиях между чатботом, который вы знаете и любите, и его новым расширенным преемником.
GPT-4 уже доступен по подписке ChatGPT Plus за $20/месяц. О там как можно зарегистрироваться в ChatGPT подробно описано в этой статье.
1. GPT-4 может видеть и понимать изображения
Самое заметное изменение в этой универсальной системе машинного обучения заключается в том, что она стала “мультимодальной”, то есть может понимать более одной “модальности” информации. ChatGPT и GPT-3 были ограничены текстом: Они могли читать и писать, но не более того (хотя этого более чем достаточно для многих приложений).
GPT-4, однако, можно дать изображения, и он будет обрабатывать их, чтобы найти соответствующую информацию. Конечно, вы можете просто попросить его описать, что изображено на картинке, но, что более важно, его понимание выходит за рамки этого. В примере, предоставленном OpenAI, он объясняет шутку в изображении уморительно большого разъема iPhone, но партнерство с Be My Eyes, приложением, используемым слепыми и слабовидящими людьми, позволяющим добровольцам описывать то, что видит их телефон, является более показательным.
В видеоролике для Be My Eyes GPT-4 описывает узор на платье, идентифицирует растение, объясняет, как пройти к определенному тренажеру в спортзале, переводит этикетку (и предлагает рецепт), читает карту и выполняет ряд других задач, которые показывают, что он действительно понимает, что изображено на картинке – если ему задать правильные вопросы. Он знает, как выглядит платье, но может не знать, подходит ли оно для собеседования.
2. GPT-4 сложнее обмануть
При всем том, что современные чат-боты делают правильно, их легко сбить с пути. Небольшое уговаривание может убедить их в том, что они просто объясняют, как поступил бы “плохой ИИ”, или в другой маленькой выдумке, позволяющей модели говорить всякие странные и откровенно нервирующие вещи. Люди даже сотрудничают в создании подсказок для “побега из тюрьмы”, которые быстро выпускают ChatGPT и других из своих загонов.
GPT-4, с другой стороны, обучался на множестве и множестве вредоносных подсказок, которые пользователи любезно предоставили OpenAI за последние год-два. Учитывая это, новая модель намного лучше своих предшественников по “фактичности, управляемости и отказу выходить за пределы ограждений”.
Как описывает OpenAI, GPT-3.5 (на котором работает ChatGPT) был “пробным запуском” новой архитектуры обучения, и они применили полученные уроки к новой версии, которая оказалась “беспрецедентно стабильной”. Они также смогли лучше предсказать ее возможности, что позволило сделать меньше сюрпризов.
3. У GPT-4 гораздо больший объем памяти
Большие языковые модели обучаются на миллионах веб-страниц, книг и других текстовых данных, но когда они фактически ведут беседу с пользователем, существует предел того, сколько они могут держать “в голове”, так сказать (можно посочувствовать). Этот предел в GPT-3.5 и старой версии ChatGPT составлял 4 096 “токенов”, что составляет около 8 000 слов, или примерно четыре-пять страниц книги. Поэтому он как бы терял счет вещам после того, как они проходили так далеко “назад” в своей функции внимания.
Максимальное количество лексем в GPT-4 составляет 32 768 – это 2^15, если вам интересно, почему это число выглядит знакомым. Это означает около 64 000 слов или 50 страниц текста, что достаточно для целой пьесы или короткого рассказа.
Это означает, что при разговоре или создании текста он сможет держать в памяти до 50 страниц или около того. Так, он вспомнит, о чем вы говорили 20 страниц назад, или при написании рассказа или эссе он может сослаться на события, произошедшие 35 страниц назад. Это очень приблизительное описание того, как работает механизм внимания и счетчик жетонов, но общая идея заключается в расширенной памяти и возможностях, которые ее сопровождают.
4. В GPT-4 добавилось больше языков
В мире ИИ доминируют англоговорящие люди, и все – от данных до тестирования и научных работ – написано на этом языке. Но, конечно, возможности больших языковых моделей применимы к любому письменному языку и должны быть доступны на нем.
GPT-4 делает шаг к этому, демонстрируя, что он способен с высокой точностью отвечать на тысячи вопросов с несколькими вариантами ответов на 26 языках, от итальянского до украинского и корейского. Лучше всего он справляется с романскими и германскими языками, но хорошо адаптируется к другим языкам.
Это первоначальное тестирование языковых возможностей является многообещающим, но далеко не полным воплощением многоязычных возможностей; критерии тестирования были переведены с английского языка, а вопросы с множественным выбором не совсем отражают обычную речь. Но он отлично справился с тем, для чего не был специально подготовлен, что говорит о возможности того, что GPT-4 будет гораздо более дружелюбным к неанглоязычным пользователям.
5. У GPT-4 разные “личности”
“Управляемость” – интересное понятие в ИИ, означающее их способность изменять свое поведение по требованию. Это может быть полезно, например, при принятии роли сочувствующего слушателя, или опасно, например, когда люди убеждают модель, что она злая или подавленная.
GPT-4 интегрирует управляемость более нативно, чем GPT-3.5, и пользователи смогут изменить “классическую личность ChatGPT с фиксированной многословностью, тоном и стилем” на что-то более подходящее для их нужд. “В пределах границ”, – быстро отмечает команда, указывая на то, что это самый простой способ заставить модель сломать характер.
Это можно было сделать в некотором роде, подготавливая чат-бота с помощью сообщений типа “Представьте, что вы DM в настольной ролевой игре” или “Отвечайте так, как будто вы человек, у которого берут интервью для кабельных новостей”. Но на самом деле вы просто делали предложения для личности GPT-3.5 “по умолчанию”. Теперь разработчики смогут с самого начала закладывать перспективу, разговорный стиль, тон или метод взаимодействия.