Прорыв в искусственном интеллекте: глубокий анализ модели GPT-4 от OpenAI – Каталог НЕЙРОСЕТЕЙ и ИИ инструментов

GPT-4 представляет собой значительный прорыв в развитии возможностей больших языковых моделей. Разработанная компанией OpenAI, она опирается на архитектуру и сильные стороны GPT-3, достигая при этом новых уровней масштабирования и производительности.

В данной статье приведены основные сведения о GPT-4, основанные на доступной в настоящее время публичной информации.

Основные характеристики GPT-4:

Масштаб: С около 1,8 триллиона параметров GPT-4 в 10 раз превосходит GPT-3 по размеру. Это позволяет модели обрабатывать информацию с невероятной детализацией.
Архитектура: Основываясь на концепции “смеси экспертов”, GPT-4 использует отдельные нейронные сети для различных задач или типов данных. Это позволяет модели быть более гибкой и адаптивной.
Обучение: Процесс обучения был настолько интенсивным, что потребовалось около 25 000 графических процессоров Nvidia A100 и 90-100 дней непрерывной работы.
Длина контекста: Поддерживается до 32 000 токенов текста

Параметры модели:

Тип модели: Преобразователь со смесью экспертов
Обучающие данные: Веб-тексты, книги, Википедия, Reddit, обзоры Amazon.
Предполагаемые области применения: Генерация текстов, QA, классификация, разговорные агенты
Возможности: Генерация текста, контроль качества, классификация
Модальности: Текст
Этические соображения: Возможность предвзятости, вредных результатов, неправильного использования
Ограничения: Отсутствие обоснованной аргументации, фактологически неверные результаты

Детальный разбор архитектуры:

GPT-4 использует архитектуру “смесь экспертов”, которая включает в себя отдельные нейронные сети-эксперты. Эти “эксперты” специализируются на определенных задачах или типах данных, что позволяет модели быть более точной и эффективной. Каждый из 16 экспертных моделей имеет около 111 миллиардов параметров, что делает их чрезвычайно мощными.

Процесс обучения

Обучение модели с 1,8 трлн параметров потребовало значительных вычислительных ресурсов:

Обучение проводилось на ~25 000 графических процессорах Nvidia A100 одновременно
90-100 дней непрерывного обучения
13 триллионов обучающих токенов
2,15e25 операций с плавающей запятой (FLOPs) всего

Различные технологии синхронизации позволили достичь такого масштаба:

8-поточный тензорный параллелизм
15-поточный конвейерный параллелизм
Топологии кластеризации для максимизации пропускной способности между процессорами

Обработка результатов

Для развертывания GPT-4 также требуется специализированная инфраструктура:

Работает на кластерах из 128 графических процессоров A100
Используется 8-поточный тензорный и 16-поточный конвейерный параллелизм
Тщательный баланс между задержкой, пропускной способностью и утилизацией
Для повышения пропускной способности используется спекулятивное декодирование

Плотные кластеры выводов обеспечивают доступную стоимость запросов в масштабе.

Сбрасывание токенов

Механизм маршрутизации MoE может приводить к отбрасыванию маркеров, когда некоторые маркеры остаются необработанными из-за ограничений пропускной способности экспертов.

Отбрасывание не является детерминированным и основано на пакетной маршрутизации токенов.
Некоторый уровень отсева полезен для эффективности
Варьирование отбрасывания приводит к наблюдаемой случайности, но логика модели остается последовательной

Будущие направления

Несмотря на впечатляющие результаты, GPT-4 по-прежнему ориентирован на работу с текстом. Будущие области исследований включают:

Архитектуры, поддерживающие зрение, аудио, речь
Обучение на разных модальностях
Альтернативы MoE для масштабируемости
Расширение разнообразия и увеличение объема обучающих данных
Продвижение мультимодальных рассуждений
Оптимизация под реальную производительность

GPT-4 демонстрирует стремительный прогресс в области языковых моделей. Хотя мы все еще далеки от общего интеллекта, OpenAI продолжает двигаться к этой цели с каждой новой итерацией. Вполне вероятно, что впереди нас ждут впечатляющие разработки.

Источник: hackernoon.com