GPT-4 выйдет на следующей неделе - и он будет мультимодальным, заявляет Microsoft Germany - Каталог НЕЙРОСЕТЕЙ и ИИ инструментов

Выход GPT-4 не за горами, как заявил технический директор Microsoft Germany Андреас Браун на мероприятии, посвященном началу работы над ИИ, которое состоялось 9 марта 2023 года.

Мы представим GPT-4 на следующей неделе, там у нас будут мультимодальные модели, которые будут предлагать совершенно разные возможности – например, видео”, – сказал Браун. Технический директор назвал LLM “игровым чейнджером”, поскольку они учат машины понимать естественный язык, которые затем понимают статистическим способом то, что раньше было доступно для чтения и понимания только человеку. Между тем, технология продвинулась так далеко, что она, по сути, “работает на всех языках”: Вы можете задать вопрос на немецком и получить ответ на итальянском. Благодаря мультимодальности Microsoft(-OpenAI) “сделает модели всеобъемлющими.

Подрыв и “убийство старых добрых дел”.

К Брауну присоединилась генеральный директор Microsoft Germany Марианна Яник, которая говорила о разрушении компаний с помощью ИИ. Яник подчеркнула потенциал искусственного интеллекта в создании стоимости и говорила о переломном моменте времени – нынешнее развитие ИИ и ChatGPT – это “момент iPhone”. По ее словам, речь идет не о замене рабочих мест, а о выполнении повторяющихся задач по-другому, чем раньше. Один момент, о котором часто забывают в публичной дискуссии, заключается в том, что “мы в Германии все еще имеем много наследия в наших компаниях” и “сохраняем старые сокровища в течение многих лет”.

Перебои в работе не обязательно означают потерю рабочих мест. Потребуется “много специалистов, чтобы использование ИИ приносило пользу”, – подчеркнул Яник. Традиционные должностные инструкции сейчас меняются, и в результате обогащения новыми возможностями появляются новые захватывающие профессии. Она рекомендует компаниям формировать внутренние “центры компетенции”, которые могут обучать сотрудников использованию ИИ и объединять идеи для проектов. При этом “следует подумать о миграции старых добрых сотрудников”.

Кроме того, генеральный директор подчеркнула, что Microsoft не использует данные клиентов для обучения моделей (что, однако, не относится или, по крайней мере, не относилось к их партнеру по исследованиям OpenAI в соответствии с политикой ChatGPT). Джаник говорила о “демократизации”, под которой она, по ее признанию, подразумевала только немедленное использование моделей в рамках линейки продуктов Microsoft, в частности, их широкую доступность благодаря интеграции ИИ в платформу Azure, Outlook и Teams.

Примеры использования, которые возможны уже сегодня

Клеменс Зибер (старший специалист по ИИ) и Хольгер Кенн (главный технолог по развитию бизнеса в области ИИ и новых технологий, оба – Microsoft Германия) рассказали о практическом применении ИИ и конкретных случаях использования, над которыми в настоящее время работают их команды, а также о технических предпосылках. Кенн объяснил, что такое мультимодальный ИИ, который может переводить текст не только в изображения, но и в музыку и видео. Он рассказал об эмбеддингах, которые используются для внутреннего представления текста в модели, в дополнение к классу моделей GPT-3.5. По словам Кенна, ответственный ИИ уже встроен в продукты Microsoft, и “миллионы запросов могут быть отображены в API” через облако. Большинство аудитории, вероятно, согласились с ним в основной оценке, что сейчас самое время начать. Особенно в области программирования, такие модели, как Codex и Copilot, облегчают создание шаблонного кода.

Клеменс Зиблер проиллюстрировал на примерах использования то, что уже возможно сегодня. Например, можно записывать телефонные разговоры в формате “речь-текст”, и агентам колл-центра больше не придется вручную обобщать и набирать содержание. По словам Зиблера, это может сэкономить 500 рабочих часов в день для крупного клиента Microsoft в Нидерландах, который принимает 30 000 звонков в день. А прототип для проекта был создан за два часа, один разработчик реализовал проект за две недели (плюс дополнительное время на окончательную реализацию). По его словам, три наиболее распространенных варианта использования – это ответы на вопросы по знаниям компании, которые доступны только сотрудникам, обработка документов с помощью ИИ и полуавтоматизация путем обработки разговорной речи в центре обработки звонков и ответов.

Отвечая на вопрос о надежности работы и достоверности фактов, Зиблер сказал, что ИИ не всегда будет отвечать правильно, поэтому необходимо проводить валидацию. В настоящее время Microsoft создает метрики достоверности для решения этой проблемы. Клиенты часто используют поддержку ИИ только на собственных наборах данных, в основном для понимания прочитанного и запроса данных инвентаризации, где модели уже достаточно точны. Однако текст, сгенерированный моделью, остается генеративным и поэтому не поддается легкой проверке. Мы строим вокруг него петлю обратной связи с “пальцами вверх” и “пальцами вниз”, – сказал Зиблер, – это итеративный процесс”. Интересно, что никто из четырех сотрудников Microsoft не прокомментировал интеграцию ИИ в собственную поисковую систему компании, “новый Bing”. На заключительной панели не было возможности задать вопросы аудитории, и на нее допускались только предварительно зарегистрированные участники.