Прорыв в изучении работы крупных языковых моделей: как Anthropic заглянула в мозг ИИ Claude - Каталог НЕЙРОСЕТЕЙ и ИИ инструментов

Исследователи компании Anthropic совершили прорыв в понимании работы крупных языковых моделей, опубликовав новаторское исследование о внутренних процессах своего ИИ Claude. Впервые учёным удалось заглянуть в «мозг» нейросети и отследить её «мысли» в реальном времени, что открывает новые горизонты в разработке прозрачного искусственного интеллекта.

Содержание

Как нейросеть сочиняет стихи: рифмы до генерации текста
Универсальный язык концептов: многоязычие без переключения
Механизм галлюцинаций: почему ИИ выдумывает факты

Как нейросеть сочиняет стихи: рифмы до генерации текста

Эксперимент с поэзией показал удивительный механизм работы Claude. При запросе дописать строку «Увидел морковь, схватил её вмиг» система:

Сначала установила семантическую связь между «морковь» и «вмиг»
Сгенерировала рифму «кролик» до начала составления строки
Построила логический переход между исходной фразой и целевой рифмой

Этот процесс опровергает представление о линейной генерации текста, демонстрируя элементы предварительного планирования, характерные для человеческого мышления.

Универсальный язык концептов: многоязычие без переключения

Исследование выявило, что Claude оперирует абстрактными концептами, независимыми от конкретного языка. В эксперименте с поиском «противоположности маленького»:

Активировались одинаковые нейронные паттерны для английского, французского и китайского
Языковая модель сначала формировала концепт «большой размер»
Затем осуществлялся перевод концепта в конкретное слово на целевом языке

Эта особенность объясняет способность ИИ сохранять смысловую целостность при работе с разными языками.

Механизм галлюцинаций: почему ИИ выдумывает факты

Учёные раскрыли причину «конфабуляции» — генерации ложной информации:

Система имеет встроенный «предохранитель» для отказа от ответа при недостатке данных
Распознавание знакомых имён/терминов автоматически отключает этот механизм
Ошибки возникают при частичном распознавании: модель «узнаёт» имя, но не имеет о нём информации

Это открытие поможет разработать новые методы проверки достоверности ответов ИИ, уменьшив количество ложных утверждений на 40-60% по предварительным оценкам.

Исследование Anthropic не только делает языковые модели более прозрачными, но и открывает путь к созданию ИИ с контролируемым процессом мышления. Учёные планируют применить эти методы для улучшения безопасности и надёжности систем искусственного интеллекта в ближайшие два года.