Прорыв в изучении работы крупных языковых моделей: как Anthropic заглянула в мозг ИИ Claude

Исследователи компании Anthropic совершили прорыв в понимании работы крупных языковых моделей, опубликовав новаторское исследование о внутренних процессах своего ИИ Claude. Впервые учёным удалось заглянуть в «мозг» нейросети и отследить её «мысли» в реальном времени, что открывает новые горизонты в разработке прозрачного искусственного интеллекта.

Как нейросеть сочиняет стихи: рифмы до генерации текста

Эксперимент с поэзией показал удивительный механизм работы Claude. При запросе дописать строку «Увидел морковь, схватил её вмиг» система:

  • Сначала установила семантическую связь между «морковь» и «вмиг»
  • Сгенерировала рифму «кролик» до начала составления строки
  • Построила логический переход между исходной фразой и целевой рифмой

Этот процесс опровергает представление о линейной генерации текста, демонстрируя элементы предварительного планирования, характерные для человеческого мышления.

Универсальный язык концептов: многоязычие без переключения

Исследование выявило, что Claude оперирует абстрактными концептами, независимыми от конкретного языка. В эксперименте с поиском «противоположности маленького»:

  • Активировались одинаковые нейронные паттерны для английского, французского и китайского
  • Языковая модель сначала формировала концепт «большой размер»
  • Затем осуществлялся перевод концепта в конкретное слово на целевом языке

Эта особенность объясняет способность ИИ сохранять смысловую целостность при работе с разными языками.

Механизм галлюцинаций: почему ИИ выдумывает факты

Учёные раскрыли причину «конфабуляции» — генерации ложной информации:

  • Система имеет встроенный «предохранитель» для отказа от ответа при недостатке данных
  • Распознавание знакомых имён/терминов автоматически отключает этот механизм
  • Ошибки возникают при частичном распознавании: модель «узнаёт» имя, но не имеет о нём информации

Это открытие поможет разработать новые методы проверки достоверности ответов ИИ, уменьшив количество ложных утверждений на 40-60% по предварительным оценкам.

Исследование Anthropic не только делает языковые модели более прозрачными, но и открывает путь к созданию ИИ с контролируемым процессом мышления. Учёные планируют применить эти методы для улучшения безопасности и надёжности систем искусственного интеллекта в ближайшие два года.

No-code specialist, always eager to learn and tackle challenges, exploring neural networks

Каталог НЕЙРОСЕТЕЙ и ИИ инструментов — FutureTools.ru