Исследователи компании Anthropic совершили прорыв в понимании работы крупных языковых моделей, опубликовав новаторское исследование о внутренних процессах своего ИИ Claude. Впервые учёным удалось заглянуть в «мозг» нейросети и отследить её «мысли» в реальном времени, что открывает новые горизонты в разработке прозрачного искусственного интеллекта.
Как нейросеть сочиняет стихи: рифмы до генерации текста
Эксперимент с поэзией показал удивительный механизм работы Claude. При запросе дописать строку «Увидел морковь, схватил её вмиг» система:
- Сначала установила семантическую связь между «морковь» и «вмиг»
- Сгенерировала рифму «кролик» до начала составления строки
- Построила логический переход между исходной фразой и целевой рифмой
Этот процесс опровергает представление о линейной генерации текста, демонстрируя элементы предварительного планирования, характерные для человеческого мышления.
Универсальный язык концептов: многоязычие без переключения
Исследование выявило, что Claude оперирует абстрактными концептами, независимыми от конкретного языка. В эксперименте с поиском «противоположности маленького»:
- Активировались одинаковые нейронные паттерны для английского, французского и китайского
- Языковая модель сначала формировала концепт «большой размер»
- Затем осуществлялся перевод концепта в конкретное слово на целевом языке
Эта особенность объясняет способность ИИ сохранять смысловую целостность при работе с разными языками.
Механизм галлюцинаций: почему ИИ выдумывает факты
Учёные раскрыли причину «конфабуляции» — генерации ложной информации:
- Система имеет встроенный «предохранитель» для отказа от ответа при недостатке данных
- Распознавание знакомых имён/терминов автоматически отключает этот механизм
- Ошибки возникают при частичном распознавании: модель «узнаёт» имя, но не имеет о нём информации
Это открытие поможет разработать новые методы проверки достоверности ответов ИИ, уменьшив количество ложных утверждений на 40-60% по предварительным оценкам.
Исследование Anthropic не только делает языковые модели более прозрачными, но и открывает путь к созданию ИИ с контролируемым процессом мышления. Учёные планируют применить эти методы для улучшения безопасности и надёжности систем искусственного интеллекта в ближайшие два года.




