Во вторник OpenAI опубликовала новую исследовательскую работу, в которой подробно описывается методика, в которой языковая модель GPT-4 используется для объяснения поведения нейронов в старой модели GPT-2. Это шаг вперед в области «интерпретируемости», цель которой — объяснить, как нейросети приходят к тем выводам, которые мы видим на экране.
OpenAI пытается понять, как работает последняя версия ее нейросети ChatGPT

Как работают нейросети
По сути, нейросети сегодня — это черный ящик. Специалисты загружают в него обучающие данные, а на выходе получают обученную нейросеть, способную правильно интерпретировать человеческие запросы и выполнять их. Что происходит между этими двумя этапами — загадка.
В попытке заглянуть внутрь черного ящика исследователи OpenAI использовали свою языковую модель GPT-4 для генерации и оценки объяснений поведения нейронов на естественном языке в значительно менее сложной языковой модели, такой как GPT-2.
В идеале, наличие такой модели интерпретации помогло бы достичь так называемого «выравнивания ИИ» — гарантии того, что системы искусственного интеллекта будут вести себя так, как задумано, и отражать человеческие ценности. Автоматизируя процесс интерпретации, OpenAI стремится преодолеть ограничения традиционного ручного контроля человеком, который не масштабируется на более крупные нейронные сети с миллиардами параметров.
Правда, пока OpenAI не сильно преуспели в достижении этой цели: они показали, что как человек, так и GPT-4 пока что очень плохо объясняют происходящее в черном ящике нейросети. Но зато ученым есть, куда стремиться.