Как нейросети работают на самом деле

Пока даже сами создатели нейросетей не понимают, как они генерируют те результаты, которые мы видим на экране.

Во вторник OpenAI опубликовала новую исследовательскую работу, в которой подробно описывается методика, в которой языковая модель GPT-4 используется для объяснения поведения нейронов в старой модели GPT-2. Это шаг вперед в области «интерпретируемости», цель которой — объяснить, как нейросети приходят к тем выводам, которые мы видим на экране.

Как работают нейросети

По сути, нейросети сегодня — это черный ящик. Специалисты загружают в него обучающие данные, а на выходе получают обученную нейросеть, способную правильно интерпретировать человеческие запросы и выполнять их. Что происходит между этими двумя этапами — загадка.

В попытке заглянуть внутрь черного ящика исследователи OpenAI использовали свою языковую модель GPT-4 для генерации и оценки объяснений поведения нейронов на естественном языке в значительно менее сложной языковой модели, такой как GPT-2.

В идеале, наличие такой модели интерпретации помогло бы достичь так называемого «выравнивания ИИ» — гарантии того, что системы искусственного интеллекта будут вести себя так, как задумано, и отражать человеческие ценности. Автоматизируя процесс интерпретации, OpenAI стремится преодолеть ограничения традиционного ручного контроля человеком, который не масштабируется на более крупные нейронные сети с миллиардами параметров.

Правда, пока OpenAI не сильно преуспели в достижении этой цели: они показали, что как человек, так и GPT-4 пока что очень плохо объясняют происходящее в черном ящике нейросети. Но зато ученым есть, куда стремиться.