OpenAI пытается понять, как работает последняя версия ее нейросети ChatGPT

Компания все еще не понимает, как работает ее нейросеть. Стремясь понять это, компания проводит исследования.
Никита Шевцев
Никита Шевцев
OpenAI пытается понять, как работает последняя версия ее нейросети ChatGPT
Ars Technica
Пока даже сами создатели нейросетей не понимают, как они генерируют те результаты, которые мы видим на экране.

Во вторник OpenAI опубликовала новую исследовательскую работу, в которой подробно описывается методика, в которой языковая модель GPT-4 используется для объяснения поведения нейронов в старой модели GPT-2. Это шаг вперед в области «интерпретируемости», цель которой — объяснить, как нейросети приходят к тем выводам, которые мы видим на экране.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Как работают нейросети

По сути, нейросети сегодня — это черный ящик. Специалисты загружают в него обучающие данные, а на выходе получают обученную нейросеть, способную правильно интерпретировать человеческие запросы и выполнять их. Что происходит между этими двумя этапами — загадка.

В попытке заглянуть внутрь черного ящика исследователи OpenAI использовали свою языковую модель GPT-4 для генерации и оценки объяснений поведения нейронов на естественном языке в значительно менее сложной языковой модели, такой как GPT-2.

В идеале, наличие такой модели интерпретации помогло бы достичь так называемого «выравнивания ИИ» — гарантии того, что системы искусственного интеллекта будут вести себя так, как задумано, и отражать человеческие ценности. Автоматизируя процесс интерпретации, OpenAI стремится преодолеть ограничения традиционного ручного контроля человеком, который не масштабируется на более крупные нейронные сети с миллиардами параметров.

Правда, пока OpenAI не сильно преуспели в достижении этой цели: они показали, что как человек, так и GPT-4 пока что очень плохо объясняют происходящее в черном ящике нейросети. Но зато ученым есть, куда стремиться.