Одна простая фраза удивительным образом улучшает результаты работы нейросети

DeepMind использовала модели искусственного интеллекта для оптимизации своих собственных подсказок и получила удивительные результаты.
Никита Шевцев
Никита Шевцев
Одна простая фраза удивительным образом улучшает результаты работы нейросети
GettyImages

Исследователи Google DeepMind недавно разработали метод улучшения математических способностей в языковых моделях искусственного интеллекта, таких как ChatGPT, используя другие модели искусственного интеллекта для улучшения подсказок — письменных инструкций, которые сообщают модели искусственного интеллекта, что делать.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Было обнаружено, что использование поощрения в человеческом стиле значительно улучшило математические навыки нейросети.

Как улучшить запрос к нейросети

В статье под названием «Большие языковые модели как оптимизаторы», опубликованной в этом месяце на arXiv, ученые DeepMind представили оптимизацию с помощью подсказки (OPRO) — метод повышения производительности больших языковых моделей (LLM), таких как ChatGPT от OpenAI и PaLM 2 от Google.

Этот новый подход обходит ограничения традиционных оптимизаторов, основанных на математике, используя естественный язык для руководства LLM при решении проблем. «Естественный язык» — это научное описание повседневной человеческой речи.

Вместо того, чтобы полагаться на формальные математические определения для выполнения этой задачи, OPRO использует «мета-подсказки», описанные на естественном языке, чтобы подготовить почву для процесса оптимизации. Затем LLM генерирует возможные решения на основе описания проблемы и предыдущих решений и проверяет их, давая каждому оценку качества.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В OPRO две большие языковые модели играют разные роли: одна оценивает целевую функцию, такую как точность, в то время как вторая — модель-оптимизатор — генерирует новые решения на основе прошлых результатов и описания на естественном языке. Затем пары таких моделей, включая PaLM 2 и GPT, сравниваются между собой.

OPRO может оптимизировать запросы для «модели-оценщика», заставляя оптимизатора итеративно генерировать запросы с более высоким баллом. Эти результаты помогают системе определять наилучшие решения, которые затем добавляются обратно в «мета-подсказку» для следующего раунда оптимизации.

Возможно, самой интригующей частью исследования DeepMind является влияние конкретных фраз на результат. Такие фразы, как «давайте подумаем шаг за шагом», побудили каждую модель ИИ выдавать более точные результаты при тестировании на основе наборов данных математических задач.

Интересно, что в этом последнем исследовании ученые DeepMind обнаружили, что фраза «сделайте глубокий вдох и работайте над этой проблемой шаг за шагом» является наиболее эффективной подсказкой при использовании с языковой моделью Google PaLM 2.