Недавние прорывы в области LLM вдохновили исследователей на то, что они могут революционизировать научные открытия, а такие модели, как ChatGPT и Claude от Anthropic, демонстрируют способность автономно генерировать и подтверждать новые исследовательские идеи.
ИИ генерируют больше новых и захватывающих идей, чем люди

Это, конечно, было одной из многих вещей, которые, по мнению большинства людей, ИИ никогда не смогут перенять у людей: способность генерировать новые знания и совершать новые научные открытия, в отличие от объединения существующих знаний на основе данных их обучения.
Но, как и в случае с художественным самовыражением, сочинением музыки, кодированием, пониманием подтекста и языка тела, а также множеством других новых способностей, современные мультимодальные ИИ, по-видимому, способны генерировать новые исследования — в среднем более новые, чем их человеческие учителя.
Как ученые поняли это

В этой области не проводилось исследований до недавнего времени, когда более 100 экспертов-исследователей в области обработки естественного языка (НЛП) (доктора философии и постдокторанты из 36 различных авторитетных учреждений) встретились лицом к лицу с «агентами по разработке идей», созданными LLM. Они хотели выяснить, чьи исследовательские идеи более оригинальны, захватывающие и выполнимые.
49 экспертов-гуманитариев написали идеи по 7 темам НЛП, в то время как модель, обученная исследователями, генерировала идеи по тем же 7 темам. В ходе исследования за каждую идею было выплачено по 300 долларов США плюс премия в размере 1000 долларов пяти лучшим человеческим идеям, чтобы стимулировать людей к созданию обоснованных, простых в реализации идей.
После завершения работы был использован LLM для стандартизации стиля написания каждой представленной работы при сохранении оригинального содержания, чтобы «выровнять» правила игры и сделать исследование как можно более слепым.
Затем все представленные материалы были рассмотрены 79 нанятыми экспертами-людьми, и было вынесено слепое суждение по всем исследовательским идеям. Жюри представило 298 рецензий, по каждой идее было проведено от двух до четырех независимых обзоров.

Как оказалось, ИИ предоставили более новаторские идеи, чем люди. Они немного уступают людям в практичности, но лучше в плане эффективности.
Исследование также выявило некоторые недостатки у ИИ, такие как отсутствие разнообразия в генерировании идей, а также их ограниченность в самооценке. Даже при четком указании не повторяться, модели быстро начали бы это делать. ИИ также не смогли проанализировать и оценить идеи с достаточной последовательностью и получили низкие оценки.