Новый метод обновления рекомендательных моделей без переобучения

Российские исследователи предложили способ более точного обновления рекомендательных моделей без переобучения с нуля

Исследователи AI VK Research и лаборатории мультиагентного моделирования и адаптивного интеллекта ИТМО представили новый способ обновления рекомендательных алгоритмов, который помогает снизить вычислительные затраты на обновления ML-моделей и сохранить совместимость с ранее обученными моделями.

Исследователи предложили новый метод обновления генеративных рекомендаций (generative retrieval). На первом этапе их обучения — Semantic ID, внутренний идентификатор, отражающий смысловые и поведенческие характеристики объектов каталога (товары, единицы контента и тд), — пересчитывается на свежих данных. Далее новые идентификаторы выравниваются с их старой версией.

Благодаря этому система сможет учитывать актуальные изменения интересов аудитории, не «ломая» совместимость с предыдущей версией, и снижать вычислительные затраты на полное переобучение, а значит – уменьшать издержки и ускорять обновления рекомендаций.

«Такой метод может быть полезен крупным цифровым платформам, где интересы аудитории быстро меняются, а полное переобучение подобных моделей требует больших вычислительных затрат. Новый способ помогает сократить такие издержки в 8 раз по сравнению с полным переобучение модели»

Владимир Байкалов ведущий исследователь в AI VK, инженер лаборатории компьютерных технологий ИТМО

Ранее существовала проблема индустриального применения generative retrieval в том, что Semantic ID, которые построены с учетом коллаборативного сигнала, со временем «устаревают»: интересы аудитории и паттерны потребления меняются быстро.

При этом простое дообучение на новых данных не всегда решает задачу, а полный пересчет Semantic ID без выравнивания может привести к тому, что модели будет сложнее адаптироваться к уже развернутой версии системы и ее компонентам.