Робот Гэри стал умнее
Команда разработки корпоративного портала Вышки обновила модель машинного обучения, которая рекомендует посетителям сайта наиболее интересные для них новости. Теперь она учитывает не только поведение пользователя на портале, но и контент новостей.
«Выкатил новую новостную модель, она стала точнее рекомендовать новости. Теперь модель учитывает признаки новости», – сообщает Семен Лобачевский, начальник отдела веб-аналитики и моделирования. В качестве признаков выбраны заголовок новости, краткое описание и теги.
Для формирования признаков и оценки их соотношения к новостям, используется оценка TF-IDF (TF — term frequency, IDF — inverse document frequency). Оценка TF-IDF используется в основном потому, что взвешивание TF-IDF сводит на нет влияние высокочастотных слов при определении важности элемента.
Полученные данные можно использовать для вычисления сходства между новостями и между новостями и пользователями. Согласно текущему алгоритму работы модели создается профиль пользователя на основе предыдущих взаимодействий, профиль для каждой новости на основе контента. Далее извлекаются элементы для пользователя путем сравнения профилей пользователей в разных профилях новостей.
Модель машинного обучения, получившая название «Робот Гэри» в честь Гэри Селдона, умеющего предсказывать будущее персонажа писателя-фантаста Айзека Азимова, функционирует на портале НИУ ВШЭ с весны 2022 года. Результаты предикта можно увидеть под каждой новостью в основной ленте новостей портала.
Команда портала видит в модели своего рода «пробу пера» перед тем, как начать разрабатывать более серьезные модели. Конечная цель – научиться подбирать для пользователей, интересующихся тем или иным общедоступным контентом на портале, персонализированные образовательные продукты, будь то программа бакалавриата или дополнительного образования. Важно, что при этом не собираются персональные данные пользователей.
Лобачевский Семен Михайлович
Начальник отдела веб-аналитики и моделирования