Как онлайн-кинотеатры рекомендуют нам, что посмотреть?

С приходом в жизнь современных технологий вопрос «что посмотреть?» хоть и не теряет актуальности, но решается куда проще. Стриминговые площадки обеспечивают широкий ассортимент контента, а удобная навигация и система рекомендаций подобных сервисов помогают сориентироваться в многообразии фильмов и сериалов.

Но, если говорить об этих рекомендациях, откуда система знает, чем именно можно нас заинтересовать? Вместе с экспертами KION, разбираемся в том, кто и как помогает пользователям определиться с выбором кино на вечер.

Использование ML

Безусловно, даже целый отдел специально обученных сотрудников не смог бы вручную составлять, постоянно обновлять и пополнять список рекомендованного контента. Для этого нужна помощь искусственного интеллекта — именно он под присмотром опытных специалистов собирает и анализирует данные о пользователях и преобразует их в ценную информацию в виде релевантных рекомендаций.

Как и всегда в таких случаях, в основе системы рекомендаций — принцип машинного обучения. Заранее составленный алгоритм обучается на каждом новом пользователе и каждом новом действии. Но, вопреки расхожему мнению, сбор агрегированных обезличенных данных даже важнее алгоритма. Данные должны соответствовать многим критериям, и их должно быть достаточно, иначе «скармливать» обучающемуся алгоритму будет просто нечего.

Какие данные подходят для обучения алгоритма

Просмотры, история навигации и обезличенные данные пользователей — основа моделей, позволяющих спрогнозировать предпочтения пользователя. Прежде, чем что-то рекомендовать, важно понять, что и в каком объеме смотрит человек. Также нужно знать что и по каким ключевым словам ищет, устраивает ли его найденное — продолжает ли он просмотр или бросает, отсмотрев лишь трейлер.

Не все данные одинаково ценны: ИИ понимает, что просмотры важнее, чем клики, что выбор пользователя год назад и сегодня отличается по релевантности, что в приоритете контент, который просматривался дольше.

Алгоритм собирает информацию не только о пользователях, но и о контенте. И речь не только о базовых данных — имена режиссеров и актеров, жанровая принадлежность, год релиза и так далее. Учитываются и более сложные атрибуты, например, цветовая гамма фильма или сериала.

Что система рекомендаций дает онлайн-кинотеатру

С помощью рекомендаций платформа развивается и привлекает новых пользователей, а также превращает их в лояльных зрителей. Любая, даже самая широкая библиотека фильмов и сериалов может простаивать месяцами, если платформа рекомендует пользователю нерелевантные единицы контента.

Пользователей, которые заходят в онлайн-кинотеатр за конкретным кино, не так уж много, в основном люди ищут «что-нибудь интересное», их запрос не очень конкретен, и они готовы положиться на выбор платформы. Если на этом этапе сервис подведет пользователя, вернуть доверие будет очень сложно. Мало кто будет копать глубоко и долго разбираться, что у онлайн-кинотеатра есть в репертуаре, если на витрине — только неподходящее.

Например, в KION процессы выстроены так, чтобы искусственный интеллект мог с порога предложить подходящий контент даже новому пользователю. Поначалу доля индивидуально рекомендованного контента невелика, и на онлайн-витрине много новинок и просто популярных фильмов и сериалов. Но с каждым новым действием пользователя на платформе система обучается, следовательно, блок с предлагаемым контентом меняется.

Какие алгоритмы используются

В первую очередь, ИИ характеризует каждую единицу контента по следующим группам признаков:

жанры, режиссер, год, страна, теги
взаимодействия пользователей и контента: клики, просмотры и т.д.
признаки видеоряда с использованием computer vision (например, когда технология находит и определяет предметы по тегам)

Все эти данные “складывается” в вектора, которые по сути являются шаблоном, который система хранит для дальнейшего использования.

В вектора также оформляются данные о пользователе платформы:

просмотры, клики и пр.
пол, возраст, регион и пр.

Далее система анализирует близость вектора пользователя и вектора контента, таким образом ранжируя контент. В дальнейшем система уточняет рекомендации исходя из накопившегося опыта просмотров, учится понимать и предугадывать предпочтения.

Иногда все интересы пользователя похожи между собой, например, ему нравятся триллеры, драмы и детективы. Но иногда интересов несколько, и они совсем разные: корейские дорамы, аниме и российские комедии. При этом любому человеку, даже самому преданному фанату, наскучит смотреть кино только из трех любимых категорий, нужно разнообразие и постоянный приток нового контента. Так что нам важно рекомендовать не только то, что пользователю точно «зайдет», но и что-то из смежных категорий.

В итоге контент в рекомендациях делится на четыре группы:

подобранный на основе персональных предпочтений;
популярный среди большинства пользователей;
сезонные/актуальные картины (например, новогодние);
новинки KION.

С точки зрения технической составляющей процесс формирования рекомендаций KION можно пошагово описать так:

От пользователей в kafka приходят данные по событиям.
Данные проходят через DQ-систему, и после валидации составляют витрину.
Далее модели обучаются на этих витринах (раз в сутки).
В результате скоринга мы имеем либо user/item векторы, либо уже отранжированные списки релевантных айтемов.
Данные загружаются в быстрые хранилища — redis или aerospike, — а оттуда доставляется пользователю по api.
Каждый час сервисы мониторят качество рекомендаций. Если пользователям начали показывать чересчур однообразные подборки, или в них слишком мало вариантов – система сообщит о нарушении бизнес-логики.

Как сделать свои рекомендации более точными

Все просто — смотреть как можно больше. Чем активнее вы пользуетесь онлайн-кинотеатром, тем лучше искусственный интеллект вас знает, а значит, тем лучше его рекомендации.

С каждым действием ваш профиль обогащается информацией: одно шоу вы смотрели от начала до конца, другое — всего пару минут, в случае с третьим ограничились просмотром трейлера, а трейлер четвертого даже не стали досматривать. Важны и ваши клики, и поисковые запросы. Учитывается даже давность события: вчерашние действия на платформе важнее тех, что вы совершили год назад.

Даже если ваши интересы изменились, система довольно быстро это учтет, если вы будете регулярно подтверждать свою заинтересованность. Но если заинтересованность в определенном типе контента была недолгой и не подкрепилась дальнейшими действиями на платформе, искусственный интеллект через какое-то время оставит эту тему и вернется к «проверенным» тематикам, доказательства релевантности которых есть у модели.