Доклад

Игорь Кретинин, Mail.Ru Group: Машинное обучение в рекламной системе MAIL.RU

Профессиональная конференция разработчиков высоконагруженных систем HighLoad++ 2014. 31.10.2014.
На основе данных, накапливаемых и хранимых в инфраструктуре рекламной системы MAIL.RU (HDFS, поток данных ~100K записей в секунду), проводится машинное обучение классификаторов, позволяющих разделять различные группы пользователей Интернета. Для представления признаков, характеризующих конкретный обучающий прецедент, используется модель bag-of-words, в рамках которой векторы признаков имеют большую размерность и являются разреженными. Уменьшение размерности про

странства признаков методом латентного размещения Дирихле (LDA) позволяет в ряде случаев также проводить тематическое моделирование распределения признаков. Рассматриваются две практические задачи: (1) разделение пользователей на два класса в соответствии с требованиями таргетированной рекламной кампании; и (2) предсказание месячного дохода пользователя.

Тематика: Информационные технологии

Обсуждение

Комментарии для сайта Cackle
Оцените доклад
Авторизируйтесь, чтобы продолжить просмотр