Доклад

30:08
16+
Видеозапись доклада

Павел Калайдин, RuTarget: Обработка данных в RTB - быстро, дешево и на 98 точно

Павел Калайдин
Data Scientist в RuTarget
  • Видео
HighLoad++ 2014
31 октября 2014, Москва, Россия
HighLoad++ 2014
0
Мне понравилось 0
Мне не понравилось 0

О спикере

С отличием окончил факультет технической кибернетики Санкт-Петербургского Государственного Политехнического Университета. Как инженер вырос в петербургском центре Motorolа, где участвовал в разработке продуктов от автомобильной телематики до IPTV-приставок для японского рынка. В RuTarget занимается разработкой алгоритмов real-time bidding и поиском закономерностей поведения людей в Интернете.Научные интересы: computational advertising, вероятностные структуры данных и потоковые алгоритмы.

О докладе

Real-time bidding требует real-time аналитики. RuTarget обрабатывает миллиард запросов на показ баннеров в день. Как определить, например, сколько в этих запросах уникальных пользователей? Доступно расскажем о рандомизированных алгоритмах потоковой обработки данных, вероятностных структурах данных и объясним, как быстро и с вычислительной точки зрения дешево получить нужный результат. Основные тезисы1) Какие данные у нас есть, и почему их много?2) Trade-off: точность vs. нагрузка на инфраструктуру.3) Вероятностные структуры данных для data mining - что это такое?4) HyperLogLog - метод подсчета числа уникальных элементов в потоке данных.5) Large scale, временное окно.6) Примеры из реальной жизни.7) Count-Min, Summary-Sketch и т.д.
#скорость
Комментарии для сайта Cackle