Делаем моду ближе для каждого и создаем продукты для удобного и вдохновляющего шопинга. Результат — 17 миллионов довольных пользователей ежемесячно и звание крупнейшей fashion & lifestyle платформы в России по версии Data Insight.
Мы в поиске Data Scientist в команду A/B Platform.
Чем предстоит заниматься:
Развитие методологии A/B-тестирования (снижение дисперсии, switch-back, исследование прокси-метрик);
Построение масштабируемого пайплайна расчета метрик и A/B репортов - конфигурирование метрик и срезов, реализация расчета и применение стат методов для оценки значимости (в связке с дата-инженером):
Улучшение процесса A/B-тестирования в компании - от дизайна эксперимента до валидации и принятия решения.
Стэк технологий: Big data (Hadoop, PySpark, Hive), Python, Catboost, Airflow, Docker, SQL, PyTorch.
Почему у нас классно:
Хорошо выстроенные процессы: квартальное планирование по методологии OKR, двухнедельные спринты, регулярные стендапы и проектные встречи для синхронизации.
Сильная команда middle и senior специалистов, развитое DS-сообщество, где есть возможность обмениваться знаниями на внутренних митапах
У нас представлен полный жизненный цикл разработки data-driven продуктов с применением ML — от идеи и генерации гипотез до запуска АБ тестов. В части разработки онлайн-сервисов и деплоя моделей нам помогает команда инженеров.
Мы ожидаем:
Опыт в области анализа данных и машинного обучения (от 2 лет);
Опыт работы с SQL, Hadoop, Hive, Spark;
Владение Python, Linux, методами работы с большими данными;
Знания теории вероятностей и математической статистики;
Знания в области машинного обучения, прогнозного моделирования и методов статистического анализа;
Знание алгоритмов и структур данных;
Высшее образование в области прикладной математики, информационных технологий, информатики, экономическое с уклоном в математические методы и т.п;
Английский язык на уровне технического чтения.
Будет плюсом:
Знание эконометрики;
Опыт работы с библиотекой statsmodels.
Как мы работаем:
Пишем на Python 3.6+ и PySpark 3.0;
Для ресерча доступны два сервера (80 cores, 650Gb RAM), на которых развернут JupyrerHub и есть доступ к Hadoop-кластеру;
Код с логикой ML-пайплайнов упаковываем в Docker и выкатываем, используя CI/CD-инструменты с запуском code style проверок и тестов;
Используем Airflow для управления ML-пайплайнами и запуском их по расписанию;
В командах есть культура code review как для изменений по части продакшен-пайплайнов, так и для ресерч-задач;
Регулярно проводим командные брейнштормы с целью генерации новых идей по развитию наших data-driven продуктов;
В компании внедрена культура принятия решений на основании данных и все изменения тестируем через АБ-эксперименты
Вакансия в архиве. Посмотрите другие вакансии в ленте.