Machine learning, deep fake, нейросети, artificial intelligence, big data все стремительнее врываются в нашу жизнь. Узнали у директора по данным Петра Царенко и тимлида команды аналитики Дмитрия Казакова из Kolesa Group, что значат некоторые из этих терминов и как стать Data Science-специалистом в Казахстане.

Иллюстрации

АЙГЕРИМ САТТАР

Базовая терминология в Data Science

Data science обозначает и набор инструментов для работы с данными, и саму эту работу: получение из данных информации, инсайтов, пользы. Это довольно большая область знаний — инженерная, академическая, бизнесовая.

Data Science невозможен без сбора большого объема данных (Big Data) об интернет-пользователях и их поведении. Важно не только количество данных, но и их качество: данные должны быть пригодны для анализа, выявления трендов и поиска ценных инсайтов для принятия бизнес-решений.

Искусственный интеллект (AI) — широкое понятие, используется как синоним двух узких терминов: машинное обучение (machine learning) и глубокие нейронные сети (deep learning). ИИ звучит эффектнее, все сразу представляют себе, как машины захватывают мир людей, поэтому компании, особенно стартапы, любят кататься на волне хайпа, внедряя ИИ. Обычно речь идет о близком понятии — машинном обучении — самообучающейся системе алгоритмов, которая требует меньшего вмешательства человека.


Сказать, что дата сайентисты востребованы — ничего не сказать


Прямо в момент работы над этим текстом на LinkedIn висит пара сотен активных вакансий по ключевому запросу «Data Science». В последние несколько лет спрос на специалистов в Data Science стабильно превышает предложение. Четыре года назад McKinsey опубликовали глобальное исследование, впервые заявляя о глобальной нехватке кадров в Data Science. Согласно данным Paysa, в 2018 компания Amazon потратила 227,8 миллионов долларов на рекрутинг специалистов для работы с искусственным интеллектом и машинным обучением, а Google — 130,1 миллионов долларов.

Дата-сайентисты пользуются спросом и в Казахстане. Некоторые компании даже готовы платить 300 тысяч тенге за рекомендацию data-инженера middle уровня или 200 тысяч за джуниора в рамках реферальной программы.

Какие специализации есть в Data Science?

Data Science — это зонтик, под которым понимают несколько специальностей:

— DWH-инженеры/Data-инженеры строят системы хранения и движения данных — фундамент, на котором строится вся работа с данными;

— Data-аналитики (product-аналитики) — это специалисты, ориентированные на решение прикладных бизнес-задач;

— BI-аналитики занимаются визуализацией данных и разработкой дэшбордов для менеджеров и руководства;

— ML-инженеры умеют работать с алгоритмами машинного обучения и искусственного интеллекта и отлично кодят;

— ML-ресерчеры работают в крупных международных IT-компаниях, занимаются разработкой новых алгоритмов в машинном обучении, делают какие-то космические вещи, о существовании которых мало кто догадывается.

Как стать специалистом в Data Science?

Сфера работы с данными не нова, но широкое распространение получила только в последние несколько лет. Поэтому в мире все еще немного вузов, которые предлагают степень в Data Science. В Казахстане только КБТУ предлагает степень в Big Data Analytics (Анализ больших данных) в рамках Факультета информационных технологий.

Есть множество международных платформ, предлагающих онлайн и оффлайн курсы по Data Science, Big Data и Machine Learning, подходящих для входа в профессию — Udacity, Coursera, edX, Khan Academy, Udemy. Есть и более серьезные курсы, равнозначные уровню магистратуры. Такие предлагает, например, Школа анализа данных от Яндекса.

Частные компании готовы обучать специалистов внутри на реальных задачах в формате корпоративной академии или школы, в RnD-отделе Петра и Дмитрия тоже готовят подходящие кадры. Это, пожалуй, самый быстрый путь, но на входе требуют минимальный набор знаний.

Чтобы оставаться востребованным и актуальным специалистом, надо читать научные и исследовательские работы лучших профессионалов на английском языке. Их нужно искать в исследовательских базах данных.

Как начать работать в Data Science?

Есть три классических пути входа в сферу. В нее чаще всего приходят:

Люди с профильным математическим образованием, которые подтягивают кодинг и знания в бизнес-процессах;

Программисты, которые любят глубоко погружаться в суть проектов и закапываться в данные;

Product-менеджеры и маркетологи, которые приходят в Data Science через аналитику.

Практика — лучшая школа в Data Science, но компании не берут людей с нулевыми знаниями. И даже учитывая острый кадровый голод, специалисты на самом начальном уровне должны кое-что знать:

— Математика. Линейная алгебра, теория вероятности и математическая статистика;

— Алгоритмы. Базовый набор — простые регрессионные задачи, работа с временными рядами, AB-тестирование;

— Python, R. Знания программной среды необходимы для выполнения эффективного анализа. Кроме стандартных Python и R, есть корпоративные решения вроде SAS, SPSS;

— Бизнес. Понимание бизнес-среды, в которой работает аналитическая команда, чтобы эффективно коммуницировать с постановщиком задач.