Кто такой Data Scientist, что делает и где работает

Юлия Соболева Главный редактор УчисьОнлайн.ру

Здравствуйте! В статье мы поговорим о Дата Сайентистах. Узнаем, чем они занимаются, какими бывают, что входит в их обязанности, а также расскажем о востребованности, перспективах, плюсах и минусах профессии.

Что такое Data Science

В переводе с английского языка Data Science – наука о данных, которые, в свою очередь, представляют большие объемы неструктурированной информации.

Говоря простыми словами, Data Scientist – это специалист, который обрабатывает аналитические данные, строит и тестирует математические модели, ищет закономерности и связи, а также составляет прогнозы.

Приведем несколько примеров, что можно сделать с помощью Дата Сайенс и алгоритмов машинного обучения:

  • Спрогнозировать спрос на услуги такси и цену поездки в определенный временной промежуток, построить оптимальный маршрут.
  • На основе предпочтений пользователей сформировать подборку рекомендуемых фильмов, книг, музыки в онлайн-сервисах или список возможных друзей в социальных сетях.
  • Обнаружить подозрительное поведение интернет-пользователя и выявить мошенническую схему.
  • Проанализировать маркетинговую стратегию, качество рекламных кампаний.
  • Оценить вероятность наступления страхового случая, принять решение о выдаче кредита и рассчитать индивидуальную ставку.
  • Создать программу по распознаванию лиц, голосового помощника или бота.
  • Составить метеопрогноз.
  • Изучить активность работников в течение рабочего дня.

Чем Data Science отличается от аналитики

И Data Scientist, и аналитик данных занимаются анализом информации, но решают разные задачи и различными методами. Мы сделали сравнительную таблицу, чтобы показать разницу.

Профессия Data Scientist Аналитик данных
Задача Найти связи и закономерности в данных, построить математические модели и спрогнозировать результат. Улучшить бизнес-показатели (продажи, прибыль и пр.), снизить затраты или риски, найти точки роста.
Инструменты Языки программирования, их библиотеки и фреймворки, машинное обучение, теория вероятностей, математика, статистика. Python/R/Java/SQL, сервисы аналитики, электронные таблицы, программы для визуализации данных.
Материал для обработки Неструктурированная информация: таблицы, текст, изображения, аудио, видео и др. Структурированная информация в табличном виде, реже – в текстовом формате.
Рабочий процесс Ищет данные для анализа, программирует и тренирует ML-модель, внедряет ее в производственный процесс. Изучает потребности потребителей, формулирует и проверяет гипотезы, делает выводы в форме отчетов и графиков.
Пример работ Разработка рекомендаций в интернет-магазине на основе предыдущих заказов покупателя. Анализ поведения пользователей и структуры продаж, разработка мер для увеличения среднего чека.
Подборка курсов Все онлайн-курсы по Data Science в 2024 году
Посмотреть подборку

Что делает Data Scientist

Главная задача представителя профессии – преобразовать "сырые" данные в полезную и достоверную информацию. Конкретные обязанности Дата Сайентиста зависят от того, в какой сфере он работает.

Расскажем, чем в общем занимается специалист по Data Science:

  • Выясняет требования и потребности заказчика, выбирает алгоритмы под поставленную цель, делает техническое задание.
  • Ищет каналы и методы для сбора информации, импортирует разрозненные данные различных форматов. Источники могут быть любыми: веб-аналитика, показатели измерительных приборов, таблицы, аудио- и видеоконтент.
  • Проверяет материал на полноту, целостность, валидность, наличие ошибок, пропусков, чтобы исключить факторы, которые искажают результат или мешают анализу.
  • Определяет признаки для оценки значимости и отбора нужных данных из общего объема, ищет закономерности и связи.
  • Разрабатывает и программирует модель машинного обучения, выбирает метрики для проверки ее качества, экономического эффекта, безопасности.
  • Изучает полученные данные, подтверждает или опровергает гипотезы (в последнем случае работа с этим набором данных прекращается).
  • Внедряет готовую и протестированную ML-модель в производственный процесс или цифровой продукт.
  • Проектирует аналитические и рекомендательные системы.
  • Создает нейросети для распознавания изображений и обработки естественного языка.

Что он должен знать и уметь

Дата Сайентист должен знать разные разделы математики – линейную алгебру, матанализ, теорию вероятности, статистику – а также уметь строить математические и ML-модели.

Кратко перечислим, какие еще знания и навыки нужны специалисту по Data Science:

  • SQL для получения информации из баз данных и последующей фильтрации.
  • Язык программирования Python, его библиотеки и фреймворки: Pandas, Numpy, Scipy для обработки и анализа данных, Matplotlib, Seaborn для визуализации и др.
  • Программы для машинного и глубокого обучения: SciKit-Learn, Ten­sor­Flow, Theano, Keras.
  • Инструменты для работы с большими данными (Big Data): Hadoop, MapReduce, Apache Hive, Kafka, Spark.
  • Технологии для разработки компьютерного зрения.
  • Программный пакет NLTK для статистической обработки естественного языка.
  • Английский на уровне понимания технической документации.

Про junior, middle и senior

В профессии Data Scientist есть 3 уровня компетенции:

  • Junior – начинающий специалист, который умеет работать с CSV-файлами, обрабатывать, чистить, структурировать и визуализировать данные, знает, как заменять недостающие значения, применяет библиотеки Python для визуализации и построения моделей линейной регрессии.
  • Middle – опытный Дата Сайентист, который владеет продвинутыми техниками: предсказание дискретных переменных, оценка моделей и оптимизация гиперпараметров, сочетание разных моделей в ансамбле методов. Он на профессиональном уровне знает библиотеку SciKit-Learn и применяет ее для построения ML-моделей.
  • Senior – профессионал, который работает с различными датасетами: текстом, изображениями, аудио- и видеоматериалами. Он знает технологии больших данных (Big Data), умеет строить и обучать нейросети, анализировать огромные массивы необработанной информации.

На нашем сайте вы найдете лучшие курсы по Data Science от ведущих дистанционных школ. Выбирайте для себя подходящую программу по цене, срокам и формату обучения и другим параметрам с помощью удобных фильтров. Также у нас можно почитать реальные отзывы учеников.

Место работы

Специалисты по Data Science востребованы во многих направлениях: бизнес, производство, маркетинг, СМИ, IT, политика, наука, медицина и т. д.

Основные сферы, в которых чаще всего работают Дата Сайентисты:

  • Розничные, оптовые и интернет-продажи. В этих отраслях Data Scientist решает множество задач: прогноз спроса на товары с учетом сезонности, разработка персонализированных маркетинговых или рекламных предложений и т. д.
  • Банки, финансовые организации – для скоринговых систем, анализа рисков, расчета кредитных ставок, оценки платежеспособности заемщиков.
  • Транспортные, логистические центры – для построения оптимальных маршрутов, определения сроков доставки, планирования загрузки складов.
  • Информационные технологии – для разработки софта, веб- и мобильных приложений, например, ботов, поисковых систем, крупных маркетплейсов, соцсетей, онлайн-сервисов с контентом различного назначения.
  • Производственная сфера, сельское хозяйство – для прогнозирования объемов производства и потребления, возможных сбоев оборудования, дефекта продукции.
  • Высокотехнологичные отрасли, к примеру, создание искусственного интеллекта.

О зарплатах Дата Сайентистов мы рассказали в статье "Сколько зарабатывает Data Scientist в России и Америке за месяц".

Востребованность и перспективы

Алгоритмы машинного обучения строят все более точные прогнозы, а сфер их применения с каждым годом становится все больше. Поэтому спрос на специалистов по Data Science стремительно растет – за последние три года количество вакансий выросло более чем на 400%.

По оценке представителей IT-отрасли, профессия Дата Сайентиста останется самой востребованной в мире до 2025 г.

На сайте HeadHunter опубликовано более 750 вакансий для Data Scientist, из них более 350 – для кандидатов со стажем в отрасли около 3 лет, почти 80 – без опыта, порядка 150 – с возможностью работать удаленно. Большая часть работодателей – компании из сферы IT, банковского сектора и науки. Наибольший спрос в Москве, Санкт-Петербурге, Новосибирске, Казани и Нижнем Новгороде.

Карьерные перспективы Дата Сайентиста типичны для IT-отрасли. Новичок может начать с должности стажера/джуниора и за несколько лет повысить квалификацию до уровня Middle, а затем до Senior. Он может перейти в управление проектами на позицию Chief Data Officer или выбрать узкую специализацию, например, "компьютерное зрение".

Плюсы и минусы профессии

Data Scientist – это профессия, которая имеет свои особенности, преимущества и недостатки. Мы собрали в таблице основные плюсы и минусы, с которыми сталкивается в работе специалист по Дата Сайенс.

Минусы Плюсы
Профессию не получится освоить самостоятельно, так как нужны знания из разных отраслей Получить профильное образование можно не только в вузе, но и в онлайн-школах
Требуется определенный склад ума, знание математики или желание изучать ее углубленно Высокий доход – даже у начинающих специалистов зарплата выше среднего
Приходится работать в режиме многозадачности с большим объемом данных Можно развивать карьеру и в России, и за рубежом, работать в компании или удаленно/на фрилансе
Результат сложно предсказать, нельзя знать заранее, будет ли эффективной построенная модель Престижное, перспективное и востребованное направление
Необходимо постоянно повышать квалификацию, осваивать новые инструменты и технологии Возможность работать в разных сферах: бизнес, производство, IT, медицина, наука и пр.
Оцените статью
Ваша оценка 0 / 5
Мероприятия по теме
Все мероприятия
День открытых дверей: Аналитика и Data Science
20апрельапр
14:00 (моск. время)
Бесплатно
Вебинар: Многорукие бандиты в задаче рекомендаций
22апрельапр
19:00 (моск. время)
Бесплатно
Практикум: Популярные IT-направления: Data Science
и перспективы профессии
22апрельапр
19:00 (моск. время)
Бесплатно
День открытых дверей: Как начать карьеру в аналитике и Data Science
23апрельапр
19:00 (моск. время)
Бесплатно
Вебинар: AB тесты в рекомендательных системах
20маймай
20:00 (моск. время)
Бесплатно
Юлия Соболева Главный редактор УчисьОнлайн.ру

Расскажите, кем вы сейчас работаете и хотели бы стать Data Scientist?

Комментарии

Комментариев пока нет. :(

Написать комментарий

Задайте интересующий вопрос или напишите комментарий.
Зачастую ученики и представители школ на них отвечают.

Только зарегистрированные пользователи могут оставлять комментарии. Зарегистрируйтесь или войдите в личный кабинет