Кто такой Data Scientist (дата сайентист), что делает, где учиться и как им стать

Обзор профессии дата сайентист

Сейчас практически в любом направлении деятельности (бизнес, банки, компании, производства, исследования и т.д.) данные играют большую роль, и оставлять их на самотек как раньше, уже не получится. Это связано с появлением огромных кластеров данных, с которыми нужно работать, перемещать их, анализировать, улучшать, делать прогнозы и прочее. Именно поэтому профессия дата-сайентиста стала актуальной и востребованной.

Направление работы с данными считается довольно новым, а в русскоязычных странах это и вовсе только зарождающаяся сфера. Специалисты по данным очень ценятся и крайне востребованы по всему миру. Поэтому с профессией явно стоит познакомиться поближе, в чем и поможет эта статья.

Что делает дата сайентист

Лучший способ понять, кто такой data-сайентист — разобраться в самой профессии. Data science входит в число специализаций, которые работают с данными. В частности, дата science подразумевает работу с большими объемами данных. Такими данными может быть любая информация, которой много и у которой нет структуры. Например, статистика SEO, база клиентов, результаты голосов на выборах и подобное. Для эффективной работы с такой информацией, имеющейся в большом объеме, применяют методы машинного обучения и используют математическую статистику.

Профессия data scientist включает в себя работу над данными. В частности, специалист должен уметь анализировать информацию для дальнейшего прогнозирования. Тип и цель прогнозов зависит от поставленной задачи, но любой дата-сайентист в первую очередь должен уметь создавать модель прогнозирования, которая в сущности является алгоритмом в программном коде.

Кто такой Data Scientist

Для понимания лучше привести примеры работы специалиста. Знакомый всем прогноз погоды, рекомендация музыки в стриминговом сервисе, подбор противника в онлайн-игре, программа по выдаче кредита, система искусственного интеллекта и многое другое — всё это дело рук data-сайентиста. Анализируя информацию, scientist ищет закономерности, корреляцию и связи, чтобы на основе полученных данных создать модель для прогнозирования чего-либо. Впоследствии эта модель внедряется в систему, будь то социальная сеть, онлайн-игра или беспилотный автомобиль.

Отличие дата-сайентиста от дата-инженера

Чтобы между двумя профессиями по работе с большим объемом информации не возникало путаницы, важно вспомнить, кто такой дата сайентист и, кто такой инженер данных. Инженер собирает данные, обрабатывает и перемещает их. Зачастую всё это он делает для сайентиста, который продолжает работу с данными, анализируя их, выстраивая алгоритмы для прогноза и решая поставленную задачу.

Разница между дата сайентистом и инженером данных по навыкам

Оба специалиста осуществляют деятельность в одной сфере, но сам принцип их работы кардинально разный. Многие путают профессии зачастую из-за разных представлений в компаниях-работодателях. Некоторые компании берут на вакансию с названием “data-science” человека, который подходит под требования data-engineer. К сожалению, подобное происходит часто.

В команде и тот, и другой специалист работают значительно эффективнее, нежели по отдельности. В каком-то смысле профессии дополняют друг друга.

Рекомендуем дополнительно прочитать обзор профессии инженер данных

Работа data сайентистом

Работа data сайентистомПрофессия data scientist интересна и востребована. Многие прямо сейчас изучают эту сферу, в то время как другие ищут хороших специалистов по данной специальности.

Что касается востребованности, по множествам рейтингов в США эта профессия считается самой востребованной в стране. В России тоже много вакансий для дата-сайентиста, особенно в Москве. Так как сфера сейчас стремительно развивается и явно обладает огромным потенциалом, количество вакансий точно будет увеличиваться с каждым годом. Как у нас, так и за рубежом.

Основным плюсом работы специалистом по данным является заработная плата и быстро развивающееся направление, которое скорее всего будет актуально многие годы. Но сразу стоит отметить, что профессия объемная и трудная в изучении. Чтобы стать тем, кого возьмут на работу, надо потратить 1-2 года на обучение, усердно занимаясь на курсах или самостоятельно.

Так же дата-сайентистом крайне сложно стать людям, мало смыслящим в математике. Есть примеры, когда гуманитарий становился data-сайентистом, но для таких случаев путь изучения специальности еще более тернист и сложен. Помимо математики, облегчить становление специалистом по данным можно, зная статистику, программирование и основные принципы машинного обучения.

Необходимые навыки для дата саентиста

Заработок в профессии

То, сколько получают дата саентисты, зависит от нескольких факторов:

  • опыт работы ученого по данным;
  • навыки, которые можно подтвердить путем прохождения тестовых заданий или показа предыдущие проекты;
  • сферы деятельности компании-работодателя;
  • сложности конкретного проекта или группы проектов.

На 2020 год показатели зарплаты выше среднестатистических. Это от 70 тысяч рублей по России и от 100 тысяч рублей в Москве. Столько получают новички в профессии.

Средняя заработная плата специалиста составляет примерно 105-150 тысяч рублей в России и 140-190 тысяч рублей в Москве. Специалисты с высокой квалификацией и большим опытом зарабатывают от 230 тысяч рублей.

Заработок за границей зависит от страны. В Европе платят так же, как в Москве, а вот в Америке заработная плата больше. В час там платят в среднем 40-60 долларов, то есть работая условные 4 часа в день можно зарабатывать по 200 долларов. Высокая заработная плата связана не только с разницей в экономике России и США, но и с тем, что в Америке намного больше компаний и стартапов, которым нужен ученый по данным.

Требования и обязанности

Эффективный способ понять, что должен уметь дата саентист — ознакомиться с требованиями работодателя. Причем как в вакансиях на постоянную работу, так и в проектных работах на фрилансе. Конечно, у каждого работодателя будут свои требования к аналитику, но основные обязанности специалиста встречаются во всех вакансиях.

Важно! Одно из самых важных требований в данной работе — это понимание самих данных, с которыми придется работать. Проще говоря, сайентист должен понимать деятельность компании, на которую он работает, и понимать информацию, анализ которой ему предстоит.

Список главных требований и обязанностей:

  • проведение исследований в области деятельности компании;
  • создание систем для прогнозирования и оценки рисков;
  • сегментация клиентов;
  • отличное владение SQL;
  • оптимизация процессов на основе большого объема данных;
  • создание автоматизированных систем для анализа данных на основе современного инструментария Data Science (Python, Apache Spark, Jupyter, Zeppelin);
  • работа в Apache Kafka, HDFS, Apache Spark, Apache Cassandra;
  • создание, развитие и поддержка внутренней инфраструктуры данных для их анализа, обработки и составления прогнозов;
  • знание языка программирования Python и/или R;
  • построение моделей данных и работа с сырыми данными;
  • формулировка гипотез и их валидация;
  • визуализация результатов;
  • понимание принципов математической статистики и методов машинного обучения;
  • использование прикладной статистики;
  • работа с современными системами контроля версий (Git, HG);
  • взаимодействие с подразделением IT.

Пример вакансии:

Требования и обязанности для работы дата саентистом

Где найти работу

В том, чтобы найти работу data сайентисту, нет ничего сложного. После обучения стоит поискать вакансии на одном из популярных сайтов (например, на HeadHunter или Trud). Там можно отфильтровать работу по опыту, заработной плате, виду деятельности и расположению офиса.

Если хочется начать с проектной работы, лучше поискать заказы на биржах фриланса. Отмечу, что проектные заказы, связанные с работой с данными, встречаются редко и довольно сложны в выполнении, так как требуют ознакомления с деятельностью компании-заказчика. Придется каждый раз делать это заново, ведь на фрилансе заказчики будут меняться часто. Поэтому данный вид деятельности рекомендован опытным специалистам, а не новичкам.

Инструкция: как стать data-сайентистом

Как стать дата сайентистом пошаговая инструкцияОбщие принципы того, как стать специалистом по данным, идентичны вне зависимости от способа обучения (самостоятельно или на курсах). Но в такой профессии крайне желательно совмещать и самообучение, и обучение на курсах, при этом не забывая о знаниях, полученных в высшем учебном заведении.

Пошаговые действия:

  1. Для того, чтобы в дальнейшем не возникло пробелов в понимании, лучше начать с самых азов — с математики. Высшая математика не понадобится, но понимать такие вещи, как производная, дифференциал, определитель матрицы и подобное, обязательно надо.
  2. Дальше следует изучить математическую статистику, без которой никуда при анализе любой информации.
  3. Теперь можно переходить к более практическим действиям — научиться писать код на языке программирования Python. Для сферы data science это основной язык. Реже применяется R, который значительно легче усваивается после овладения Python. На этом же этапе важно научиться работать с SQL.
  4. Затем можно переходить к пониманию машинного обучения и созданию алгоритмов для него. Кроме теоретических знаний, на этом этапе важно применять изученное на практике. Так информация лучше усваивается.
  5. Ознакомиться с такими инструментами, как Apache Kafka, HDFS, Apache Spark, Apache Cassandra.
  6. С данным багажом знаний уже можно попробовать создать модель для прогноза чего-либо. Придумайте для себя задачу в сфере, где легко достать неструктурированные данные, и создайте модель для прогноза.
  7. Теперь можно найти работу. На протяжении работы будут появляться новые вещи, которые стоит изучить. Что конкретно это будет — зависит от места работы и проектов.

Первые этапы хоть и включают математику и статистику, которые не кажутся особо сложными на фоне языков программирования и специализированных инструментов, являются ключевыми и наиболее трудными для новичков. Поэтому после их прохождения втянуться в профессию будет намного легче.

Обучение на дата-сайентиста

Обучение на data scientist-а требует серьезного и комплексного подхода, который должен включать и самообучение, и курсы, и применение знаний, полученных в ВУЗе. Можно научиться специализации используя лишь один из способов обучения, но в таком случае этот процесс займет намного больше времени и сил, нежели при совмещении курсов и самообразования.

ВУЗы

В высших учебных заведениях, расположенных в России и странах постсоветского пространства, нет специализации дата сайентист. Такое направление есть в некоторые университетах Европы и континентальной Америки.

Но ВУЗ существенно влияет на будущее изучение профессии. Дело в том, что поступив на математическую специализацию, либо на направление, включающее программирование на R, Python, SQL, можно значительно облегчить дальнейшее обучение. Так, окончив ВУЗ со знанием математики, математической статистики и того же Python, останется лишь ознакомиться с инструментами data scientist-а и уже можно создать первую модель для прогнозов.

В России есть несколько факультетов, где данные изучают углубленнее по сравнению с остальными. В число таких факультетов входит:

  • Факультет компьютерных наук в Высшей Школе Экономики;
  • Факультет микроприборов и технической кибернетики МИЭТ;
  • Магистерская программа “Большие Данные” на факультете ВМиК МГУ;
  • Магистерская программа по большим данным в СПБГУ;
  • Факультет инноваций и высоких технологий в МФТИ.

Любой из этих факультетов, плюс 2-3 месяца на онлайн-курсе — и специалист в области данных готов! Естественно, если вы отточили все навыки на практике.

Онлайн-курсы

Если полученное образование не имеет ничего общего с анализом большого количества информации, то самый эффективный вариант того, с чего начать data сайентисту для обучения профессии — это онлайн-курсы.

В них собраны все нужные знания, начиная с математики и заканчивая практическими прогнозами. Но для качественного обучения стоит выбрать зарекомендовавшую себя онлайн-академию с курсом, через который прошел уже не один десяток человек.

Рекомендуем Вам посетить страницу с акциями и промокодами на онлайн обучение в лучших онлайн школах.

Можно выделить 4 курса в самых популярных онлайн-школах:

1. Профессия Data Scientist на Skillbox

Обучение на дата саентиста в Skillbox

Обучение длительностью в 1.5 года. Состоит из 8 курсов. В конце у ученика будут 2 дипломные работы. Есть помощь в трудоустройстве.

Ссылка на обучение и подробности: https://skillbox.ru/course/profession-data-scientist/

Еще у Skillbox есть более короткий курс (9 месяцев), посвященный анализу данных: https://skillbox.ru/course/profession-data-analyst/

2. Data Science обучение — курсы машинного обучения на GeekBrains

Обучение профессии дата саентист на Гикбрейнс

Программа обучения разработана совместно с компаниями Nvidia и “МегаФон”. ГикБрэинс гарантирует трудоустройство по окончании курса, а также составляет резюме совместно с учеником. Длительность — полтора года.

Ссылка на обучение и подробная информация о курсе: https://datascience.geekbrains.ru/

3. Обучение на курсе Data Science с нуля от Нетологии

Обучение на дата саентиста в Нетологии

Обучение длится год и включает в себя вебинары и очные лекции в Москве. В конце обучения ученик получит диплом о профессиональной переподготовке.

Ссылка на обучение и подробная информация о курсе: https://netology.ru/programs/data-scientist

Еще у Нетологии есть более длительный курс до Middle уровня: https://netology.ru/programs/prodatascience

4. Курс Data Science с нуля от SkillFactory

Обучение на дата саентиста в SkillFactory

Обучение длится на протяжении 24 месяцев и включает в себя много практической работы. После успешного обучения у студента будет сертификат и консультация с ментором по поиску работы.

Ссылка на обучение и подробная информация о курсе: https://skillfactory.ru/dstpro

Желательно ознакомиться с каждой программой обучения, чтобы подобрать наилучший вариант для себя.

Udemy

Если обучение в онлайн-школах для Вас слишком длительное и дорогое, то Вы можете приобрести недорогие курсы на платформе Udemy. Здесь есть множество различных курсов по теме в основном на английском языке, но на русском тоже встречаются (пользуйтесь фильтром).

Эффективность такого обучения не сравнима с полноценным курсом в онлайн-школе, но это хорошая альтернатива. На платформе Вы покупаете уже готовые материалы, которые изучаете самостоятельно. Основные преимущества — это цена и возможность прочитать отзывы пользователей о каждом курсе.

Ссылка на платформу Udemy с курсами по Data Science: https://www.udemy.com/courses/search/?src=ukw&q=Data+Scientist

Самообучение/Бесплатные курсы

Некоторые предпочитают изучить специализацию не на платных онлайн-курсах, а самостоятельно. Данный способ не рекомендуется для профессии дата-сайентиста, так как лучше обучаться на курсах, подкрепляя знания самостоятельно, а не полностью учиться самому. Тем не менее, успешно освоить профессию таким способом вполне возможно.

Объемных программ обучения “от и до” на русском языке не так много. Даже на английском языке информация в основном подана разрозненно. То есть где-то можно узнать о математическом анализе, а на другом ресурсе изучить Python. Но есть и большие материалы.

Материалы для самообразования:

Лучшие книги по data science:

  • “Data Scientist” Джоэл Грас;
  • “Практическая статистика для специалистов Data Science” Питер Брюс, Эндрю Брюс;
  • “Data Scientist” Кэти О’Нил, Рэйчел Шатт;
  • “Теоретический минимум по Big Data” Анналин Ын, Кеннет Су;
  • “Основы Data Science и Big Data” Дэви Силен, Арно Мейсман, Мохамед Али;
  • “Python для сложных задач” Дж. Вандер Плас;
  • “Математический анализ” Липман Берс;
  • “Python Data Science Essentials” A. Boschetti;
  • “Jupyter for Data Science” D. Toomey;
  • “Principles of Strategic Data Science” P. Prevos.

Последние три книги доступны только на английском языке, но содержат в себе очень полезную, и главное, легко усваиваемую информацию с примерами.

Великолепно подкрепить полученные знания можно на платформе Kaggle, где проходят соревнования по машинному обучению.

Ссылки на интересные материалы

Ссылки на интересные материалы, касающиеся профессии дата-сайентиста:

Эта профессия как минимум входит в число самых перспективных, поэтому в последние годы многие с удовольствием изучают data science. Конечно, как и в других отраслях, здесь есть свои недостатки и трудности, которые особенно заметны в начале обучения, но при должном старании любой сможет пополнить ряды ученого по данным. Так что дерзайте!

Заодно поделитесь в комментариях вашим мнением о профессии. Быть может, вы сравниваете инженера, аналитика и дата саентиста, выбирая кем лучше стать? Или выбор в пользу дата-сайентиста уже сделан? В любом случае, удачи в покорении новых границ!

Видео по теме

Уважаемый посетитель, если Вы не согласны с какой-либо информацией в статье, или нашли ошибку (неточность), то перейдите пожалуйста на страницу контроля качества информации и свяжитесь с нами.
Оцените статью
Обзоры онлайн-профессий
Добавить комментарий