Профессия data science что это
Кто такой Data Scientist?
Дата-сайентист (он же Data Scientist, специалист по Data Science) может найти себе работу в любой сфере: от розничной торговли до астрофизики. Потому что именно он — настоящий повелитель больших данных. Вместе с автором кейсов для курса по Data Science Глебом Синяковым разбираемся, почему в современном мире всем так нужны дата-сайентисты.
Чем занимается Data Scientist?
Data Scientist применяет методы науки о данных (Data Science) для обработки больших объемов информации. Он строит и тестирует математические модели поведения данных. Это помогает найти в них закономерности или спрогнозировать будущие значения. Например, по данным о спросе на товары в прошлом, дата-сайентист поможет компании спрогнозировать продажи в следующем году. Модели строят с помощью алгоритмов машинного обучения, а с базами данных работают через SQL.
Где нужен и какие задачи решает Data Scientist?
Дата-сайентисты работают везде, где есть большие объемы информации: чаще всего это крупный бизнес, стартапы и научные организации. Поскольку методы работы с данными универсальны, специалистам открыты любые сферы: от розничной торговли и банков до метеорологии и химии. В науке они помогают совершать важные открытия: проводят сложные исследования, например, строят и обучают нейронные сети для молекулярной биологии, изучают гамма-излучения или анализируют ДНК.
В крупных компаниях дата-сайентист — это человек, который нужен всем отделам:
В стартапах они помогают разрабатывать технологии, которые выводят продукт на новый уровень: TikTok использует машинное обучение, чтобы рекомендовать контент, а MSQRD, который купил Facebook, — технологии по распознаванию лица и искусственный интеллект.
Пример задачи:
Если дата-сайентисту нужно спрогнозировать спрос на новую коллекцию кроссовок, то он:
Что ему нужно знать?
Дата-сайентист должен хорошо знать математику: линейную алгебру, теорию вероятности, статистику, математический анализ. Математические модели позволяют найти в данных закономерности и прогнозировать их значения в будущем. А чтобы применять эти модели на практике, нужно программировать на Python, уметь работать с SQL и библиотеками (набор готовых функций, объектов и подпрограмм) и фреймворками (ПО, объединяющее готовые компоненты большого программного проекта) для машинного обучения (например, NumPy и Scikit-learn). Для более сложных задач дата-сайентистам нужен язык С или C++.
Результаты анализа данных нужно уметь визуализировать, например, с помощью библиотек Seaborn, Plotly или Matplotlib.
Обзор профессии Data Scientist
Data Scientist — это эксперт по аналитическим данным, который обладает техническими навыками для решения сложных задач, а также любопытством, которое помогает эти задачи ставить. Они частично математики, частично компьютерные ученые и частично трендспоттеры.
Данные PayScale
В России цифра составляет от 60-70 тысяч рублей в месяц для совсем «зеленых» новичков и доходит до 220 для опытных специалистов.
Как сказал DJ Patil, бывший главный научный сотрудник отдела научно-технической политики Соединенных Штатов, — «Data scientist — это специалист с уникальным сплавом навыков, который делает удивительные находки и воплощает фантастические истории — и все это благодаря данным».
Чем на самом деле занимаются специалисты по Big Data? Они постоянно сталкиваются с ограничениями — техническими, методологическими и любыми иными — и находят пути для новых решений. Совершают открытия, анализируя и прогнозируя. В Data Science есть место и творчеству: специалисты изобретают элегантные решения сложных задач, а также качественно визуализируют информацию, делать шаблоны понятными и убедительными.
Пример из жизни Data Scientist: «Джонатант Голдман, физик из Стэнфорда, устроился на работу в социальную сеть LinkedIn, и начал заниматься чем-то, что нельзя было измерить в KPI или посмотреть на конечный результат: сайт, исправление бага, внедрение фичи. Пока команда разработчиков ломала голову над тем, как модернизировать сайт и справиться с наплывом посетителей, Голдман строил прогностическую модель, которая подсказывала владельцу аккаунта LinkedIn, кто еще из пользователей сайта может оказаться его знакомым. Убедив руководство компании опробовать его новую модель, Голдман приносит соцсети миллионы новых просмотров и значительно ускоряет ее рост».
Нет определенного описания этой профессии — все зависит от сферы применения навыков работы с данными. Однако, есть вещи, которыми занимается любой Data Scientist:
Итак, вы уже поняли, что Data Scientist — человек, умеющий не только добывать и анализировать, но и обрабатывать большие массивы данных, совершая поистине волшебство с помощью множества инструментов. Если вы хотите заняться Data Science по-настоящему, то заготовьте не просто Excel, но и знания по Python, учебник по математическому анализу, и готовьтесь учиться.
Ну, и в конце мы просто хотели вас порадовать. Вот полезные ссылки. Первая — с 51 бесплатной книгой, связанной с Data Science. А вот крупнейшее Data Science сообщество. Еще есть отличный учебник Петера Флаха «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных», переведенный на русский язык.
Откуда и зачем приходят в Data Science?
О Data Science говорят много, ведь это одна из самых востребованных и перспективных сфер. Из каких профессий люди приходят в Data Science, как они выбрали обучение, чего стремятся достичь, где собираются работать и какую роль сыграла пандемия — об этом мы поговорили со студентами магистратуры «Наука о данных» НИТУ МИСиС, организованной совместно с Zavtra.Online, подразделением SkillFactory по работе с вузами.
Евгений Бондаренко
38 лет. Врач-реаниматолог. Пришел в Data Science, потому что с детства мечтал обучать машины.
Я из Кыргызстана, сперва работал на «скорой», совмещая учёбу и работу, потом в больнице уже по специальности — анестезиологом-реаниматологом. Но из медицины ушёл, работа врача плохо оплачивается и к тому же большой стресс каждый день.
После этого я занимался разными вещами. Открыл свою компанию, возглавлял отдел маркетинга и рекламы в газете, занимался дизайном… А потом пришёл в dostek.kg, где руководил проектом СОЧИ — Системой Отчетности Через Интернет. У меня была команда программистов, и их работа меня заинтересовала. Я взял отпуск, ушел осваивать программирование и вернулся фронтенд-разработчиком.
Об интересе к Data Science
Помимо рабочих у меня есть свои проекты; некоторые были связаны с наукой о данных. Например проект «Барад-Дур» — это web-сервис который сдаёт в аренду торговых роботов трейдерам. Торговые роботы занимаются классификацией бумаг на рынке по финансовым мультипликаторам, а также ранжируют их по привлекательности к покупке. В проекте имеется полный спектр работы дата-сайентиста, ведь мы собираем данные с финансовых площадок, собираем новости и скоро начнём собирать сообщения из групп в Телеграм, анализируем всё это дело, классифицируем. Надеюсь, нам удастся что-то ещё предсказывать, но это пока чересчур сложно.
Я решил, что хочу узнать об этой сфере больше. Пока искал информацию для своего проекта, втянулся и подумал, что хочу сменить сферу деятельности — с фронтенда на аналитику данных и машинное обучение.
О сфере, которая особенно интересует
Я хотел бы научиться обучать машины. На самом деле, поступив в медицинский вуз, я планировал перевестись в институт робототехники и бионики. Но на третьем курсе оказался в этом институте, увидел, как у них все печально — и остался в своём. Вообще я с самого детства хотел заниматься робототехникой и теперь иду к этой мечте.
Об особенностях онлайн-формата
Это очень удобно. Пандемия тут сыграла позитивную роль, ведь раньше ничего подобного доступно не было — если хочешь учиться, нужно ехать, решать вопрос с жильём, отрываться от семьи. То есть для меня это было совершенно невозможно. А сейчас это образование стало доступным. Последние лет десять я в любом случае сижу перед компьютером и работаю онлайн — для меня это привычный мир. Так какая разница, где я слушаю лекцию или читаю?
О выборе программы
Ни высшее образование, ни диплом — не необходимость. Я решил пойти на программу Zavtra.Online и МИСиС, чтобы хоть что-то напрямую связывало меня с IT. Кроме качества обучения для меня решающим фактором была цена — другие достойные программы куда дороже, к тому же они англоязычные. Тут и на русском-то воспринимаешь математическую информацию с трудом, а на другом языке это ещё сложнее.
Ксения Колесниченко
34 года. Работает программистом и видит своё будущее в сфере Data Science.
Я закончила школу в 2003 году — тогда считалось, что люди с техническим образованием не нужны, зато нужны экономисты. Поэтому я и пошла в СПБГЭУ. После 2-го курса, когда надо было выбирать специализацию, поняла: что-то серьёзное даётся только на предметах, связанных с математикой и статистикой. И пошла на кафедру статистики и эконометрики. А затем — в магистратуру на кафедру страхования и управления рисками. Программирование, Python и SQL я изучала сама — на онлайн-курсах. И сейчас работаю младшим программистом в компании BI Consult.
Об интересе к Data Science
Думаю, что за Data Science будущее! Хоть сами по себе методы DS, т. е. математическая основа, не новы, но столь широкое распространение они получили только когда появились дешёвые инструменты для расчётов. Можете себе представить, чтобы 40 лет назад какая-нибудь сеть продуктовых магазинов анализировала сотни миллиардов строк в чеках? Нет. Можете себе представить, чтобы кто-то проанализировал миллионы анализов крови или рентгеновских снимков, а потом нашёл зависимости в результатах? Нет. Это технически было невозможно. А сейчас вполне реально. Так что причин, на мой взгляд, две: возможность анализировать те объёмы, которые раньше анализировать было невозможно, и то, что такой анализ куда более точен. Коммерческим компаниям точность несёт прибыль, социальным — эффективность. Поэтому за Data Science будущее.
Думаю, что, имея базовое образование, с надстройкой в виде этой магистратуры я буду очень востребована на рынке.
О плюсах и минусах онлайн-образования
В оффлайне хороших преподавателей на всех не хватает, и онлайн помогает получить к ним доступ. Например, на OpenEdu курс по комбинаторике, который я проходила, вел Райгородский Андрей Михайлович — он объяснял так, что его понял бы и десятилетний ребёнок. А в университете на занятиях по комбинаторике я не понимала ничего, просто заучивала наизусть. Второй момент — свободный график обучения. Минусов пока не заметила. Единственные проблемы, которые могу придумать, — ну, платформа может теоретически лагать.
В чем отличие курсов и высшего образования?
Мой знакомый хотел эмигрировать в США. Он работал программистом больше 20 лет, его брали чуть ли не в Google и Microsoft. А в визе в США ему отказали — из-за отсутствия образования в IT. Ну и ключевое отличие высшего образования от курсов — оно даёт фундаментальные знания. На обычных курсах нет даже теории алгоритмов.
Ярослав Шадрин
25 лет. Переехал в Москву специально, чтобы изучать Data Science — хочет попасть в компанию к Илону Маску.
Я закончил факультет инфокоммуникационных технологий и систем связи ИТМО в Петербурге. Чем хочу заниматься, я не совсем понимал, и в ИТМО подал документы потому, что там был высокий проходной балл — решил, раз туда все хотят, там классно. В итоге факультет оказался инженерным, а мне ближе IT. Да и обучение было скучным, старого формата. Так что доучивался я скорее для галочки. Закончив, уехал в Москву — здесь больше возможностей для учебы и работы в Data Science.
Об интересе к Data Science
Я сел и спросил себя: что я хочу делать? И понял, что по-настоящему интересна мне биология. Я немного поресерчил и узнал о существовании биоинформатики — грубо говоря, это применение Data Science в биологии. Меня это сразу заинтересовало. Но я решил в целом изучить DS и потом уже сфокусироваться на конкретной сфере.
О применении Data Science в биологии мы подробно рассказывали в материале Данные внутри нас: Чем занимаются биоинформатики?
Пока больше всего мне интересны нейронауки. В исследованиях мозга довольно широко применяется инструментарий DS — нейронные сети, моделирование систем и другие подобные вещи.
О компании мечты
Мечтаю попасть в Neuralink — это одна из компаний Илона Маска. Они делают чипы, которые встраиваются в голову и управляются силой мысли. Пока это всё в очень проектном виде — готового продукта ещё не существует, но разработки ведутся. За нейроинтерфейсами будущее!
О выборе образования
Для меня в приоритете изначально было высшее образование. На рынке остается кластер компаний, которые обращают внимание на наличие диплома. К тому же я хочу пойти на PhD. Бакалавриат у меня уже есть, поэтому зачем мне тратить четыре года, если можно потратить всего два, исключив более общие предметы? Именно магистратура МИСиС и Zavtra.Online привлекла меня проектным обучением — так, уже в процессе учебы собирается портфолио, которое можно показать на собеседовании. И ещё здорово, что это онлайн-магистратура — удобно совмещать с работой.
Оксана Евсеева
40 лет. Живет в Барселоне. Однажды поняла, что хочет внести свой вклад в мировой прогресс — и заинтересовалась Data Science.
Университет — ТГТУ — я заканчивала в 90-х. Мне хотелось вырваться из мира, который меня окружал, в родном городе я перспектив не видела. Получив высшее экономическое у себя в городе, я переехала в Испанию. Мотором для меня было внутреннее желание перемен. Я работала аккаунт-менеджером онлайн-платформы, соединяющей руководителей компаний из разных отраслей и стран.
Об интересе к Data Science
В 2016 году я оказалась на Global Mobile Congress в Барселоне. На этом конгрессе представлены все новейшие разработки: и Internet of things, и беспилотные машины, и технологии, основанные на сборе данных с сенсорами. Я увидела, куда движется мир, и я захотела быть причастной к прогрессу. Долго думала, что сделать для этого; толчком для меня стала пандемия: во время локдауна я начать изучать IT. А Data Science стала дверью к машинному обучению и ИИ.
В дальнейшем мне бы хотелось работать в здравоохранении или генетике. Потому что это связано не с потреблением, а с прогрессом в сфере здравоохранения и науки. Если там не получится, то я бы с удовольствием поработала бы в каком-нибудь банке или в сфере данных, которые помогают регулировать городской трафик.
О выборе образования
Сначала я планировала пройти курсы, а уже затем думать о магистратуре. Смотрела программы от разных учебных заведений, в том числе в Барселоне. Интересного было много, но в MIT или Harvard — очень дорого. Зарубежное образование — вообще дорогое удовольствие. А потом мне начали попадаться материалы SkillFactory. Я узнала про магистратуру МИСиС и Zavtra.Online, посмотрела Youtube-канал, их интервью с экспертами, план обучения — мне всё понравилось. Другие программы я уже не искала.
О плюсах и минусах онлайн-образования
Чтобы стать профессионалом в какой-то сфере, нужно определённое количество часов затратить на изучение и работу — десять тысяч. Высшее образование уже просто по своей длительности позволяет глубже проникнуть в сферу, которую изучаешь. Курс дает один-два инструмента, а высшее образование — чемодан. Плюс фундаментальные знания, которые потом тебе позволят развиваться.
Я проходила много курсов — я человек любознательный. А вот онлайн до SkillFactory не занималась. Такая онлайн-магистратура — мой первый опыт. Мне всё нравится. Можно идти в своём ритме: если что-то не усвоишь, можешь вернуться второй или третий раз. Да и живу я за границей — учиться на русском языке в московском университете могу только онлайн. Ну, а из минусов — пока в головах многих и учеников, и преподавателей законченный образ онлайн-обучения не сложился. Могут возникать недопонимания.
Александр Максименко
27 лет. Когда-то не пошел в IT, отдав предпочтение более «престижной» сфере, и теперь навёрстывает упущенное, исполняя школьную мечту.
Когда я заканчивал 11 класс, всех агитировали поступать в инженеры. Обещали, что за ними будущее. Я на эту историю купился, но это оказалось неправдой — по сей день инженеры невостребованы и получают мало. Закончил я в итоге физтех ЮУрГУ. Работал в “Сургутнефтегазе” на месторождении, потом занимался контрольно-измерительными приборами. Когда надоело летать вахтами на Север, решил строить карьеру в Челябинске. В плане работы в городе всё оказалось грустно, и я решил, пока не поздно, уйти в IT — после инженерного образования, думаю, будет не так уж сложно. Пока я не работаю, отдыхаю пока от Севера и посвящаю время учёбе.
Об интересе к Data Science
Меня со школы тянуло к IT. Но я клюнул на пропаганду правительства и отучился на другую специальность. И вот когда решил менять профессию, вспомнил свою нереализованную мечту со школьных времен. Сейчас очень много разных разных направлений в IT, я всё изучил и увидел, что обороты набирает Data Science. Она сейчас во всех топах самых перспективных и актуальных сфер.
После обучения мне хочется занять в крупной компании, желательно международной, junior-позицию. Пока я только вникаю, смотрю, какие направления в Data Science есть, чтобы потом выбрать. На втором курсе будет понятно. Пока мне интересны банковское дело и работа с ИИ.
О выборе образования
Курсы я никогда не посещал — не было необходимости. Свою профессию я хорошо знал, и, если встречал что-то новое, с лёгкостью находил всё в Google. Вообще к курсам я отношусь скептически. Сужу по отзывам на habr — слишком много нереалистичных обещаний. Если бы писали, что дадут основы, а всё остальное зависит от меня самого, было бы честнее. Я не говорю, что нет качественных курсов, после которых можно устроиться на работу. Просто для меня высшее образование — приоритет. Уверен, оно дает более глубокие и фундаментальные знания.
О плюсах и минусах онлайн-образования
Большой плюс онлайн-образования — можно заниматься из дома в любое удобное время. Из минусов — нет живого общения и прямого контакта с преподавателем. Но это не критично. Это важно, когда личность формируется — среднюю школу полностью онлайн не представляю. А для взрослых не страшно.
Чем занимается специалист по Data Science и как начать работать в этой области?
Специалист в области Data Science строит на основе данных модели, которые помогают принимать решения в науке, бизнесе и повседневной жизни. Он может работать с неструктурированными массивами информации в разных сферах: от выявления элементарных частиц в экспериментах на БАК, анализа метеорологических факторов, анализа данных о перемещениях автотранспорта до исследования финансовых операций, поисковых запросов, поведения пользователей в Интернете.
В результате получаются модели, которые прогнозируют погоду, загруженность дорог, спрос на товары, находят снимки, где могут оказаться следы нужных элементарных частиц, выдают решения о предоставлении кредита, могут рекомендовать товар, книгу, фильм, музыку.
Анна Чувилина, автор и менеджер программы «Аналитик данных» Яндекс.Практикума, рассказала, какие задачи решает специалист в области Data Science или датасаентист, в чем состоит его работа и чем он отличается от аналитика данных.
Что такое Data Science?
Data Science — это применение научных методов при работе с данными, чтобы найти нужное решение. В широком смысле, естественные науки основаны на Data Science. Например, биолог проводит эксперименты и анализирует результаты для проверки своих гипотез. Он должен уметь обобщать частные наблюдения, исключать случайности и делать верные выводы.
Датасаентист работает с данными так же, как ученый в любой другой сфере. Он использует математическую статистику, логические принципы и современные инструменты визуализации, чтобы получить результат.
Сбор данных — это способ измерить процессы вокруг нас. А научные методы позволяют расшифровать большие массивы данных, найти в них закономерности и применить для решения конкретной задачи.
Кто такой специалист по Data Science?
Датасаентист обрабатывает массивы данных, находит в них новые связи и закономерности, используя алгоритмы машинного обучения, и строит модели. Модель — это алгоритм, который можно использовать для решения бизнес-задач.
Например, в Яндекс.Такси модели прогнозируют спрос, подбирают оптимальный маршрут, контролируют усталость водителя. В результате стоимость поездки снижается, а качество растет. В банках модели помогают точнее принимать решения о выдаче кредита, в страховых компаниях — оценивают вероятность наступления страхового случая, в онлайн-коммерции — увеличивают конверсию маркетинговых предложений.
Глобальные поисковые системы, рекомендательные сервисы, голосовые помощники, автономные поезда и автомобили, сервисы распознавания лиц — все это создано с участием датасаентистов.
Анализ данных — это часть работы датасаентиста. Но результат его труда — это модель, код, написанный на основе анализа. В этом главное отличие между датасаентистом и аналитиком данных. Первый — это инженер, который решает задачу бизнеса как техническую. Второй — бизнес-аналитик, больше погруженный в бизнес-составляющую задачи. Он изучает потребности, анализирует данные, тестирует гипотезы и визуализирует результат.
«Датасаентист решает задачи с помощью машинного обучения, например распознавание изображений или предсказание расхода материала на производстве. Результат его работы — работающая модель по техническому заданию, которая будет решать бизнес-задачу», — Анна Чувилина, автор и менеджер программы «Аналитик данных» в Яндекс.Практикуме.
Специалист по Data Science проходит те же карьерные ступени, что и другие профессионалы в IT: джуниор, мидл, тимлид или сеньор. В среднем, каждая ступень занимает от года до двух. Более опытный специалист лучше понимает бизнес-задачи и может предложить лучшее решение для них. Чем выше уровень, тем меньше датасаентист сфокусирован только на технических задачах. Он может оценивать проект и его смысловую составляющую.
Задачи специалиста по Data Science
Задачи различаются от компании к компании. В крупных корпорациях датасаентист работает с несколькими направлениями. Например, для банка он может решать задачу кредитной оценки и заниматься процессами распознавания речи.
Этапы работы над задачей у датасаентистов из разных сфер похожи:
Каждая новая итерация позволяет лучше понять проблемы бизнеса, уточнить решение. Поэтому каждый этап повторяется снова и снова для развития модели и обновления данных.
Data Science работает и для стартапов, и для крупных корпораций. В первых специалисты работают в одиночку или небольшими командами над отдельными задачами, а во вторых — реализуют долгосрочные проекты в связке с бизнес-аналитиками, аналитиками данных, разработчиками, инфраструктурными администраторами, дизайнерами и менеджерами.
Руководитель проекта с аналитиками берёт на себя большую часть работы: общается с бизнесом, собирает требования, формирует техническое задание. В зависимости от уровня и принципов работы в компании, специалист по Data Science участвует в переговорах или получает задачи от руководителя проекта и аналитиков.
Следующий этап — сбор данных. Если в компании не налажены процессы для получения данных, датасаентист решает и эту задачу. Он внедряет инструменты, которые помогают автоматически получать и предварительно очищать, структурировать нужную информацию.
Разметка данных — это тоже способ навести в них порядок. Каждой записи присваивается метка, по которой можно определять класс данных: это спам или нет, клиент платежеспособен или недостаточно. Для этой задачи редко используют алгоритмы, метки проставляют вручную. Качественно размеченные данные имеют большую ценность.
«Со стороны заказчика часто присылаются первые данные, которые не готовы для анализа. Специалист их изучает и пытается понять взаимосвязи внутри данных. Для этого часто используется пайплайн — стандартная последовательность действий для процесса анализа данных, которая у каждого своя. Во время ‘‘просмотра’’ у специалиста возникают гипотезы относительно данных, которые он потом будет проверять», — говорит Анна Чувилина, автор и менеджер программы «Аналитик данных» в Яндекс.Практикум.
Во время обработки данные переводятся в формат, удобный для машинного обучения, чтобы запустить первое, «пробное» обучение. Оно должно подтвердить или опровергнуть гипотезы о данных, которые есть у специалиста по Data Science. Если гипотезы не подтверждаются, работа с этим набором данных прекращается. Если одна или несколько гипотез окажутся жизнеспособными — на выходе получается первая версии модели. Её можно назвать baseline-моделью или базовой, относительно которой на следующих итерациях можно искать улучшения в качестве работы модели. Это минимально работающий продукт, который можно показать, протестировать и развивать дальше.
Вместе с моделированием или перед ним выбирают метрики для оценки эффективности модели. Как правило, это две категории: метрики для бизнеса и технические. Бизнес-метрики отвечают на вопрос «каков экономический эффект от работы данной модели?» Технические определяют качество модели, например, точность предсказаний.
Модель оценивают на контролируемость и безопасность. Например, для задач медицинской диагностики это решающий фактор. Когда модель готова и протестирована, то её встраивают в производственный процесс (например, кредитный конвейер) или продукт (например, мобильное приложение). Она начинает приносить пользу в реальной жизни.
Ошибки в моделях могут дорого стоит компании. Например, неверная скоринговая модель создаст ситуацию, когда ненадежные заемщики массово не смогут возвращать кредиты. В результате банк понесёт убытки.
Что нужно для старта
Знание математической статистики, базовые навыки программирования и анализа данных нужны для входа в любую сферу, где может быть занят датасаентист. Следующие этапы потребуют более глубоких знаний. Набор необходимых скиллов и инструментов будет во многом зависеть от задач конкретной компании.
«Для решения простых задач и попадания на уровень джуниора достаточно базовых знаний машинного обучения, математического аппарата и программирования. От специалиста уровня мидл и сеньор уже требуется умение тонко настраивать параметры, которые влияют на общее качество результата. Список разделов из высшей математики и понимание математической постановки каждой модели на этому уровне на порядок выше, чем для джуниора» — Анна Чувилина, автор и менеджер программы «Аналитик данных» в Яндекс.Практикум.
Как правило, в Data Science используют SQL, Python, для сложных вычислений — C/C++. Хороший уровень английского поможет быстрее расти за счет чтения профессиональной литературы и общения с другими профессионалами отрасли.
Бэкграунд разработчика хорошо подходит для переквалификации в датасаентисты. Разработчики знают языки программирования, разбираются в алгоритмах и имеют представление о принципах работы инструментов в ИТ. В таком случае переход в новую специальность займет несколько месяцев. Важные конкурентные преимущества, доступные профессионалам из других сфер: лучшее понимание предметной области, сильные коммуникативные навыки.
От начинающего специалиста по Data Science работодатель ждёт:
Опыт работы с реальными бизнес-проектами для работодателя важнее, чем ученая степень или профильное высшее образование. Дипломы сильных вузов и тематические научные работы ценятся больше при выборе привлеченных консультантов на стратегические проекты. А по практическому опыту выбирают датасаентиста для решения ежедневных задач компании.
Перед датасаентистом не стоит задача охватить все области математического знания или освоить каждый программный инструмент, который можно применить для анализа данных и построения модели. Над масштабными и сложными проектами обычно работают группы специалистов. Здесь навыки и знания каждого дополняют общий инструментарий. Чтобы стартовать в профессии достаточно любить программирование, математику и не бояться сложных задач.