Профессия дата сайентист что это
Кто такой Data Scientist?
Дата-сайентист (он же Data Scientist, специалист по Data Science) может найти себе работу в любой сфере: от розничной торговли до астрофизики. Потому что именно он — настоящий повелитель больших данных. Вместе с автором кейсов для курса по Data Science Глебом Синяковым разбираемся, почему в современном мире всем так нужны дата-сайентисты.
Чем занимается Data Scientist?
Data Scientist применяет методы науки о данных (Data Science) для обработки больших объемов информации. Он строит и тестирует математические модели поведения данных. Это помогает найти в них закономерности или спрогнозировать будущие значения. Например, по данным о спросе на товары в прошлом, дата-сайентист поможет компании спрогнозировать продажи в следующем году. Модели строят с помощью алгоритмов машинного обучения, а с базами данных работают через SQL.
Где нужен и какие задачи решает Data Scientist?
Дата-сайентисты работают везде, где есть большие объемы информации: чаще всего это крупный бизнес, стартапы и научные организации. Поскольку методы работы с данными универсальны, специалистам открыты любые сферы: от розничной торговли и банков до метеорологии и химии. В науке они помогают совершать важные открытия: проводят сложные исследования, например, строят и обучают нейронные сети для молекулярной биологии, изучают гамма-излучения или анализируют ДНК.
В крупных компаниях дата-сайентист — это человек, который нужен всем отделам:
В стартапах они помогают разрабатывать технологии, которые выводят продукт на новый уровень: TikTok использует машинное обучение, чтобы рекомендовать контент, а MSQRD, который купил Facebook, — технологии по распознаванию лица и искусственный интеллект.
Пример задачи:
Если дата-сайентисту нужно спрогнозировать спрос на новую коллекцию кроссовок, то он:
Что ему нужно знать?
Дата-сайентист должен хорошо знать математику: линейную алгебру, теорию вероятности, статистику, математический анализ. Математические модели позволяют найти в данных закономерности и прогнозировать их значения в будущем. А чтобы применять эти модели на практике, нужно программировать на Python, уметь работать с SQL и библиотеками (набор готовых функций, объектов и подпрограмм) и фреймворками (ПО, объединяющее готовые компоненты большого программного проекта) для машинного обучения (например, NumPy и Scikit-learn). Для более сложных задач дата-сайентистам нужен язык С или C++.
Результаты анализа данных нужно уметь визуализировать, например, с помощью библиотек Seaborn, Plotly или Matplotlib.
Кто такой дата-сайентист
Если вы не знаете, чем заняться ближайшие 15 лет, — идите в дата-сайенс, помогите нейросетям захватить мир.
В последнее время на слуху два термина: биг дата и дата-саенс. Сегодня — что это такое и зачем нужно.
Большие данные
Начнём с простого — big data, или «большие данные». Это модный термин, обозначающий огромные массивы данных, которые накапливаются в каких-то больших системах.
Например, человек в Москве совершает 5-6 покупок по карте в день, это около 2 тысяч покупок в год. В стране таких людей, допустим, 80 миллионов. За год это 160 миллиардов покупок. Данные об этих покупках — биг дата.
В банках какой-то страны каждый день совершаются сотни тысяч операций: платежи, переводы, возвраты и так далее. Данные о них хранятся в центральном банке страны — это биг дата.
Ещё биг дата: данные о звонках и смс у мобильного оператора; данные о пассажиропотоке на общественном транспорте; связи между людьми в соцсетях, их лайки и предпочтения; посещённые сайты; данные о покупках в конкретном магазине (которые хранятся в их кассе); данные с шагомеров и тайм-трекеров; скачанные приложения; открытые вами файлы и программы… Короче, любой большой массив данных.
Почему появился такой термин: в конце девяностых компании в США стали понимать, что сидят на довольно больших массивах данных, с которыми непонятно что делать. И чем дальше — тем этих данных больше.
Раньше данные были, условно говоря, по кредитным картам, телефонным счетам и из профильных государственных ведомств; а теперь чем дальше — тем больше всего считается. Супермаркеты научились вести сверхточный учёт склада и продаж. Полиция научилась с высокой точностью следить за машинами на дороге. Появились смартфоны, и вообще вся человеческая жизнь стала оцифровываться.
И вот — данные вроде есть, а что с ними делать? Тут на сцену выходит дата-сайенс — дисциплина о больших данных.
Дата-сайенс
Дата-сайентисты — люди, которые занимаются большими данными: находят закономерности и делают на их основе полезные для своей компании выводы.
Например, мы — управляющая компания магазина «Пятёрочка». В каком-то районе у нас открыто три магазина. Мы можем попросить дата-сайентиста проанализировать транзакции в наших магазинах и сделать прогноз, можно ли какие-то из них закрыть, сохранив общую выручку на прежнем уровне.
Или мы хотим открыть кофейню. У нас есть данные об общественном транспорте города, о положении кофеен в городе и стоимости аренды в разных домах. Мы можем попросить дата-сайентиста предсказать, где в городе не хватает кофеен относительно пассажирских потоков.
Допустим, мы мобильный оператор. Мы хотим сделать тариф «Юный хайпожор» для юных любителей отведать хайпа. Мы отдаём нашу клиентскую базу и данные о поведении клиентов дата-сайентисту, и тот считает нам экономику будущего тарифа и потенциальный объём рынка, а также помогает выделить самых голодных до хайпа людей.
Иногда эти ребята помогают с управлением в компаниях: они на основе данных пишут отчёты, которые показывают слабые места на производстве и дают рекомендации по их устранению. Или отвечают на вопросы из серии «Почему наши менеджеры так мало продают?» или «Где стоять продавцу-консультанту, чтобы к нему обращались чаще всего?».
Что знают и умеют дата-сайентисты
Вот начальный список навыков, знаний и умений, которые нужны любому дата-сайентисту для старта в работе.
Математическая логика, линейная алгебра и высшая математика. Без этого не получится построить модель, найти закономерности или предсказать что-то новое.
Есть те, кто говорит, что это всё не нужно, и главное — писать код и красиво делать отчёты, но они лукавят. Чтобы обучить нейронку, нужна математика и формулы; чтобы найти закономерности в данных — нужна математика и статистика; чтобы сделать отчёт на основе большой выборки данных — ну, вы поняли. Математика рулит.
Знание машинного обучения. Работа дата-сайентиста — анализ данных огромного размера, и вручную это сделать нереально. Чтобы было проще, они поручают это компьютерам. Поручить такую задачу — значит настроить готовую нейросеть или обучить свою. Поручить программисту обычно это нельзя — слишком много нужно будет объяснить и проконтролировать.
Программирование на Python и R. Мы уже писали, что Python — идеальный язык для машинного обучения и нейросетей. На нём можно быстро написать любую модель для первоначальной оценки гипотезы, поиска общих данных или простой аналитики.
R — язык программирования для статического анализа. Если вам нужно прикинуть, как лайки на странице зависят от количества просмотров или до какого места читатель гарантированно долистывает статью (чтобы поставить туда баннер), — R вам поможет. Но если вы не знаете математику — не поможет.
R и статистика в действии. Картинка с Хабра.
Умение получать и визуализировать данные. Не всем дата-сайентистам везёт настолько, что они сразу получают готовые наборы данных для обработки. Чаще всего они сами должны выяснить, где, откуда, как и сколько брать данных. Здесь обычные программисты им уже могут помочь — спарсить сайт, выкачать большую базу данных или настроить сбор статистики на сервере.
Второй важный навык в этой профессии — умение наглядно показать результаты работы. Какой толк в графиках, если никто, кроме автора, не понимает, что там нарисовано? Задача дата-сайентиста — представить данные наглядным образом, чтобы зрителю было легче сделать нужный вывод.
Связи в твиттере некоего Скотта Белла. Явно видны несколько разных групп фолловеров, которые мало пересекаются между собой. Это и есть наглядное представление данных.
Как это выглядит в жизни
Дата-сайентист в современном понимании — очень молодая профессия. Компании уже поняли, что эти ребята помогут им заработать или сэкономить миллионы долларов, поэтому они создают для них новые отделы и рабочие места.
С другой стороны, такой набор знаний — редкость, поэтому дата-сайентистов сейчас на рынке очень мало: гораздо меньше, чем предложений о работе. Именно поэтому у них такие высокие зарплаты — компании сами борются за то, чтобы нанять такого специалиста.
Так как это направление только развивается, у многих программистов есть шанс попасть туда и работать аналитиком. Для этого нужно прокачивать умение писать код, математику и статистику. Если вы всё это уже знаете и умеете — можете попробовать себя в «профессии будущего».
В «Яндекс-практикуме» есть курс для аналитиков — это начало пути дата-сайентиста. Можно попробовать бесплатный урок и посмотреть, как вам — понравится или нет.
Честно о профессии дата сайентиста: 6 фактов, которые нужно иметь в виду
Вокруг любой профессии тонна стереотипов. А вокруг тех, что мы плохо понимаем, их еще больше. Если вас привлекает Data Science и перспектива оказаться в IT-элите, читайте про шесть страхов, которые вполне могут оправдаться, и решайте, сможете ли вы стать дата сайентистом.
Для учебы на дата сайентиста нужна хотя бы базовая математика, а потом постоянно придется работать с числами
Вердикт: почти правда
Дата сайентисты работают с массивами данных на языке программирования Python. Да, математика потребуется уже на старте работы с кодом. Вот только вовсе не в виде сложных уравнений, над которыми придется корпеть часами. Но вы будете работать с числами и данными — это факт.
Хорошая новость: есть курсы, которые готовят дата сайентистов с нуля. В программу включают все, что потребуется специалисту. Но будьте готовы и сами подтягивать знания: придется много практиковаться, искать решения для нетипичных задач и учить.
Работа нудная, и надо быть очень внимательным
Вердикт: не совсем правда
Насколько работа дата сайентиста интересна, зависит от ваших предпочтений. Люди обычно называют нудной ту работу, в которой не видят смысла или делают на автомате, настолько она однообразная. Data Science — это не просто данные. У каждого столбца есть свой смысл, а в числах — закономерности. Погружаясь в задачу, вы будете это видеть и перестанете воспринимать цифры как просто цифры.
Дата сайентисты анализируют результат, задают вопросы: откуда этот пик, почему здесь именно такое число, правдивы ли эти значения и так далее. В этой работе не получится просто перетащить данные из одного файла в другой, запустить код и ждать результатов. Нужно будет погружаться в ситуацию и вовлекаться в нее на всех уровнях.
Нужен опыт, без него на работу не берут
Ни одна успешная компания не захочет брать в команду кота в мешке. Поэтому при трудоустройстве дата сайентистов часто просят показать портфолио и выполнить тестовое. И иногда этого бывает достаточно. Для некоторых работодателей стаж не настолько важен, как умение кандидата применять знания на практике.
Набраться опыта можно уже в процессе обучения. Конечно, это будет не запись в трудовой с должностью дата сайентиста и стажем. Но разностороннее портфолио и верно выполненное тестовое задание способны выделить вас среди кандидатов даже с опытом реальной работы в резюме.
Выбирайте курсы, основанные на практике. На полном курсе по Data Science в SkillFactory программа как раз нацелена на практические умения и наполнение портфолио. Помимо этого карьерный центр онлайн-школы помогает с составлением резюме и подготовкой к собеседованиям.
Придется учить английский
Вердикт: не совсем правда
Да, Python и библиотеки используют английский, а в работе дата сайентиста масса англицизмов, но учить английский для их понимания не нужно. Основные знания для работы вам дадут на курсах и все объяснят. А для частных случаев достаточно банального переводчика или запроса в поисковике.
С другой стороны, свежие решения и данные часто появляются в иностранных источниках. Если в ваших планах постоянное развитие и работа в лидирующей интернациональной команде мирового уровня, английский учить придется. Так что все зависит от ваших амбиций.
В моем городе таких специалистов не ищут
Вердикт: правда, если вы из региона
Профессия дата сайентиста востребована, хоть и появилась недавно. Но да, большинство вакансий сосредоточены в Москве и Санкт-Петербурге. На hh.ru сейчас примерно 560 вакансий по запросу Data Scientist. При этом больше 300 из них приходятся на столицу, еще сотня — на Питер, немногим больше 20 — на Новосибирскую область, а дальше числа стремительно уменьшаются. Но переезжать не обязательно. Можно работать на удаленке.
Мало быть дата сайентистом, надо шарить и в других сферах
Все так. Помимо Data Science придется разбираться в особенностях сферы, в которую придете: будь то лесопереработка или социальные сети. Чтобы эффективно работать, нужно понимать, как работают процессы в компании и на какие факты можно опираться. Важно понимать, зачем нужно это погружение и что оно даст. И если у вас это понимание есть, необходимость разбираться в чем-то будет скорее осознанной целью и желанием.
Как видите, мы не развенчали страхи и не опровергли стереотипы. Многие мнения о работе дата сайентистов оправданы, но часто сводятся к личным предпочтениям и амбициям. Хотите ли вы работать только в России или нацелены на зарубежный рынок; готовы ли учиться и практиковаться; нужна ли вам работа, в которую придется глубоко погружаться.
Если, несмотря ни на что, вас привлекает Data Science и вы хотите работать в этом перспективном направлении, не тяните. Записывайтесь на полный курс по Data Science в SkillFactory и начинайте свой путь к работе мечты. Программа подходит как для новичков, так и для специалистов в области программирования, аналитики и маркетинга. Особых знаний и подготовки не требуется. Всему, что понадобится для работы, научат на курсе.
А по промокоду ПИКАБУ действует скидка 50% до 25 апреля. Успевайте на новый поток.
Делай добро.
Спалилась. Продолжение
Раз уж пошла такая пьянка.
в начале 2000х я и все мое окружение жили с родителями. И блат хата была на вес золота. У друга тогда мать устроилась на хлебзавод ночь через ночь. Договариваемся затусить у него. И он всех предупреждает: мать уходит в 6. Раньше не приходите. Не палите контору. Потом, лет этак 10 спустя, его мать уже нам, конспираторам, рассказывает.
Выхожу на работу, возле подъезда человек 10 сидят, пакетами звенят. «Здравствуйте, Ирина Васильевна!»
Если ваша вечеринка не похожа на эту
Mr Saxobeat трек, если кому нужен
Раздраженный громкой музыкой, мужчина использует дрон, чтобы поразить соседей салютом
Ответ на пост «Лайфхак для дома»
Если при заготовке фарша формовать его в такие пластины, то:
1. Разморозка занимает минимум времени, и она максимально равномерна.
2. Отломить для приготовления можно именно столько, сколько нужно.
Сок, который взорвёт вам голову
Как вычисляют шизофрению?
С Вами клинический психолог. Моя специализацией патодиагностика и психотерапия.
Закончил медицинский и поработал в разнообразных клиниках, рехабах и даже сизо.
Проще говоря меня годами учили убивать вычислять симптомы, тех или иных патологий для составления «комплекса симптомов», далее опираясь на составленное мной заключение психиатр ставил диагноз.
Всего методик и симптоматики у пациентов огромное множество, сегодня я расскажу вам о том как шизофреники палятся, ну кроме галлюцинаций, бреда и попыток связать характер человек с расположением звёзд на небе.
Эта моя любимая методика, называется 4 лишний, карточки вы видите в порядке усложнения с лево на право, с низу вверх.
Тут надо лишь объединить 3 предмета общим признаком, и сказать какого признака не хватает четвёртому лишнему.
Далее будут спойлеры к первым 6 карточкам если хотите проверить себя можете сначало найти четвертого лишнего сами, 4 последних самых сложных я оставил вам на подумать.
Реальные примеры ответов Людей с шизофренией:
Кошка лишняя она вкусная.
Лишний сапог он «закрытый».
Лишние часы с маятником, он очень раздражает.
Лишняя этажерка для обуви, ведь она для обуви а в обуви человек может быть как одетый так и раздетый это не нормально!
Лишняя лампочка, она же не горит.
Лишнее платье, оно для девушек
И где тут симптом спросите вы? Может казаться что люди отвечают не стараясь или просто на отшибись. Но симптом в том что у шизофреников нарушается категоризация, то-есть главным отличительным для них становиться не действительно основные категории например как в первой картинке животные и растения, а на первый план вылезают латентные или вторичные не особо важные признаки, как то что кошка вкусная. На картинке с часами главные категории это часы и монета именно по упоминанию этих категорий вы поняли про какую я карточку, но пациент сказал о наличии/отсутствии маятника, а маятник вернее его наличие это точно не основная категория. В примере с вкусной кошкой становиться понятно что важно не просто выбрать лишнее а ещё и правильно обосновать.
Последняя карточка моя любимая. Там условно говоря нет правильного ответа, ничего не лишнее и ничего не схоже. Заметно нервничают на ней здоровые люди так как не понимают что происходит, шизофреники наоборот спокойно пёрлы выдают.
И помните что это лишь одна из десятков методик, и по ней одной диагноз не ставят. Многие методики, например как эта имеют возраст 50+ лет. И если интересно могу ещё написать)
Data Scientist – кто это такой, достоинства и недостатки профессии и сколько можно заработать
Приветствую вас, уважаемые посетители блога!
Более 85 % данных, которые существуют на сегодняшний день, образовались только за последние 2–3 года. И ежегодно их количество увеличивается почти в 2 раза.
Важно их собирать, анализировать и использовать для решения бизнес-задач. Что и делают интернет-магазины, банки, страховые компании, медицинские учреждения и множества других предприятий. Они нанимают специалистов, которые работают с большими массивами различных данных.
В статье поговорим о профессии Data Scientist: кто это, что он делает, что должен знать, сколько зарабатывает и как им стать.
Data Scientist: кто это и что он делает
В переводе с английского Data Scientist – это специалист по данным. Он работает с Big Data или большими массивами данных.
Data Scientist – это человек, который собирает, обрабатывает, анализирует и изучает данные.
Источники этих сведений зависят от сферы деятельности. Например, в промышленности ими могут быть датчики или измерительные приборы, которые показывают температуру, давление и т. д. В интернет-среде – запросы пользователей, время, проведенное на определенном сайте, количество кликов на иконку с товаром и т. п.
Данные могут быть любыми: как текстовыми документами и таблицами, так и аудио и видеороликами.
От области деятельности зависят и результаты работы Data Scientist. После извлечения нужной информации специалист устанавливает закономерности, подвергает их анализу, делает прогнозы и принимает бизнес-решения.
Человек этой профессии выполняет следующие задачи: оценивает эффективность и работоспособность предприятия, предлагает стратегию и инструменты для улучшения, показывает пути для развития, автоматизирует нудные задачи, помогает сэкономить на расходах и увеличить доход.
Его труд заканчивается созданием модели кода программы, сформировавшейся на основе работы с данными, которая предсказывает самый вероятный результат.
Профессия появилась относительно недавно. Лишь десятилетие назад она была официально зафиксирована. Но уже за такой короткий промежуток времени стала актуальной и очень перспективной.
Каждый год количество информации и данных увеличивается с геометрической прогрессией. В связи с этим информационные массивы уже не получается обрабатывать старыми стандартными средствами статистики. К тому же сведения быстро обновляются и собираются в неоднородном виде, что затрудняет их обработку и анализ.
Вот тут на сцене и появляется Data Scientist. Он является междисциплинарным специалистом, у которого есть знания статистики, системного и бизнес-анализа, математики, экономики и компьютерных систем.
Знать все на уровне профессора не обязательно, а достаточно лишь немного понимать суть этих дисциплин. К тому же в крупных компаниях работают группы таких специалистов, каждый из которых лучше других разбирается в своей области.
Эти знания помогают ему выполнять свои должностные обязанности:
Четких границ требований к Data Scientist нет, поэтому работодатели часто ищут сказочное создание, которое может все и на превосходном уровне. Да, есть люди, которые отлично понимают статистику, математику, аналитику, машинное обучение, экономику, программирование. Но таких специалистов крайне мало.
Еще часто Data Scientist путают с аналитиком. Но их задачи несколько разные. Поясню, что такое аналитика и как она отличается от деятельности Data Scientist, на примере и простыми словами.
В банк пришел клиент, чтобы оформить кредит. Программа начинает обрабатывать данные этого человека, выясняет его кредитную историю и анализирует платежеспособность заемщика. А алгоритм, который решает выдавать кредит или нет, – продукт работы Data Scientist.
Аналитик же, который работает в этом банке, не интересуется отдельными клиентами и не создает технические коды и программы. Вместо этого он собирает и изучает сведения обо всех кредитах, что выдал банк за определенный период, например, квартал. И на основе этой статистики решает, увеличить ли объемы выдачи кредитов или, наоборот, сократить.
Аналитик предлагает действия для решения задачи, а Data Scientist создает инструменты.
Программы для прогноза повышения и понижения курса валют, выгодности покупки и продажи акций, предугадывания спроса потребителей, сервисы распознавания лиц и голоса, даже алгоритмы подбора рекомендаций друзей и музыки в социальных сетях – это продукт работы специалиста по данным.
Требования к специалисту
Специалист по данным неразрывно связан с Data Science – наукой о данных. Она находится на пересечении нескольких направлений: математики, статистики, информатики и экономики. Следовательно, специалисты должны понимать и интересоваться каждой из этих наук.
Кроме этого, Data Scientist должен знать:
Помимо того, что специалист по данным должен обладать аналитическим и математическим складом ума, он также должен быть:
Хочу отметить, что гуманитариям достичь высот в этой профессии будет крайне тяжело. Только при большом желании можно пробовать осваивать данную стезю.
Достоинства и недостатки профессии
Сколько получает Data Scientist
Эта должность высоко оплачивается. Даже для новичков в этой сфере заработная плата может доходить до 70 000 руб. Data Scientist, который работает на своем месте более 3 лет, вполне реально может зарабатывать от 200 000 руб. и больше.
Уровень дохода зависит от навыков, опыта работы, объема задач и функций, выполняемых специалистом. Если же говорить о средних цифрах по России, то они колеблются в районе 50 000–200 000 руб.
В Москве зарплаты Data Scientist начинаются от 60 000 руб. Можно найти вакансии с заработной платой 500 000 руб.
В Санкт-Петербурге цифры скромнее: от 50 до 300 тыс. руб.
В регионах заработная плата находится на уровне 50 000–200 000 руб., но иногда попадаются предложения с оплатой в 300 000–400 000 руб.
Как им стать
Учеба обязательна для этой профессии. Причем учиться надо много, долго и основательно. Для начала надо освоить азы математики, статистики и информатики, а дальше изучить языки программирования, лучше начать с Python.
На блоге iklife.ru собраны лучшие курсы по Python для начинающих и опытных программистов, которые будут полезны при освоении должности Data Scientist.
Также рекомендую вам прочитать следующие книги:
Куда пойти учиться
Лучшее обучение – это онлайн-обучение. Платформы Skillbox, Нетология, GeekBrains, SkillFactory, ProductStar и Stepik предлагают свои обучающие программы:
Уточню, что на этом учеба не должна заканчиваться. Data Scientist – это такая профессия, которая предполагает непрерывное обучение. Даже если вы уже работаете, периодически повышать свой уровень надо обязательно. К тому же выбор достаточно широк – это и онлайн-курсы, и тренинги, и конференции.
Где найти работу
Сложно сказать, где именно искать работу по этой профессии. Не из-за того, что мало мест, а, наоборот, потому что нет такой сферы бизнеса, где нельзя было бы применить талант этого специалиста. Ему доступна как работа в офисе, так и удаленно на дому.
Он востребован в таких областях деятельности как:
Как я уже говорила, Data Scientist нужен во многих сферах, где необходимы прогнозы, анализ рисков и поведения клиентов. Поэтому список можно дополнить.
Перед откликом на вакансию надо подготовить резюме. В нем сосредоточиться в первую очередь нужно на математических и IT-навыках, опыте работе, успешных проектах и достижениях. Описание должно получиться кратким, лаконичным и простым. Специалисту надо прикрепить портфолио к резюме.
Учтите, что вакансии на эту должность не всегда называются именно “Data Scientist”. Работодатели могут написать, что требуется IT-аналитик, специалист по анализу систем, аналитик Big Data.
Заключение
Сейчас вы уже знаете о должности Data Scientist: что это за профессия, какие обязанности у специалиста, плюсы и минусы деятельности, где можно выучиться и найти работу.
Это сложная профессия и подойдет она далеко не всем. Но те, кто все же заинтересуется, должны знать, как отзываются об этой работе действующие специалисты: