Предиктивная модель что это
Предиктивная аналитика: 3 метода и системы
Предиктивная аналитика (от английского “predictive analytics”) – это предсказательная или прогнозная аналитика.
Если разбираться глубже, то это совокупность методов анализа данных с их интерпретацией, которая помогает на основе прошлых событий принять с большой точностью верное решение в будущем.
Происходит это за счет нахождения параметров среди данных, которые влияют на другие. Далее определяется степень влияния, и происходит магия: Вы получаете картину того, как изменится Ваш бизнес, если какой-то параметр изменит свое значение.
Зачем нужна бизнесу
Предикативная аналитика дает преимущество перед Вашими конкурентами. Представьте, что Вы всегда владеете прогнозной информацией, знаете, что будет с бизнесом завтра, и какое решение более оптимальное в этой ситуации.
Важно. Сразу хочу извиниться перед математиками: это статья будет написана крайне простым языком, и для лучшего понимания, термины могут быть заменены на человеческие понятия, а принципы описаны ненаучно.
А теперь ответьте себе на один вопрос, только честно: “На основе чего Вы приняли последнее решение в Вашем бизнесе?” Ответили?
Наверняка что-то из разряда: “у меня большой опыт”, “раньше всегда так принимались решения”, “мне посоветовал мой маркетолог, жена, брат, сват” и т.д. И вполне вероятно, что это решение было верное, но случайное.
А теперь я Вам расскажу, как бы Вы его принимали, опираясь на предиктивную аналитику. Только учтите, что это лишь малая часть способов её применения.
Предсказательная аналитика в разных сферах бизнеса
Кстати. Для поиска конкурентов рекомендую следующие сервисы: Livedune (по промокоду “INSCALE” скидка 30% +7 дней доступа), Publer, Spywords, Keyso. Они точно помогут Вам держать руку на пульсе.
1. Оптимизация в ритейле и FMCG
В них это работает следующим образом: если Вы знаете, какие продукты пользуются спросом у покупателей, можно решить сразу несколько задач: каких товаров и сколько должно быть постоянно в Вашем магазине (интернет-магазине), что предложить покупателю вдобавок к его покупке, какую цену оптимально установить на определенный товар.
Пример:
Вы владелец интернет-магазина одежды. У Вас есть информация, что 80% клиентов мужского пола вместе с пиджаком покупают еще и рубашку.
Так вот, зная это, Вы сможете предлагать всем мужчинам, которые заказали только пиджак, заказать еще и рубашку. Наверняка многие согласятся, т.к. статистика не врет. Тем самым Вы повысите средний чек заказа.
2. Оптимизация производства
Если Вы собираете информацию о параметрах, влияющих на работу оборудования, а не надеетесь только на инструкцию по эксплуатации, то намного проще предотвратить его поломки и провести необходимое обслуживание.
Пример:
У Вас своя конвейерная линия, и уже не раз случалось, что при повышенных температурах воздуха оборудование выходит из строя. Зная это и прогноз погоды на ближайшее время, Вы сможете предотвратить повышение температуры в цеху, тем самым избежите простоя.
Статистика работы оборудования
3. Обнаружение мошенничества
Если у Вас есть статистика по недобросовестным клиентам, например, по их полу, возрасту, профессии и другим признакам, то Вы сможете их отсеивать еще на стадии анкетирования.
Пример:
Вы занимаетесь банковскими услугами, и у Вас есть собранная информация о том, что клиенты от 18 до 21 года, а также судимые чаще всего не производят выплаты по кредитам. Зная это, Вы можете не сотрудничать с клиентами из этих сегментов.
Статистика мошенничества
4. Управление рисками
Если в Вашем бизнесе есть риск, то с помощью прогнозного анализа прошлых негативных событий можно влиять на их предотвращение в будущем или же лучше страховаться от них.
Пример:
Вы занимаетесь страхованием здоровья, и у Вас есть статистика, что у людей из промышленных профессий риск травм выше, чем у менеджеров.
Соответственно, чтобы компенсировать риски от страхования людей с пром. предприятий, Вы запросите у них бОльшую страховую сумму и будете стараться диверсифицироваться путем страхования менеджеров.
Минимизация рисков
5. Маркетинговый и клиентский анализ
Если Вы собираете информацию о Ваших клиентах, их поведении, величине и частоте покупок, Вы сможете смоделировать будущее поведение клиентов.
Зачем это нужно? Как минимум, для понимания людей, а в идеале для улучшения клиентского сервиса на каждом этапе взаимодействия клиента с Вашим бизнесом.
Пример:
Вы владелец кинотеатра. Благодаря системам видеонаблюдения получили среднестатистический путь зрителя: он открывает дверь, отряхивает ноги, проходит к кассе, покупает билет, проходит в гардероб, посещает туалет и ждет открытия дверей в кинозал.
Уже только в этих местах Вы можете организовать дополнительные рекламные размещения.
Также можно сделать посещение кинотеатра удобнее: поставить самооткрывающиеся двери, положить дополнительный коврик при входе, организовать автоматическую систему покупки билетов, увеличить количество работников гардероба и т.д.
6. Продажи
Благодаря аналитике в продажах, Вы сможете точно знать, какие показатели непосредственно влияют на выручку и прибыльность бизнеса, а какие косвенно.
Пример:
Вы сможете посмотреть на статистику прошлого года по конверсии из заявок в продажи и оценить, что влияло на неё положительно, а что отрицательно. После чего составите план действий на текущий год, чтобы достигнуть поставленных целей.
7. Работа с персоналом
Ведение учета причин добровольных увольнений и фиксация их зависимости от срока работы поможет снизить текучку кадров, повысить лояльность Ваших сотрудников или хотя бы будете готовы к их уходу.
Пример:
Вы заметили, что персонал, который проработал в компании 2 года на одной должности, увольняется по причине того, что им становится неинтересно. С этой информацией Вы сможете периодически устраивать ротацию в коллективе или хотя бы заблаговременно подготовить замену этому сотруднику.
Причины увольнений
3 кита ПРЕДИКТИВНОЙ аналитики
Аналитика в целом (и прогнозная в частности) подразумевает под собой работу с данными. Там где их нет – нечего анализировать, и нет почвы для выводов. Поэтому, когда Вы принимаете решение, не опираясь на информацию, Вы превращаетесь из предпринимателя в гадалку. Не надо так! А теперь к китам.
Основные компоненты
Кит 1. Сбор данных
Чтобы работать с информацией, её нужно собрать – все логично. Но какие собирать и как? На эти вопросы нет правильных ответов. Для каждого бизнеса необходимы данные и методы. Поэтому здесь работает правило: чем больше, тем лучше. Но все же перечислю основные:
И далее, далее, далее… Продолжать можно бесконечно. В оффлайне это датчики движения и сбора информации, wi-fi мониторы, системы умного видеонаблюдения, кассовые аппараты и товароучетные системы.
Тем, кто в танке и все ведет в книгах учета, на листочках и тетрадях – не позавидуешь. В этом случае сбор данных ограничивается наблюдением, проведением опросов и подобными инструментами. И если Вы сейчас подумали “о, у меня так”, то просыпайтесь скорей и вступайте в эру информационных технологий.
Кит 2. Исследовательский анализ
Здесь начинается работа с данными. На этом этапе нужно из их совокупности найти ранее неизвестные, непонятные сведения. А также и полезные практические интерпретации собранных знаний, которые необходимы для принятия обоснованных решений.
Это понятие называют “data mining” – обнаружение знаний в данных. Основу их исследовательского составляют различные методы классификации, моделирования, а также статистические методы. Об основных я расскажу чуть ниже.
Скажу сразу, для проведения эффективного анализа необходима достаточно крупная база сведений. Так в этом случае работает закон больших чисел – чем больше, тем более объективными будут выводы. Исследовательский анализ информации решает задачи:
Кит 3. Предиктивное моделирование
То, ради чего и нужна система предсказательной аналитики – создание высокоточных прогнозов. После предыдущих этапов у Вас есть массив данных, нам нужны их интерпретации. То есть различные классы, кластеры, зависимости, ассоциации и отклонения от нормы. На этом этапе Вам необходимо:
Основные типы и их методы
В основе предиктивной аналитики лежат статистические методы. Также важно понимать, что её система тесно связана с big data и искусственным интеллектом, поэтому основана на машинном обучении. Теперь к делу.
Типов ПА всего существует не 2, но я расскажу именно об этих, потому что они точно помогут Вам в бизнесе.
Основные типы и методы
Тип 1. Контролируемое обучение
Или обучение с учителем, подразумевает под собой построение (обучение) модели по исходным данным и выходящим результатам. То есть в построении модели известны и параметры события, и результат, на который они влияют.
Например, если мы знаем, что на выручку влияет число покупок и средний чек, а нам необходимо узнать, каким образом влияет тот или иной параметр на её размер, то мы прибегнем к контролируемому обучению. Оно включает два ключевых метода предиктивной аналитики:
1.1. Регрессия
Это самый популярный метод. Применяется для получения количественных ответов или числовой ценности. Например, для расчета выручки по конкретным параметрам. При регрессии используется:
Взаимосвязь между параметрами и результатом и есть предиктивная модель. Кстати, помимо взаимозависимости рассчитывается и вес каждого параметра – то, в какой степени каждый из параметров влияет на конечный результат.
Чтобы было понятнее, вернемся к той же выручке. У нас есть показатели выручки, среднего чека и количества клиентов за три месяца:
Месяц | Количество клиентов | Средний чек | Выручка |
1 | 10 | 3 000 | 30 000 |
2 | 11 | 3 000 | 33 000 |
3 | 10 | 3 300 | 33 000 |
Из этих данных видно, что зависимость выручки от количества клиентов и среднего чека прямая пропорциональная.
Выручка = Количество клиентов * Средний чек.
Зная эту формулу, Вы сможете прогнозировать выручку и влиять на нее, сосредотачивая усилия на росте предикторов. Ну или же понять, сколько Вам необходимо привлечь клиентов и при каком среднем чеке, чтобы получить желаемую выручку.
Это выглядит просто, когда Вы знаете зависимость. Но даже если в этом уравнении разложить, из чего складывается количество клиентов, и какой параметр в какой степени влияет на этот показатель, то получится большая и достаточно сложная цепочка.
1.2. Классификация
Этот метод связан с причислением объекта к какому-либо классу по определенным параметрам. Его задача определить, к какому именно.
Работает это так: в базу данных загружаются все известные переменные объектов, например, по каждому человеку загружают пол, возраст, профессию и уровень дохода. Далее алгоритм вычисляет зависимость одного от другого и предсказывает неизвестный параметр объекта по известным. Обычно в бизнесе этот метод применяется для различных сегментаций.
Вы занимаетесь оптовой торговлей одежды, и размер скидок зависит от объема закупок товара. Первый способ определить уровень скидки новому клиенту – поработать с ним определенное время.
Если же Вы используете классификационный метод, то имея инфу о прошлых клиентах, например, о местоположении, об ассортименте, Вы можете рассчитать влияние параметров на объем закупок Вашей продукции.
Вывод: зная это, Вы сможете предугадать, какой объем закупок следует ожидать от нового клиента. Ну и не стоит забывать, что чем больше у Вас данных, тем более точными будут прогнозы.
Кстати. Если Вам нужна детальная аналитика, то рекомендую сервисы: Roistat (по промокоду “INSCALE1120” +7500 руб. на баланс сервиса для тестирования) или же Callibri (по промокоду “76C6IMERUQ” + 500 руб.).
2. Неконтролируемое обучение
В этом типе предиктивное моделирование происходит только по входящим данным без привязки к ответу. Ответ подбирается автоматически в процессе обучения. Это требуется для поиска и анализа скрытых закономерностей внутри сведений о которых ранее было неизвестно. Основной метод – кластеризация.
2.1. Кластеризация
К этому методу предиктивной аналитики относятся задачи:
Для бизнеса она полезна тем, что на основе кластерного анализа можно более четко представлять взаимосвязи и зависимости. Помимо этого, он помогает выявлять отклонения и новые тенденции.
Возьмем тот же пример, что и в классификационном методе. Только если там нам и нашей модели уже известна зависимость объема закупок от параметров (местоположение, рекламные вложения и ассортимент), то в этом случае мы их не знаем.
Так вот, мы загружаем данные о наших клиентах и алгоритм определяет, есть ли взаимозависимость между ними, и если есть, то какая.
Инструменты предиктивной аналитики
Есть много инструментов и программных продуктов. Они отличаются между собой функциональностью и удобством пользования. Некоторые из них нужны для создания предиктивных моделей, некоторые для их интерпретации, а самые продвинутые – для того и другого. При выборе инструмента обратите внимание на:
Так вот, в результате функционирования таких систем, управляющие специалисты могут своевременно формировать гипотезы и проверять их, принимать точные и обоснованные решения.
Название | Цена | Описание | Преимущества |
Язык программирования R | Бесплатно | Фаворит рынка, это связано с тем, что в процессе обучения специалистов подобного профиля задействован именно этот язык программирования | 1. Открытый исходный код; 2. Расширяемая аналитическая среда; 3. Возможность визуализации представления данных; 4. Большое сообщество пользователей; 5. Разрабатывался статистиками для статистиков. |
Язык программирования Python | Бесплатно | Набирает популярность. Основная идея: хороший язык программирования – простой и доступный | 1. Простой и интуитивно-понятный; 2. Встроен инструмент для тестирования; 3. Многоцелевой язык. |
RapidMiner | Бесплатно | Среда для прогнозной аналитики, которая поддерживает все этапа анализа, проверки, визуализацию и оптимизацию данных | 1. Не нужно знать программирования, метод визуального программирования; 2. Расширяемая система, поддержка языка R; 3. Возможность оценки тональности текста; 4. Сообщество пользователей и поддержка новичков. |
Knime | Бесплатно | Система для анализа данных, которая даже в базовом функционале имеет мощные инструменты | 1. Широкие возможности анализа текста; 2. Возможность веб-анализа, анализа изображений и социальных сетей; 3. Интуитивно-понятный интерфейс без необходимости программирования. |
IBM SPSS Modeler | От 80$ | Низкая требовательность к новичкам, благодаря автоматическому подбору необходимой статистической модели | 1. Автоматическое моделирование и выбор наиболее эффективное модели; 2. Геопространственная аналитика; 3. Поддержка технологий с открытым исходным кодом (R, Python); 4. Аналитика текста. |
IBM Watson Analytics | От 250$ | Один из наиболее мощных инструментов для предиктивной аналитики и анализа больших данных | 1. Возможность работы в облаке; 2. Расширенные возможности визуализации; 3. Интуитивно-понятный интерфейс без необходимости программирования; 4. Быстрота обработки данных. |
SAS Enterprise Miner | От 160$ | Система разработанная для проектирования точных предсказательных и описательных моделей на основе big-data | 1. Клиент-серверное решение – позволяет оптимизировать процессы аналитики; 2. Нет необходимости в программировании; 3. Продвинутый скоринг – применение модели к новым данным; 4. Самодокументируемая проектная среда. |
SAP BusinessObjects Predictive Analytics | От 200$ | SAP в 2015 году был награжден статусом лидера рынка в предсказательной аналитики | 1. Большая автоматизированность, легкость в переобучении модели; 2. Расширенные возможности визуализации; 3. Возможность расширения языком R. |
Oracle Big Data Preparation | От 150$ | Благодаря интуитивному и интерактивному интерфейсу привлекает пользователей без навыков программирования | 1. Работа в облаке; 2. Простота использования; 3. Широкие возможности интеграции с другими облачными сервисами. |
Коротко о главном
Благодаря предиктивной аналитике Вы сможете принимать более взвешенные решения, подготовитесь к непредвиденным ситуациям и повысите эффективность Вашего бизнеса в целом.
Но это не фундамент для бизнеса, а инструмент, повышающий эффективность предприятия. Поэтому бОльшую пользу он принесет уже устоявшейся компании, у которой налажены основные бизнес-процессы и сбор данных.
ПА сложный и ресурсоемкий процесс, требующий высокой квалификации как в статистике, так и в работе с информацией. Кстати, я ниже оставлю историю её появления, если интересно, почитайте.
Предикативная (предиктивная) аналитика
Predictive Analytics
Дальнейшее развитие мирового рынка бизнес-анализа пойдет по пути активного освоения advanced (продвинутой) аналитики, в том числе предикативного (предиктивного) анализа, построения симуляторов и вариативных моделей.
Содержание
Что такое предикативная (предиктивная) аналитика?
Наиболее известный способ использования прогностической аналитики – это применение скоринговых моделей для оценки платежеспособности клиента при выдаче кредитов в банке. Любая скоринговая модель строится на исторических данных, и если в прошлом, какая-либо группа клиентов была уличена в несвоевременном гашении кредитов, а вы по каким-либо характеристикам схожи с этой группой, то скорее всего в выдаче кредитов вам откажут.
Однако это не все области, где применяется предикативная аналитика, ее можно применять для разработки продуктов, для выбора потенциальной аудитории, для выбора следующего продукта, который вы можете предложить клиенту (Next Best Offer) и множестве других.
Родственным по отношению к предикативной аналитике является понятие data mining, так как предикативная аналитика использует частично подобные методы. Центральной же сущностью предиктивной аналитики является задача определение предиктора или нескольких предикторов (параметров или сущностей, которые влияют на прогнозируемое событие). Например, страховые компании выделяю такие предикторы, как возраст, стаж вождения при определении страховой премии. Множество этих предикторов образует модель предиктивной аналитики, которая предсказывает определенное событие в будущем с какой-то степенью вероятности.
Аналитики Gartner полагают, что дальнейшее развитие мирового рынка бизнес-анализа пойдет по пути активного освоения advanced (продвинутой) аналитики, в том числе предикативного анализа, построения симуляторов и вариативных моделей. Возможность к построению таких моделей в 2013 году в Gartner назвали 15 обязательным блоком корпоративных BI-платформ.
Аналитика класса advanced использует статистику, описательные и предикативные инструменты data mining (разведки данных), симуляторы и оптимизационные средства. Конечная цель применения всех этих инструментов – принятие решений, решение бизнес-задач и идентификация возможностей для составления наилучших прогнозов, выявления процессов, паттернов и прочих закономерностей.
Чтобы предикативный анализ был успешным, в Forrester рекомендуют четко следовать следующим стадиям: постановка цели, получение данных из различных источников, подготовка данных, создание предикативной модели, оценка модели, внедрение модели, мониторинг эффективности модели.
Схема внедрения инструментов предикативного анализа
Forrester Research, 2013
Области применения
В отличии от data discovery средства предикативной аналитики адресованы специалистам, поэтому не применяются столь широко. По данным Gartner за 2012 год, только 13% пользователей BI широко задействуют средства предикативного анализа. Менее 3% используют такие методы как математическое моделирование, симуляторы и оптимизацию.
Эксперты считают, что не стоит ждать массовых внедрений в этой области, но тренд будет постепенно меняться. Причина тому – появление феномена больших данных, который подталкивает организации к поиску новых средств обработки информации. В Gartner считают, что те компании, которые будут применять продвинутую аналитику к большим данным, будут расти на 20% быстрее конкурентов.
Торговля
Прогнозирование потребительского спроса и планирование акций [2]
Выведение значимых товарных позиций для покупателей (Key Value Item Analysis)
Оптимизация регулярной и акционной цены
Выделение групп покупателей со схожими поведенческими характеристиками путем многомерного анализа данных
Customer Segmentation, Behavioral Targeting, Churn Prevention
Предиктивная аналитика на производстве
Данные о протекании технологического процесса не всегда используются эффективно, в то время как их можно использовать для оптимизации операционных процессов и повышения технико-экономических показателей производства. Оптимизацию можно выполнить на любом типе производства с серьезным уровнем автоматизации, организованным сбором и длительным хранением информации. Для этого успешно применяются интеллектуальные системы, которые могут проанализировать состояние технологического процесса в реальном времени, спрогнозировать дальнейшее протекание процесса, определить уровень оптимальности и, при необходимости, изменить управляющие параметры или дать рекомендации диспетчеру. Для решения данных задач с помощью средств машинного обучения создается предиктивная математическая модель технологического процесса. Она анализирует входные параметры, в реальном времени выдает прогноз протекания процесса и предложения по его оптимизации. Эта модель объединяется с АСУТП, MES и ERP-системами предприятия.
Еще одна задача для предиктивных алгоритмов – это техническое обслуживание и ремонт оборудования. В основном, предприятия используют базовые механизмы контроля, предоставленные производителями оборудования. Но потенциал этих средств ограничен, поскольку они не позволяют проанализировать дополнительные факторы, влияющие на состояние оборудования, и заранее спрогнозировать критическую ситуацию. Таким образом, сотрудники отдела технического обслуживания получают множество данных, но не знают, как эти данные связаны между собой. В итоге реакция от ремонтных служб следует только после отказа оборудования, что ведет за собой простои, и, следовательно, дополнительные расходы. Прогнозная аналитика средствами машинного обучения и искусственного интеллекта проводит непрерывный анализ больших данных, выполняет визуализацию данных о состоянии оборудования на текущий момент и прогнозирует сценарии возникновения отказов оборудования. В результате сокращаются внеплановые простои, оптимизируются работы по ТОРО, уменьшается время техобслуживания, а управляющий персонал получает углубленный анализ причин отказов оборудования.
Мировой рынок
Прогноз Transparency Market Research 2017 года в 2019й
Наиболее востребована предикативная аналитика в отраслях, работающих с конечными потребителями, таких как банковские и финансовые сервисы, страхование, госсектор, фармацевтика, телеком и ИТ, ритейл. На эти сегменты пришлось 71,8% объема внедрений в 2012 году. На протяжении прогнозного периода максимальная доза проектов придется на банковский сектор, финансовые сервисы, страхование. Впрочем, наиболее быстро число проектов будет расти в рознице и на производстве.
Аналитики отмечают, что рост случаев мошенничества, неплатежей, угрозы несоответствия многочисленным правилам и регламентам вынуждают бизнес все чаще обращаться к предикативному анализу с целью построения футуристических моделей, позволяющих принимать превентивные меры по отношению к неблагоприятным событиям.
Такие разные типы программного обеспечения как системы пользовательской аналитики, аналитики информационной безопасности и управлениям кампаниями составили около 50% рынка предикативной аналитики в 2012 году. Эти решения используются для оптимизации организационных процессов в продажах и маркетинге, управления клиентами и каналами продаж, финансового и риск менеджмента и так далее.
Среди региональных рынков крупнейшим рынком систем предикативного анализа будет Северная Америка, причем здесь спрос на прогнозные решения придет со стороны компаний, активно решающих вопросы работы с большими данными (big data). Именно поэтому в скором времени на аренду предикативной аналитики выйдет все ключевые вендоры решений для big data, включая SAS Institute, SAP, Oracle, IBM, Microsoft, Teradata и Tableau Software.
Рынок при этом остается во многом поделен между крупнейшими игроками: на первую пятерку поставщиков пришлось 80% объема рынка в 2012 году. Среди других заметных игроков отмечаются Fair Isaac, Tibco, Information Builders, Alteryx, Qlik (QlikTech) и MicroStrategy.