распределение пуассона примеры в жизни
Что такое распределение Пуассона?
Sep 1, 2019 · 6 min read
Прежде чем вводить параметр λ и подставлять его в формулу, давайте задумаемся: почему Пуассону вообще пришлось изобретать такое распределение?
1. Почему Пуассон изобрел свое распределение?
Чтобы предсказывать количество будущих событий!
Или более формально: чтобы предсказывать вероятность данного числа событий, происходящих в определенный интервал времени.
В продажах, например, “ событие” это покупка (сам момент покупки, не просто выбор). Событием может быть количество посетителей в день на веб-сайте, кликов на рекламном объявлении в следующем месяце, число звонков в рабочее время или число людей, которые умрут от смертельных заболеваний в следующем году, и так далее.
Вот пример, как я использую распределение Пуассона в реальной жизни.
2. Как решить эту задачу?
Давай т е на время сделаем вид, что мы ничего не знаем о распределении Пуассона. Как тогда решить задачу?
Первый путь: начать с количества прочтений. Для каждого читателя блога есть вероятность, что статья ему действительно понравится и он поставит лайк.
Это классическая работа для биномиального распределения, так как мы рассчитываем количество успешных событий (лайков).
Биномиальная случайная величина — это количество успешных x в n повторяющихся попыток. Предполагается, что вероятность успеха p является постоянной в каждой попытке.
Итак, у нас есть только один параметр — 17 человек в неделю, что является “ средним значением” (средним значением успешных событий в неделею, или математическим ожиданием x). Нам ничего не известно ни о вероятности получения лайков p, ни о количестве посетителей блога n.
Значит, нам нужно больше информации для решения задачи. Что конкретно нужно, чтобы оформить эту вероятность как биномиальную проблему? Две вещи: вероятность успеха (лайков) p и количество попыток (посетителей) n.
Получим их из прошлых данных.
Это статистика за 1 год. Общее количество читателей блога — 59 тысяч, 888 из них поставили лайк.
Следовательно, количество читателей в неделю ( n): 59 000/52 = 1134. Количество поставивших лайк в неделю ( x): 888/52 =17.
Используя биномиальную функцию вероятности, посчитаем вероятность того, что я получу точно 20 успешных событий (20 лайков) на следующей неделе.
Только что мы решили задачу с помощью биномиального распределения.
Тогда зачем нам распределение Пуассона? Что оно может делать такого, что не может биномиальное распределение?
3. Недостатки биномиального распределения
a) Биномиальная случайная величина бинарна — 0 или 1.
В примере выше у нас было 17 лайков в неделю. Это 17/7 = 2.4 человека в день и 17/(7*24) = 0.1 в час.
Если моделировать вероятность успеха в часах (0.1 человек в час), используя биномиальную случайную величину, получим, что в большем количестве часов лайков будет 0, а в некоторые часы ровно 1 лайк. Также возможно, что в час будет больше 1 лайка (2, 3, 5 и т.д.).
Проблема с биномиальным распределением в том, что оно не может содержать более одного события в единицу времени (1 час в примере).
Так может разделить 1 час на 60 минут и принять за единицу времени минуту? Тогда в 1 час поместится несколько событий. (Помним, что 1 минута содержит только ноль или одно событие).
Теперь проблема решена?
Вроде бы. Но что если в течение одной минуты мы получим несколько лайков? (например, кто-то поделился постом в Твиттере, и трафик вырос в эту минуту). Что тогда? Можно разделить минуту на секунды. Тогда единицей времени становится секунда, и в минуту помещается несколько событий. Но проблема бинарного контейнера будет существовать для все меньших единиц времени.
Дело в том, что биномиальная случайная величина может содержать несколько событий, если делить единицу времени на все меньшие единицы. В результате изначальная единица времени будет содержать более одного события.
Математически это означает n → ∞. Если предположим, что среднее значение фиксировано, тогда p → 0. В противном случае n*p — количество событий — чрезмерно возрастет.
Единица времени с использованием этого лимита может быть бесконечно мала. Больше не нужно беспокоиться о более чем одном событии в единицу времени. Так получается распределение Пуассона.
b) В биномиальном распределении количество попыток (n) должно быть известно заранее.
Нельзя посчитать вероятность успеха при помощи биномиального распределения, зная только среднее значение (17 человек в неделю). Нужно больше информации ( n и p), чтобы использовать формулу.
Распределение Пуассона же не обязывает вас знать ни n ни p. Предположим, что n бесконечно велико, а p бесконечно мала. Единственный параметр распределения — значение λ (ожидаемое значение x). В реальной жизни чаще известно только значение (например, с 2 до 4 часов дня я принял 3 телефонных звонка), а не значения n и p.
4. Формула Пуассона
Давайте получим формулу Пуассона математически из формулы функции биномиального распределения.
Теперь нужно только показать, что умножение первых двух множителей n!/((n-k)!*n^k) дает 1, когда n стремится к бесконечности.
Распределение и формула Пуассона
В данной статье мы рассмотрим ещё одно дискретное распределение, которое получило широкое распространение на практике. Не успел я открыть курс по теории вероятностей, как сразу стали поступать запросы: «Где Пуассон? Где задачи на формулу Пуассона?» и т.п. И поэтому я начну с частного применения распределения Пуассона – ввиду большой востребованности материала.
Задача до боли эйфории знакома:
– проводится независимых испытаний, в каждом из которых случайное событие может появиться с вероятностью. Требуется найти вероятность того, что в данной серии испытаний событие появится ровно раз.
Наверное, вам уже снится формула Бернулли🙂
тем более, на уроке о биномиальном распределении вероятностей мы разобрали ситуацию по косточкам.
В том случае, если количество испытаний велико (сотни и тысячи), эту вероятность обычно рассчитывают приближённо – с помощью локальной теоремы Лапласа: , где .
Однако и тут есть «слабое звено» – теорема Лапласа начинает серьёзно барахлить (давать большую погрешность), если вероятность меньше, чем 0,1 (и чем меньше, тем всё хуже). Поэтому здесь используют другой метод, и именно распределение Пуассона.
Итак, если количество испытаний достаточно велико, а вероятность появления события в отдельно взятом испытании весьма мала (0,05-0,1 и меньше), то вероятность того, что в данной серии испытаний событие появится ровно раз, можно приближенно вычислить по формуле Пуассона:
, где
Напоминаю, что ноль факториал , а значит, формула имеет смысл и для .
Вместо «лямбды» также используют букву «а».
В новом микрорайоне поставлено 10000 кодовых замков на входных дверях домов. Вероятность выхода из строя одного замка в течение месяца равна 0,0002. Найти вероятность того, что за месяц откажет ровно 1 замок.
Утопичная, конечно, задача, но что делать – решаем🙂
В данном случае количество «испытаний» велико, а вероятность «успеха» в каждом из них – мала: , поэтому используем формулу Пуассона:
Вычислим:
– по существу, это среднеожидаемое количество вышедших из строя замков.
Таким образом:
– вероятность того, что за месяц из строя выйдет ровно один замок (из 10 тысяч).
Ответ:
С технической точки зрения этот результат можно получить несколькими способами, расскажу о них в историческом ракурсе:
1) С помощью специальной таблицы, которая до сих пор встречается во многих книгах по терверу. В данную таблицу сведены различные значения и соответствующие им вероятности. Табулирование обусловлено тем, что в своё время не существовало бытовых калькуляторов, на которых можно было бы подсчитать значения экспоненциальной функции. Отсюда, кстати, идёт традиция округлять вычисления до 4 знаков после запятой – как в стандартной таблице.
2) С помощью прямого вычисления на микрокалькуляторе (прогресс!).
3) С помощью стандартной экселевской функции:
=ПУАССОН(m; лямбда; 0)
в данной задаче вбиваем в любую ячейку Экселя =ПУАССОН(1; 2; 0) и жмём Enter.
Следует отметить, что развитие вычислительной техники фактически отправило в историю методы Лапласа, да и рассматриваемый метод тоже – по той причине, что ответ легко вычислить более точно по формуле Бернулли:
Здесь я использовал функцию БИНОМРАСП, о которой неоднократно упоминал ранее.
Но формула Пуассона, тем не менее, даёт очень крутое приближение:
– с погрешностью только на 9 знаке после запятой!
Впрочем, это всё лирика, решать-то всё равно нужно по формуле Пуассона:
Завод отправил в торговую сеть 500 изделий. Вероятность повреждения изделия в пути равна 0,003. Найти вероятность того, что при транспортировке будет повреждено: а) ни одного изделия, б) ровно три изделия, в) более трех изделий.
Решение: используем формулу Пуассона:
В данном случае:
– среднеожидаемое количество повреждённых изделий
а)
– вероятность того, что все изделия дойдут в целости и сохранности. Ничего не украдут, одним словом 🙂
б)
– вероятность того, что в пути будут повреждены ровно 3 изделия из 500.
в)
А тут всё немножко хитрее. Сначала найдём – вероятность того, что в пути повредятся не более трёх изделий. По теореме сложения вероятностей несовместных событий:
Само собой, ручками это считать надоест, и поэтому я добавил в свой расчётный макет автоматическое построение распределения Пуассона (см. Пункт 7) – пользуйтесь на здоровье.
По теореме сложения вероятностей противоположных событий:
– вероятность того, что при доставке будет повреждено более 3 изделий.
Ответ: а) , б) , в)
Вероятность изготовления бракованных деталей при их массовом производстве равна . Определить вероятность того, что в партии из 800 деталей будет: а) ровно 2 бракованные, б) не более двух.
Решение и ответ в конце урока.
Встречаются и другие формулировки условия. Так, в предложенной задаче может идти речь о том, что производственный брак составляет 0,1% или «в среднем 1 деталь на каждую тысячу». Бывает и дано готовое значение «лямбда», например: «В стандартной партии из 800 деталей брак в среднем составляет 0,8 деталей. Найти вероятность того, что в очередной партии…».
В этой связи ни в коем случае не отключаем голову – даже в таких простых примерах!
А теперь о самом распределении Пуассона. Случайная величина , распределённая по этому закону, принимает бесконечное и счётное количество значений , вероятности появления которых определяются формулой:
Или, если расписать подробно:
Вспоминая разложение экспоненты в ряд, легко убедиться, что:
В теории установлено, что математическое ожидание пуассоновской случайной величины равно и дисперсия – тому же самому значению: .
Обратите внимание, что во всех вышеприведённых заданиях мы лишь ПОЛЬЗОВАЛИСЬ распределением Пуассона для приближенного расчёта вероятностей, в то время как ТОЧНЫЕ значения следовало находить по формуле Бернулли, т.е., там имело место биномиальное распределение.
И следующие две задачи принципиально отличаются от предыдущих:
Случайная величина подчинена закону Пуассона с математическим ожиданием . Найти вероятность того, что данная случайная величина примет значение, меньшее, чем ее математическое ожидание.
Отличие состоит в том, что здесь речь идёт ИМЕННО о распределении Пуассона.
Решение: случайная величина принимает значения с вероятностями:
По условию, , и тут всё просто: событие состоит в трёх несовместных исходах:
вероятность того, что случайная величина примет значение, меньшее, чем ее математическое ожидание.
Ответ:
Аналогичная задача на понимание:
Случайная величина подчинена закону Пуассона с математическим ожиданием . Найти вероятность того, что данная случайная величина примет положительное значение.
Решение и ответ в конце урока.
Помимо приближения биномиального распределения (Примеры 1-3), распределение Пуассона нашло широкое применение в теории массового обслуживания для вероятностной характеристики простейшего потока событий. Постараюсь быть лаконичным:
Пусть в некоторую систему поступают заявки (телефонные звонки, приходящие клиенты и т.д.). Поток заявок называют простейшим, если он удовлетворяет условиям стационарности, отсутствия последствий и ординарности. Стационарность подразумевает то, что интенсивность заявок постоянна и не зависит от времени суток, дня недели или других временнЫх рамок. Иными словами, не бывает «часа пик» и не бывает «мёртвых часов». Отсутствие последствий означает, что вероятность появления новых заявок не зависит от «предыстории», т.е. нет такого, что «одна бабка рассказала» и другие «набежали» (или наоборот, разбежались). И, наконец, свойство ординарности характеризуется тем, что за достаточно малый промежуток времени практически невозможно появление двух или бОльшего количества заявок. «Две старушки в дверь?» – нет уж, увольте, рубить удобнее по порядку.
Итак, пусть в некоторую систему поступает простейший поток заявок со средней интенсивностью заявок в некоторую единицу времени (минуту, час, день или в любую другую). Тогда вероятность того, что за данный промежуток времени, в систему поступит ровно заявок, равна:
Звонки в диспетчерскую такси представляет собой простейший пуассоновский поток со средней интенсивностью 30 вызовов в час. Найти вероятность того, что: а) за 1 мин. поступит 2-3 вызова, б) в течение пяти минут будет хотя бы один звонок.
Решение: используем формулу Пуассона:
а) Учитывая стационарность потока, вычислим среднее количество вызовов за 1 минуту:
вызова – в среднем за одну минуту.
По теореме сложения вероятностей несовместных событий:
– вероятность того, что за 1 минуту в диспетчерскую поступит 2-3 вызова.
б) Вычислим среднее количество вызов за пять минут:
По формуле Пуассона:
– вероятность того, что в течение 5 минут не будет ни одного звонка.
По теореме сложения вероятностей противоположных событий:
– вероятность того, что в течение 5 минут будет хотя бы один вызов.
Ответ: а) , б)
Заметьте, что, несмотря на конечное количество возможных звонков (а оно в принципе конечно), здесь имеет место именно распределение Пуассона, а не какое-то другое.
Для самостоятельного решения:
Среднее число автомобилей, проходящих таможенный досмотр в течение часа, равно 3. Найти вероятность того, что: а) за 2 часа пройдут досмотр от 7 до 10 автомобилей; б) за полчаса успеет пройти досмотр только 1 автомобиль.
Решение и ответ в конце урока.
Наверное, многие знают, что теория массового обслуживания – это обширный и очень интересный раздел прикладной математики, и сейчас мы познакомились с простейшей его задачей.
Дополнительные примеры на распределение и формулу Пуассона можно найти в тематической pdf-книге, и я предлагаю вам ознакомиться с ещё одной популярной вещью – Гипергеометрическим распределением вероятностей.
Приятного и полезного чтения!
Пример 3. Решение: используем формулу Пуассона:
, в данном случае:
а) – вероятность того, что в данной партии окажется ровно 2 бракованные детали.
б) По теореме сложения вероятностей несовместных событий:
– вероятность того, что в данной партии окажется не более 2 бракованных изделий.
Ответ: а) , б)
Пример 5. Решение: случайная величина принимает значения с вероятностями . По условию, .
Найдём вероятность того, что случайная величина примет нулевое значение:
По теореме сложения вероятностей противоположных событий:
– вероятность того, что случайная величина примет положительное значение
Ответ:
Пример 7. Решение: предполагая поток простым, используем формулу Пуассона:
а) Вычислим – среднее количество автомобилей, проходящих таможенный досмотр, в течение 2 часов.
По теореме сложения вероятностей несовместных событий:
– вероятность того, что за 2 часа досмотр пройдут от 7 до 10 автомобилей
б) Вычислим – среднее количество автомобилей, проходящих досмотр, за 1/2 часа.
По формуле Пуассона:
– вероятность того, что за полчаса таможенный досмотр пройдёт только один автомобиль.
Ответ: а) , б)
Автор: Емелин Александр
(Переход на главную страницу)
«Всё сдал!» — онлайн-сервис помощи студентам