Сумма вероятностей всех событий закон распределения. Распределение вероятностей. Вероятность попадания нормально распределенной случайной величины в заданный интервал

Самый удивительный уголок Дальнего Востока и край географии России - Приморье. Где это и в какой части страны искать, несложно определить по названию топонимов. Влекут туристов сюда - Уссурийская тайга, незамерзающее Японское море и прекрасное творение природы края - дальневосточные сопки.

Географическое положение

Местность, где находится Приморье, расположена в юго-восточной части Тихоокеанского побережья Российской Федерации. Функции краевого города выполняет полумиллионный Владивосток - важный политический центр и главный город Приморского края Дальневосточного округа.

Соседство объекта с Китаем, Северной Кореей (КНДР) и Хабаровским краем благоприятствует росту экономического развития региона. Помимо материковой части страны к Приморью относятся острова Японского моря, отделенные заливом Петра I - Русский, Рейнеке, Попова и другие. Приморский край протянулся между параллелями 42 и 49 с. ш. в восточном полушарии планеты, через которую проходят 132 и 140 меридианы.

Сторона, где расположено Приморье, холмистая и входит в состав горной области Сихотэ-Алинь. Средневысотные показатели достигают отметок от 400-1000 м, а максимальные могут доходить и до 2000 метров. Равнинные области сильно заболочены, изрезаны речными долинами и укрыты лесной растительностью.

Климатические условия

Приморский климат умеренный муссонный, на территории господствует влажность и сильные ветра, меняющие направление дважды в год. Зимой край накрывает Азиатский максимум с небольшими осадками, крепкими морозами и минимальным снежным покровом.

Северо-западные ветра приносят понижение январских температур до -32 °С. Лето характеризуется высокой облачностью, продолжительными туманами и ливневыми дождями. За год территория получает до 900 мм осадков. Первые месяца прохладные с показателями до 15 °С, больше напоминающие весну. Самый теплый - август с температурой 20 °С, в среднем. Приморье - это, где сила южного ветра в два раза больше, чем северного. Здесь лучшее время года - осень, а ясных дней больше зимой, чем летом.

Флора Приморского края

Большую часть территории занимают невысокие горы с округлыми вершинами, именуемые в этом регионе сопками. Покрыты они смешанными лесами Уссурийской тайги. Это один из самых богатых лесных районов великой страны. Это настоящие джунгли Северного полушария, где многоярусность является основной причиной вечнозеленой тайги. Корейский кедр, монгольский дуб, маньчжурский орех или филодендрон амурский, элеутерококк, лимонник и женьшень. Завораживает такими видами Приморье. Где это еще в России можно увидеть в дикой природе таких представителей растительного мира? Здесь произрастают грибы, ягоды, а количество видов лекарственных трав, растущих на территории Приморья, превышает многие другие регионы страны.

Животный мир Приморья

Уникальность фауны края заключается в удивительном сочетании представителей южных и северных районов. Основная часть разновидностей пернатых России находится именно в Приморском крае. Редкие и исчезающие виды, мигрирующие и оседлые представители, находят уютный уголок на территории региона. Сюда прилетают беркуты, орланы, утки, гуси, цапли и лебеди.

В тайге обитают изюбры, кабаны, лоси, гималайские медведи, рыси и леопарды. В заповедных территориях охраняют лесного кота, непальскую куницу, соболя, выдру и норку, амурского тигра, барсука и красного волка. На территории Уссурийской тайги создано 4 заповедника, которые берегут и приумножают флору и фауну края.

Историческая справка

Первые поселения на территории объекта датируются эпохой палеолита. Селились здесь племена охотников и рыбаков. Приморье - это родина средневековых государств Пархэ, Цзинь и Ляо.

Среди списка регионов России по площади современный Приморский край находится на 22 месте. Но около 100 лет назад территория современного региона обозначалась как Южно-Уссурийский край, который был слабо изучен и мало заселен. На миграционные потоки к дальневосточным просторам повлияла отмена крепостного права в 1861 году, строительство Транссиба и Уссурийской железной дороги. В поисках свободных и плодородных земель бывшие крепостные и отставные казаки стали основным слоем населения современного Приморья. Выросло международное значение Владивостока, как крупного тихоокеанского порта России и самого большого населенного пункта края.

В 30-е годы XX столетия демографическая «чистка» была и в Приморье. Отсюда принудительно были выселены представители китайской и корейской национальности. В военное время на плечи края легла участь промышленного поставщика и сельскохозяйственного кормильца Родины. Официальной датой образования Приморья считается 20 октября 1938 года, когда огромный Дальневосточный край разделили на Приморский и Хабаровский.

Население региона

Отдаленность от Центральных районов, соседство с иностранными государствами повлияла на пестроту национального состава населения в Приморье, где это и фиксируется в статистических данных края. По численности населения на территории лидирует 11 национальностей. Тройку возглавляют русские, их на территории проживает около 2 млн. человек. Серебро принадлежит представителям украинской диаспоры - более 90 тыс. чел., а бронза у корейцев - их насчитывается 17 тыс. чел. Кроме этих представителей, на территории, где находится Приморье Дальнего Востока, проживают татары, белорусы, китайцы, чуваши и другие национальности.

В конце XX века на территорию края хлынули иммиграционные потоки с соседних и вблизи расположенных государств. Сегодня на улице Владивостока, Находки или Уссурийска можно встретить представителей Китая, Вьетнама или Северной Кореи. Главным занятием для иммигрантов из этих государств стало строительство, торговля и учеба.

Средняя продолжительность жизни у женщин намного выше, чем у мужчин и составляет 71,7 лет, а у сильной половины - 59,8 года. Население региона стремительно стареет, что приводит к процессу депопуляции.

Численность трудового населения составляет 70,1%, а уровень безработицы достигает 6%. По статистике 2017 года, из 1 923 116 человек, проживающих в регионе представителей мужского пола 921 063 человек, а женского - 1 002 053 человека. Большая часть населения проживает в городах и составляет около 1 500 000 человек. Третья часть населения проживает в сельской местности.

Как добраться до Приморья?

Чтобы попасть в край дальневосточных сопок, туристу из Москвы до Владивостока придется преодолеть 9259 км по железной дороге и потратить на путешествие больше 6 дней. Конечно, такой длинный путь преодолевает фирменный поезд с комфортными условиями для пассажиров. Ускорить пребывание в пути можно, совершив перелет самолетом из столицы, потратив чуть больше 8 часов полета.

Из Санкт-Петербурга также несложно попасть в Приморье. Где это видно из расписания полетов в данном направлении. Прямые рейсы выполняют «Уральские авиалинии», а с пересадкой в Москве или Новосибирске осуществляют компании «Аэрофлота».

Туристические возможности

Несмотря на столь огромную отдаленность, Приморье не требует рекламного описания. Его знаменитые богатства Уссурийской тайги уникальны и необъятны. Это кладезь для любителей охоты. Маршруты проложены угодьями самые разные, есть и экстремальные тропы.

Красота морского побережья края просто завораживает - это песчаные пляжи, изрезанные берега, многочисленные бухты и широкие заливы. Влекут туристов изумрудные острова, порты, заповедные территории и базы отдыха.

Назначение сервиса . Онлайн-калькулятор используется для построения таблицы распределения случайной величины X – числа произведенных опытов и вычисления всех характеристик ряда: математического ожидания, дисперсии и среднеквадратического отклонения. Отчет с решением оформляется в формате Word .

Пример 1 . В урне белых и черных шара. Шары наудачу достают из урны без возвращения до тех пор, пока не появится белый шар. Как только это произойдет, процесс прекращается.
Данный тип заданий относится к задаче построения геометрического распределения .

Пример 2 . Два Три стрелка делают по одному выстрелу в мишень. Вероятность попадания в нее первым стрелком равна , вторым – . Составить закон распределения случайной величины Х – числа попаданий в мишень.

Пример 2a . Стрелок делает по два три четыре выстрела. Вероятность попадания при соответствующем выстреле равна , . При первом промахе стрелок в дальнейших состязаниях не участвует. Составить закон распределения случайной величины Х - число попаданий в мишень.

Пример 3 . В партии из деталей бракованных стандартных. Контролер наудачу достает детали. Составить закон распределения случайной величины Х – числа бракованных годных деталей в выборке.
Аналогичное задание : В корзине m красных и n синих шаров. Наудачу вынимают k шаров. Составить закон распределения ДСВ X – появление синих шаров.
см. другие примеры решений .

Пример 4 . Вероятность появления события в одном испытании равна . Производится испытаний. Составить закон распределения случайной величины Х – числа появлений события.
Аналогичные задания для этого вида распределения :
1. Составить закон распределения случайной величины Х числа попаданий при четырех выстрелах, если вероятность попадания в цель при одном выстреле равна 0.8 .
2. Монету подбрасывают 7 раз. Найти математическое ожидание и дисперсию числа появлений герба. Составить таблицу распределения Х – числа появлений герба.

Пример №1 . Бросаются три монеты. Вероятность выпадения герба при одном бросании равна 0.5. Составьте закон распределения случайной величины X - числа выпавших гербов.
Решение.
Вероятность того, что не выпало ни одного герба: P(0) = 0,5*0,5*0,5= 0,125
P(1) = 0,5 *0,5*0,5 + 0,5*0,5 *0,5 + 0,5*0,5*0,5 = 3*0,125=0,375
P(2) = 0,5 *0,5 *0,5 + 0,5 *0,5*0,5 + 0,5*0,5 *0,5 = 3*0,125=0,375
Вероятность того, что выпало три герба: P(3) = 0,5*0,5*0,5 = 0,125

Закон распределения случайной величины X:

X	0	1	2	3
P	0,125	0,375	0,375	0,125

Проверка: P = P(0) + P(1) + P(2) + P(3) = 0,125 + 0,375 + 0,375 + 0,125 = 1

Пример №2 . Вероятность попадания в мишень одного стрелка при одном выстреле для первого стрелка равна 0.8, для второго стрелка – 0.85. Стрелки произвели по одному выстрелу в мишень. Считая попадание в цель для отдельных стрелков событиями независимыми, найти вероятность события А – ровно одно попадание в цель.
Решение.
Рассмотрим событие A - одно попадание в цель. Возможные варианты наступления этого события следующие:

Попал первый стрелок, второй стрелок промахнулся: P(A/H1)=p 1 *(1-p 2)=0.8*(1-0.85)=0.12
Первый стрелок промахнулся, второй стрелок попал в мишень: P(A/H2)=(1-p 1)*p 2 =(1-0.8)*0.85=0.17
Первый и второй стрелки независимо друг от друга попали в мишень: P(A/H1H2)=p 1 *p 2 =0.8*0.85=0.68

Тогда вероятность события А – ровно одно попадание в цель, будет равна: P(A) = 0.12+0.17+0.68 = 0.97

На практике большинство случайных величин, на которых воздействует большое количество случайных факторов, подчиняются нормальному закону распределения вероятностей. Поэтому в различных приложениях теории вероятностей этот закон имеет особое значение.

Случайная величина $X$ подчиняется нормальному закону распределения вероятностей, если ее плотность распределения вероятностей имеет следующий вид

$$f\left(x\right)={{1}\over {\sigma \sqrt{2\pi }}}e^{-{{{\left(x-a\right)}^2}\over {2{\sigma }^2}}}$$

Схематически график функции $f\left(x\right)$ представлен на рисунке и имеет название «Гауссова кривая». Справа от этого графика изображена банкнота в 10 марок ФРГ, которая использовалась еще до появления евро. Если хорошо приглядеться, то на этой банкноте можно заметить гауссову кривую и ее первооткрывателя величайшего математика Карла Фридриха Гаусса.

Вернемся к нашей функции плотности $f\left(x\right)$ и дадим кое-какие пояснения относительно параметров распределения $a,\ {\sigma }^2$. Параметр $a$ характеризует центр рассеивания значений случайной величины, то есть имеет смысл математического ожидания. При изменении параметра $a$ и неизмененном параметре ${\sigma }^2$ мы можем наблюдать смещение графика функции $f\left(x\right)$ вдоль оси абсцисс, при этом сам график плотности не меняет своей формы.

Параметр ${\sigma }^2$ является дисперсией и характеризует форму кривой графика плотности $f\left(x\right)$. При изменении параметра ${\sigma }^2$ при неизмененном параметре $a$ мы можем наблюдать, как график плотности меняет свою форму, сжимаясь или растягиваясь, при этом не сдвигаясь вдоль оси абсцисс.

Вероятность попадания нормально распределенной случайной величины в заданный интервал

Как известно, вероятность попадания случайной величины $X$ в интервал $\left(\alpha ;\ \beta \right)$ можно вычислять $P\left(\alpha < X < \beta \right)=\int^{\beta }_{\alpha }{f\left(x\right)dx}$. Для нормального распределения случайной величины $X$ с параметрами $a,\ \sigma $ справедлива следующая формула:

$$P\left(\alpha < X < \beta \right)=\Phi \left({{\beta -a}\over {\sigma }}\right)-\Phi \left({{\alpha -a}\over {\sigma }}\right)$$

Здесь функция $\Phi \left(x\right)={{1}\over {\sqrt{2\pi }}}\int^x_0{e^{-t^2/2}dt}$ - функция Лапласа. Значения этой функции берутся из . Можно отметить следующие свойства функции $\Phi \left(x\right)$.

1 . $\Phi \left(-x\right)=-\Phi \left(x\right)$, то есть функция $\Phi \left(x\right)$ является нечетной.

2 . $\Phi \left(x\right)$ - монотонно возрастающая функция.

3 . ${\mathop{lim}_{x\to +\infty } \Phi \left(x\right)\ }=0,5$, ${\mathop{lim}_{x\to -\infty } \Phi \left(x\right)\ }=-0,5$.

Для вычисления значений функции $\Phi \left(x\right)$ можно также воспользоваться мастером функция $f_x$ пакета Excel: $\Phi \left(x\right)=НОРМРАСП\left(x;0;1;1\right)-0,5$. Например, вычислим значений функции $\Phi \left(x\right)$ при $x=2$.

Вероятность попадания нормально распределенной случайной величины $X\in N\left(a;\ {\sigma }^2\right)$ в интервал, симметричный относительно математического ожидания $a$, может быть вычислена по формуле

$$P\left(\left|X-a\right| < \delta \right)=2\Phi \left({{\delta }\over {\sigma }}\right).$$

Правило трех сигм . Практически достоверно, что нормально распределенная случайная величина $X$ попадет в интервал $\left(a-3\sigma ;a+3\sigma \right)$.

Пример 1 . Случайная величина $X$ подчинена нормальному закону распределения вероятностей с параметрами $a=2,\ \sigma =3$. Найти вероятность попадания $X$ в интервал $\left(0,5;1\right)$ и вероятность выполнения неравенства $\left|X-a\right| < 0,2$.

Используя формулу

$$P\left(\alpha < X < \beta \right)=\Phi \left({{\beta -a}\over {\sigma }}\right)-\Phi \left({{\alpha -a}\over {\sigma }}\right),$$

находим $P\left(0,5;1\right)=\Phi \left({{1-2}\over {3}}\right)-\Phi \left({{0,5-2}\over {3}}\right)=\Phi \left(-0,33\right)-\Phi \left(-0,5\right)=\Phi \left(0,5\right)-\Phi \left(0,33\right)=0,191-0,129=0,062$.

$$P\left(\left|X-a\right| < 0,2\right)=2\Phi \left({{\delta }\over {\sigma }}\right)=2\Phi \left({{0,2}\over {3}}\right)=2\Phi \left(0,07\right)=2\cdot 0,028=0,056.$$

Пример 2 . Предположим, что в течение года цена на акции некоторой компании есть случайная величина, распределенная по нормальному закону с математическим ожиданием, равным 50 условным денежным единицам, и стандартным отклонением, равным 10. Чему равна вероятность того, что в случайно выбранный день обсуждаемого периода цена за акцию будет:

а) более 70 условных денежных единиц?

б) ниже 50 за акцию?

в) между 45 и 58 условными денежными единицами за акцию?

Пусть случайная величина $X$ - цена на акции некоторой компании. По условию $X$ подчинена нормальному закону распределению с параметрами $a=50$ - математическое ожидание, $\sigma =10$ - стандартное отклонение. Вероятность $P\left(\alpha < X < \beta \right)$ попадания $X$ в интервал $\left(\alpha ,\ \beta \right)$ будем находить по формуле:

$$P\left(\alpha < X < \beta \right)=\Phi \left({{\beta -a}\over {\sigma }}\right)-\Phi \left({{\alpha -a}\over {\sigma }}\right).$$

$$а)\ P\left(X>70\right)=\Phi \left({{\infty -50}\over {10}}\right)-\Phi \left({{70-50}\over {10}}\right)=0,5-\Phi \left(2\right)=0,5-0,4772=0,0228.$$

$$б)\ P\left(X < 50\right)=\Phi \left({{50-50}\over {10}}\right)-\Phi \left({{-\infty -50}\over {10}}\right)=\Phi \left(0\right)+0,5=0+0,5=0,5.$$

$$в)\ P\left(45 < X < 58\right)=\Phi \left({{58-50}\over {10}}\right)-\Phi \left({{45-50}\over {10}}\right)=\Phi \left(0,8\right)-\Phi \left(-0,5\right)=\Phi \left(0,8\right)+\Phi \left(0,5\right)=$$

Несмотря на экзотические названия, распространённые распределения связаны друг с другом достаточно интуитивными и интересными способами, позволяющими легко их вспоминать и уверенно о них рассуждать. Некоторые естественно следуют, например, из распределения Бернулли. Время показать карту этих связей.

Каждое распределение иллюстрируется примером её функции плотности распределения (ФПР). Эта статья только о тех распределениях, у которых исходы – одиночные числа. Поэтому, горизонтальная ось каждого графика – набор возможных чисел-исходов. Вертикальная – вероятность каждого исхода. Некоторые распределения дискретны - у них исходы должны быть целыми числами, типа 0 или 5. Таковые обозначаются редкими линиями, по одной на каждый исход, с высотой, соответствующей вероятности данного исхода. Некоторые – непрерывны, у них исходы могут принять любое численное значение, типа -1.32 или 0.005. Эти показаны плотными кривыми с областями под секциями кривой, которые дают вероятности. Сумма высот линий и областей под кривыми - всегда 1.

Распечатайте, отрежьте по пунктирной линии и носите с собой в кошельке. Это - ваш путеводитель в стране распределений и их родственников.

Бернулли и равномерное

Вы уже встретились с распределением Бернулли выше, с двумя исходами – орлом или решкой. Представьте его теперь как распределение над 0 и 1, 0 – орёл, 1 – решка. Как уже понятно, оба исхода равновероятны, и это отражено на диаграмме. ФПР Бернулли содержит две линии одинаковой высоты, представляющие 2 равновероятных исхода: 0 и 1 соответственно.

Распределение Бернулли может представлять и неравновероятные исходы, типа броска неправильной монетки. Тогда вероятность орла будет не 0.5, а какая-то другая величина p, а вероятность решки – 1-p. Как и многие другие распределения, это на самом деле целое семейство распределений, задаваемых определёнными параметрами, как p выше. Когда будете думать «Бернулли » – думайте про «бросок (возможно, неправильной) монетки».

Отсюда весьма небольшой шаг до того, чтобы представить распределение поверх нескольких равновероятных исходов: равномерное распределение , характеризуемое плоской ФПР. Представьте правильный игральный кубик. Его исходы 1-6 равновероятны. Его можно задать для любого количества исходов n, и даже в виде непрерывного распределения.

Думайте о равномерном распределении как о «правильном игральном кубике».

Биномиальное и гипергеометрическое

Биномиальное распределение можно представить как сумму исходов тех вещей, которые следуют распределению Бернулли.

Киньте честную монету два раза – сколько раз будет орёл? Это число, подчиняющееся биномиальному распределению. Его параметры – n, число испытаний, и p – вероятность «успеха» (в нашем случае – орла или 1). Каждый бросок – распределённый по Бернулли исход, или испытание . Используйте биномиальное распределение, когда считаете количество успехов в вещах типа броска монеты, где каждый бросок не зависит от других и имеет одинаковую вероятность успеха.

Или представьте урну с одинаковым количество белых и чёрных шаров. Закройте глаза, вытащите шар, запишите его цвет и верните назад. Повторите. Сколько раз вытащился чёрный шар? Это число также подчиняется биномиальному распределению.

Эту странную ситуацию мы представили, чтобы было легче понять смысл гипергеометрического распределения . Это распределение того же числа, но в ситуации если бы мы не возвращали шары обратно. Оно, безусловно, двоюродный брат биномиального распределения, но не такое же, так как вероятность успеха изменяется с каждым вытащенным шаром. Если количество шаров достаточно велико по сравнению с количеством вытаскиваний – то эти распределения практически одинаковы, так как шанс успеха изменяется с каждым вытаскиванием крайне незначительно.

Когда где-то говорят о вытаскивании шаров из урн без возврата, практически всегда безопасно ввернуть «да, гипергеометрическое распределение», потому что в жизни я ещё не встречал никого, кто реально наполнял бы урны шарами и потом вытаскивал их и возвращал, или наоборот. У меня даже знакомых нет с урнами. Ещё чаще это распределение должно всплывать при выборе значимого подмножества некоторой генеральной совокупности в качестве выборки.

Прим. перев.

Тут может быть не очень понятно, а раз туториал и экспресс-курс для новичков - надо бы разъяснить. Генеральная совокупность - есть нечто, что мы хотим статистически оценить. Для оценки мы выбираем некоторую часть (подмножество) и производим требуемую оценку на ней (тогда это подмножество называется выборкой), предполагая, что для всей совокупности оценка будет похожей. Но чтобы это было верно, часто требуются дополнительные ограничения на определение подмножества выборки (или наоборот, по известной выборке нам надо оценить, описывает ли она достаточно точно совокупность).

Практический пример - нам нужно выбрать от компании в 100 человек представителей для поездки на E3. Известно, что в ней 10 человек уже ездили в прошлом году (но никто не признаётся). Сколько минимум нужно взять, чтобы в группе с большой вероятностью оказался хотя бы один опытный товарищ? В данном случае генеральная совокупность - 100, выборка - 10, требования к выборке - хотя бы один, уже ездивший на E3.

В википедии есть менее забавный, но более практичный пример про бракованные детали в партии.

Пуассон

Что насчёт количества заказчиков, звонящих по горячей линии в техподдержку каждую минуту? Это исход, чьё распределение на первый взгляд биномиальное, если считать каждую секунду как испытание Бернулли, в течение которой заказчик либо не позвонит (0), либо позвонит (1). Но электроснабжающие организации прекрасно знают: когда выключают электричество – за секунду могут позвонить двое или даже больше сотни людей. Представить это как 60000 миллисекундных испытаний тоже не поможет – испытаний больше, вероятность звонка в миллисекунду меньше, даже если не учитывать двух и более одновременно, но, технически – это всё ещё не испытание Бернулли. Тем не менее, срабатывает логическое рассуждение с переходом к бесконечности. Пусть n стремится к бесконечности, а p – к 0, и так, чтобы np было постоянным. Это как делить на всё более малые доли времени со всё менее малой вероятностью звонка. В пределе мы получим распределение Пуассона .

Так же, как и биномиальное, распределение Пуассона – это распределение количества: количества раз того, как что-то произойдёт. Оно параметризуется не вероятностью p и количеством испытаний n, но средней интенсивностью λ, что, в аналогии с биномиальным, просто постоянное значение np. Распределение Пуассона – то, о чём надо вспоминать, когда идёт речь о подсчёте событий за определённое время при постоянной заданной интенсивности.

Когда есть что-то, типа прихода пакетов на роутер или появления покупателей в магазине или что-то, ожидающее в очереди – думайте «Пуассон ».

Геометрическое и отрицательное биномиальное

Из простых испытаний Бернулли появляется другое распределение. Сколько раз монетка выпадет решкой, прежде, чем выпасть орлом? Число решек подчиняется геометрическому распределению . Как и распределение Бернулли, оно параметризуется вероятностью успешного исхода, p. Оно не параметризуется числом n, количеством бросков-испытаний, потому что число неудачных испытаний как раз и есть исход.

Если биномиальное распределение это «сколько успехов», то геометрическое это «Сколько неудач до успеха?».

Отрицательное биномиальное распределение – простое обобщение предыдущего. Это количество неудач до того, как будет r, а не 1, успехов. Поэтому оно дополнительно параметризуется этим r. Иногда его описывают как число успехов до r неудач. Но, как говорит мой лайф-коуч: «Ты сам решаешь, что есть успех, а что - неудача», так что это тоже самое, если при этом не забыть, что вероятность p тоже должна правильной вероятностью успеха или неудачи соответственно.

Если нужна будет шутка для снятия напряжения, можно упомянуть, что биномиальное и гипергеометрическое распределение – это очевидная пара, но и геометрическое и отрицательное биномиальное так же весьма похожи, после чего заявить «Ну и кто же так их все называет, а?»

Экспоненциальное и Вейбула

Снова о звонках в техподдержку: сколько пройдёт до следующего звонка? Распределение этого времени ожидания как будто бы геометрическое, потому что каждая секунда, пока никто не звонит – это как неуспех, до секунды, пока, наконец, звонок не произойдёт. Количество неудач –это как количество секунд, пока никто не звонил, и это практически время до следующего звонка, но «практически» нам недостаточно. Суть в том, что это время будет суммой целых секунд, и, таким образом, не получится посчитать ожидание внутри этой секунды до непосредственно звонка.

Ну и, как и раньше, переходим в геометрическом распределении к пределу, относительно временных долей – и вуаля. Получаем экспоненциальное распределение , которое точно описывает время до звонка. Это непрерывное распределение, первое такое у нас, потому что исход не обязательно в целых секундах. Как и распределение Пуассона, оно параметризуется интенсивностью λ.

Повторяя связь биномиального с геометрическим, Пуассоновское «сколько событий за время?» связано с экспоненциальным «сколько до события?». Если есть события, количество которых на единицу времени подчиняется распределению Пуассона, то время между ними подчиняется экспоненциальному распределению с тем же параметром λ. Это соответствие между двумя распределениями необходимо отмечать, когда обсуждается любое из них.

Экспоненциальное распределение должно приходить на ум при размышлении о «времени до события», возможно, «времени до отказа». По факту, это такая важная ситуация, что существуют более обобщённые распределения чтобы описать наработку-на-отказ, типа распределения Вейбула . В то время, как экспоненциальное распределение подходит, когда интенсивность - износа, или отказов, например – постоянна, распределение Вейбула может моделировать увеличивающуюся (или уменьшающуюся) со временем интенсивность отказов. Экспоненциальное, в общем-то, частный случай.

Думайте «Вейбул » когда разговор заходит о наработке-на-отказ.

Нормальное, логнормальное, Стьюдента и хи-квадрат

Нормальное , или гауссово , распределение, наверное, одно из важнейших. Его колоколообразная форма узнаётся сразу. Как и , это особенно любопытная сущность, которая проявляется везде, даже из внешне самых простых источников. Возьмите набор значений, подчиняющихся одному распределению – любому! – и сложите их. Распределение их суммы подчиняется (приблизительно) нормальному распределению. Чем больше вещей суммируется – тем ближе их сумма соответствует нормальному распределению (подвох: распределение слагаемых должно быть предсказуемым, быть независимым, оно стремится только к нормальному). То, что это так, несмотря на исходное распределение – это потрясающе.

Прим. перев.

Меня удивило, что автор не пишет про необходимость сопоставимого масштаба суммируемых распределений: если одно существенно доминирует надо остальными - сходиться будет крайне плохо. И, в общем-то, абсолютная взаимная независимость необязательна, достаточна слабая зависимость.

Ну сойдёт, наверное, для вечеринок, как он написал.

Это называется «центральная предельная теорема », и надо знать, что это, почему так названо и что означает, иначе моментально засмеют.

В её разрезе, нормальное связано со всеми распределениями. Хотя, в основном, его связывают с распределениями всяких сумм. Сумма испытаний Бернулли следует биномиальному распределению и, с увеличением количества испытаний, это биномиальное распределение становится всё ближе в нормальному распределению. Аналогично и его двоюродный брат – гипергеометрическое распределение. Распределение Пуассона – предельная форма биномиального – так же приближается к нормальному с увеличением параметра интенсивности.

Исходы, которые подчиняются логнормальному распределению , дают значения, логарифм которых нормально распределён. Или по-другому: экспонента нормально распределённого значения логнормально распределена. Если суммы – нормально распределены, то запомните так же, что произведения распределены логнормально.

t-Распределение Стьюдента – это основа t-теста , который многие нестатистики изучают в других областях. Оно используется для предположений о среднем нормального распределения и так же стремится к нормальному распределению с увеличением своего параметра. Отличительная особенность t-распределения – его хвосты, которые толще, чем у нормального распределения.

Если толстохвостый анекдот недостаточно раскачал вашего соседа – переходите в довольно забавной байке про пиво. Больше 100 лет назад Гиннесс использовал статистику, чтобы улучшить свой стаут. Тогда Вильям Сили Госсет и изобрёл полностью новую статистическую теорию для улучшенного выращивания ячменя. Госсет убедил босса, что другие пивовары не поймут, как использовать его идеи, и получил разрешение на публикацию, но под псевдонимом «Стьюдент». Самое известное достижение Госсета – как раз это самое t-распределение, которое, можно сказать, названо в честь него.

Наконец, распределение хи-квадрат – распределение сумм квадратов нормально-распределенных величин. На этом распределении построен тест хи-квадрат , который сам основан на сумме квадратов разниц, которые должны быть нормально распределены.

Гамма и бета

В этом месте, если вы уже заговорили о чём-то хи-квадратном, разговор начинается всерьёз. Вы уже, возможно, говорите с настоящими статистиками, и, наверное, стоит уже откланиваться, поскольку могут всплыть вещи типа гамма-распределения . Это обобщение и экспоненциального, и хи-квадрат распределения. Как и экспоненциальное распределение, оно используется для сложных моделей времен ожидания. Например, гамма-распределение появляется, когда моделируется время до следующих n событий. Оно появляется в машинном обучении как «сопряжённое априорное распределение » к парочке других распределений.

Не вступайте в разговор об этих сопряжённых распределениях, но если всё-таки придётся, не забудьте сказать о бета-распределении , потому что оно сопряжённое априорное к большинству упомянутых здесь распределений. Data-scientist-ы уверены, что оно именно для этого и сделано. Упомяните об этом ненароком и идите к двери.

Начало мудрости

Распределения вероятности - это то, о чём нельзя знать слишком много. По настоящему заинтересованные могут обратиться к этой супердетализированной карте всех распределений вероятности Добавить метки

Распределение вероятностей - вероятностная мера на измеримом пространстве.

Пусть W - непустое множество произвольной природы и Ƒ -s- алгебра на W, то есть совокупность подмножеств W, содержащая само W, пустое множество Æ, и замкнутая относительно не более, чем счетного множества теоретико-множественных операций (это означает, что для любого A Î Ƒ множество = W\A вновь принадлежит Ƒ и если A 1 , A 2 ,…Î Ƒ , то Ƒ и Ƒ ). Пара (W,Ƒ ) называется измеримым пространством. Неотрицательная функция P(A ), определенная для всех A Î Ƒ , называется вероятностной мерой, вероятностью, Р. вероятностей или просто Р., если P(W) = 1 и P является счетно-аддитивной, то есть для любой последовательности A 1 , A 2 ,…Î Ƒ такой, что A i ∩ A j = Æ для всех i ¹ j , справедливо равенство P() = P(A i ). Тройка (W, Ƒ , P) называется вероятностным пространством. Вероятностное пространство является исходным понятием аксиоматической теории вероятностей , предложенной А.Н. Колмогоровым в начале 1930 гг.

На каждом вероятностном пространстве можно рассматривать (действительные) измеримые функции X = X (w), wÎW, то есть такие функции, что {w: X (w) Î B } Î Ƒ для любого борелевского подмножества B действительной прямой R . Измеримость функции X эквивалентна тому, что {w: X (w) < x } Î Ƒ для любого действительного x . Измеримые функции называются случайными величинами. Каждая случайная величина X , опреде-ленная на вероятностном пространстве (W, Ƒ , P), порождает Р. вероятностей

P X (B ) = P(X ÎB ) = P({w: X (w) Î B }), B ÎƁ ,
на измеримом пространстве (R , Ɓ ), где Ɓ R , и функцию распределения

F X (x ) = P(X < x ) = P({w: X (w) < x }), -¥ < x <¥,
которые называются Р. вероятностей и функцией распределения случайной величины X .

Функция распределения F любой случайной величины обладает свойствами

1. F (x ) неубывает,

2. F (- ¥) = 0, F (¥) = 1,

3. F (x ) непрерывна слева в каждой точке x .

Иногда в определении функции распределения неравенство < заменяется неравенством £; в этом случае функция распределения является непрерывной справа. В содержательных утверждениях теории вероятностей не важно, непрерывна функция распределения слева или справа, важны лишь положения ее точек разрыва x (если они есть) и величины приращений F (x +0) - F (x -0) в этих точках; если F X , то это приращение есть P(X = x ).

Любая функция F , обладающая свойствами 1. - 3. называется функцией распреде-ления. Соответствие между распределениями на (R , Ɓ ) и функциями распределения взаимно однозначно. Для любого Р. P на (R , Ɓ ) его функция распределения определяется равенством F (x ) = P ((-¥, x )), -¥ < x <¥, а для любой функции распределения F соответствующее ей Р. P определяется на алгебре £ множеств, состоящей из объединений конечного числа непересекающихся промежутков функция F 1 (x ) линейно возрастает от 0 до 1. Для построения функции F 2 (x ) отрезок разбиваеся на отрезок , интервал (1/3, 2/3) и отрезок . Функция F 2 (x ) на интервале (1/3, 2/3) равна 1/2 и линейно возрастает от 0 до 1/2 и от 1/2 до 1 на отрезках и соответственно. Этот процесс продолжается и функция F n +1 получается с помощью следующего преобразования функции F n , n ³ 2. На интервалах, где функция F n (x ) постоянна, F n +1 (x ) совпадает с F n (x ). Каждый отрезок , где функция F n (x ) линейно возрастает от a до b , разбивается на отрезок , интервал (a + (a - b)/3, a + 2(b - a)/3) и отрезок . На указанном интервале F n +1 (x ) равна (a + b )/2, а на указанных отрезках F n +1 (x ) линейно возрастает от a до (a + b )/2и от (a + b )/2 до b соответственно. Для каждого 0 £ x £ 1 последовательность F n (x ), n = 1, 2,..., сходится к некоторому числу F (x ). Последо-вательность функций распределения F n , n = 1, 2,..., равностепенно непрерывна, поэтому предельная функция распределения F (x ) является непрерывной. Эта функция постоянна на счетном множестве интервалов (значения функции на разных интервалах различны), на которых нет ее точек роста, а суммарная длина этих интервалов равна 1. Поэтому мера Лебега множества supp F равна нулю, то есть F сингулярна.

Каждая функция распределения может быть представлена в виде

F (x ) = p ac F ac (x ) + p d F d (x ) + p s F s (x ),
где F ac , F d и F s абсолютно непрерывная, дискретная и сингулярная функции распреде-ления, а сумма неотрицательных чисел p ac , p d и p s равна единице. Это представление называется разложением Лебега, а функции F ac , F d и F s - компонентами разложения.

Функция распределения называется симметричной, если F (-x ) = 1 - F (x + 0) для
x > 0. Если симметричная функция распределения абсолютно непрерывна, то ее плотность - четная функция. Если случайная величина X имеет симметричное распределение, то случайные величины X и -X одинаково распределены. Если симметричная функция распределения F (x ) непрерывна в нуле, то F (0) = 1/2.

Среди часто используемых в теории вероятностей абсолютно непрерывных Р. - равномерное Р., нормальное Р. (Р. Гаусса), экспоненциальное Р. и Р. Коши.

Р. называется равномерным на интервале (a , b ) (или на отрезке [a , b ], или на промежутках [a , b ) и (a , b ]), если его плотность постоянна (и равна 1/(b - a )) на (a , b ) и равна нулю вне (a , b ). Чаще всего используется равномерное Р. на (0, 1), его функция распределения F (x ) равна нулю при x £ 0, равна единице при x >1 и F (x ) = x при 0 < x £ 1. Равномерное Р. на (0, 1) имеет случайная величина X (w) = w на вероятностном прост-ранстве, состоящем из интервала (0, 1), совокупности борелевских подмножеств этого интервала и меры Лебега. Это вероятностное пространство соответствует эксперименту «бросание точки w наудачу на интервал (0, 1)», где слово «наудачу» означает равноправие («равновозможность») всех точек из (0, 1). Если на вероятностном пространстве (W, Ƒ , P) существует случайная величина X с равномерным Р. на (0, 1), то на нем для любой функ-ции распределения F существует случайная величина Y , для которой функция распределе-ния F Y совпадает с F . Например, функция распределения случайной величины Y = F -1 (X ) совпадает с F . Здесь F -1 (y ) = inf{x : F (x ) > y }, 0 < y < 1; если функция F (x ) непрерывна и строго монотонна на всей действительной прямой, то F -1 - функция, обратная F .

Нормальным Р. с параметрами (a , s 2), -¥ < a < ¥, s 2 > 0, называется Р. с плотностью, -¥ < x < ¥. Чаще всего используется нормальное Р. с параметрами a = 0 и s 2 = 1, которое называется стандартным нормальным Р., его функция распределения F(x ) через суперпозиции элементарные функций не выражается и приходится использовать ее интегральное представление F(x ) =, -¥ < x < ¥. Для фунции распределения F(x ) составлены подробные таблицы, которые были необходимы до того как появилась современная вычислительная техника (значения функции F(x ) можно получать и с помощью таблиц спец. функции erf(x )), значения F(x ) для x > 0 можно получать с помощью суммы ряда

,
а для x < 0 можно воспользоваться симметричностью F(x ). Значения нормальной функции распределения с параметрами a и s 2 можно получать, пользуясь тем, что она совпадает с F((x - a )/s). Если X 1 и X 2 независимые нормально распределенные с параметрами a 1 , s 1 2 и a 2 , s 2 2 случайные величины, то распределение их суммы X 1 + X 2 также нормально с параметрами a = a 1 + a 2 и s 2 = s 1 2 + s 2 2 . Верно и утверждение, в некотором смысле, обратное: если случайная величина X нормально распределена с параметрами a и s 2 , и
Х = X 1 + X 2 , где X 1 и X 2 - независимые случайные величины, отличные от постоянных, то X 1 и X 2 имеют нормальные распределения (теорема Крамера). Параметры a 1 , s 1 2 и a 2 , s 2 2 распределений нормальных случайных величин X 1 и X 2 связаны с a и s 2 равенствами, приведенными выше. Стандартное нормальное распределение является предельным в центральной предельной теореме .

Экспоненциальным Р. называется распределение с плотностью p (x ) = 0 при x < 0 и p (x ) = le - lx при x ³ 0, где l > 0 - параметр, его функция распределения F (x ) = 0 при x £ 0 и F (x ) = 1 - e - lx при x > 0 (иногда используются экспоненциальные Р., отличающиеся от указанного сдвигом по действительной оси). Это Р. обладает свойством, которое называ-ется отсутствием последействия: если X - случайная величина с экспоненциальным Р., то для любых положительных x и t

P(X > x + t | X > x ) = P(X > t ).
Если X - время работы некоторого прибора до отказа, то отсутствие последействия озна-чает, что вероятность того, что прибор, включенный в момент времени 0, не откажет до момента x + t при условии, что он не отказал до момента x , не зависит от x . Это свойство интерпретируется как отсутствие «старения». Отсутствие последействия является харак-теризационным свойством экспоненциального Р.: в классе абсолютно непрерывных распределений указанное выше равенство справедливо только для экспоненциального Р. (с некоторым параметром l > 0). Экспоненциальное Р. появляется как предельное Р. в схеме минимума. Пусть X 1 , X 2 ,… - неотрицательные независимые одинаково распреде-ленные случайны величины и для их общей функция распределения F точка 0 является точкой роста. Тогда при n ®¥ распределения случайных величин Y n = min(X 1 ,…, X n ) слабо сходятся к вырожденному распределению с единственной точкой роста 0 (это - аналог закона больших чисел). Если дополнительно предположить, что для некоторого e > 0 функция распределения F (x ) на интервале (0, e) допускает представление и p (u )®l при u ¯ 0, то функции распределения случайных величин Z n = n min(X 1 ,…, X n ) при n ®¥ равномерно по -¥ < x < ¥ сходятся к экспоненциальной функции распределения с параметром l (это - аналог центральной предельной теоремы).

Р. Коши называется Р. с плотностью p (x ) = 1/(p(1 + x 2)), -¥ < x < ¥, его функция рас-пределения F (x ) = (arctg x + p/2)/p. Это Р. появилось в работе С.Пуассона в 1832 г. в связи с решением следующей задачи: существуют ли независимые одинаково распределенные случайные величины X 1 , X 2 ,… такие, что средние арифметические (X 1 + … + X n )/n при каждом n имеют то же Р., что и каждая из случайных величин X 1 , X 2 ,…? С. Пуассон обна-ружил, что таким свойством обладают случайные величины с указанной плотностью. Для этих случайных величин не выполняется утверждение закона больших чисел, в котором средние арифметические (X 1 +…+ X n )/n при росте n вырождаются. Однако, это не проти-воречит закону больших чисел, поскольку в нем на распределения исходных случайных величин налагаются ограничения, которые для указанного распределения не выполнены (для этого распределения существуют абсолютные моменты всех положительных поряд-ков, меньших единицы, но математическое ожидание не существует). В работах О.Коши Р., носящее его имя, появилось в 1853 г. Р. Коши имеет отношение X /Y независимых случайных величин со стандартным нормальным Р.

Среди часто используемых в теории вероятностей дискретных Р. - Р. Бернулли, биномиальное Р. и Р. Пуассона.

Р. Бернулли называется любое распределение с двумя точками роста. Чаще всего используется Р. случайной величины X , принимающей значения 0 и 1 с вероятностями
q = 1 - p и p соответственно, где 0 < p < 1 - параметр. Первые формы закона больших чисел и центральной предельной теоремы были получены для случайных величин, имею-щих Р. Бернулли. Если на вероятностном пространстве (W, Ƒ , P) существует последова-тельность X 1 , X 2 ,… независимых случайных величин, принимающих значения 0 и 1 с вероятностями 1/2 каждое, то на этом вероятностном пространстве существует слчайная величина с равномерным Р. на (0, 1). В частности, случайная величина имеет равномерное распределение на (0, 1).

Биномиальным Р. с параметрами n и p , n - натуральное, 0 < p < 1, называется Р., с точками роста 0, 1,..., n , в которых сосредоточены вероятности C n k p k q n -k , k = 0, 1,…, n ,
q = 1 - p . Оно является Р. суммы n независимых случайных величин, имеющих Р. Бернулли с точками роста 0 и 1, в которых сосредоточены вероятности q и p . Изучение этого распределения привело Я.Бернулли к открытию закона больших чисел, а А.Муавра - к открытию центральной предельной теоремы.

Р. Пуассона называется Р., носитель которого - последовательность точек 0, 1,..., в которых сосредоточены вероятности l k e - l /k !, k = 0, 1,…, где l > 0 - параметр. Сумма двух независимых случайных величин, имеющих Р. Пуассона с параметрами l и m вновь имеет Р. Пуассона с параметром l + m. Р. Пуассона является предельным для Р. Бернулли с пара-метрами n и p = p (n ) при n ®¥, если n и p связаны соотношением np ®l при n ®¥ (теорема Пуассона). Если последовательность 0 < T 1 < T 2 < T 3 <… есть последовательность моментов времени, в которые происходят некоторые события (так. наз поток событий) и величины T 1 , T 2 -T 1 , T 3 - T 2 ,… являются независимыми одинаково распределенными случайными величинами и их общее Р. - экспоненциальное с параметром l > 0, то случайная величина X t , равная числу событий, наступивших на интервале (0, t ), имеет Р. Пуассона с параметром.lt (такой поток называется пуассоновским).

Понятие Р. имеет многочисленные обобщения, в частности, оно распространяется на многомерный случай и на алгебраические структуры.