Вероятность определённой последовательности

Dolly
Сообщений: 66
Зарегистрирован: 27 фев 2016, 00:06
Откуда: Иерусалимский университет

Вероятность определённой последовательности

Сообщение Dolly » 10 окт 2019, 14:14

Здраствуйте. При разборе этой задачи возник у меня вопрос, который сейчас оформился в самостоятельную задачу.
Предположим, что игральную кость бросают много раз, скажем, 200. Какова вероятность, что хотя бы раз выпадет последовательность 1,2,3,4,5,6 ?
Как подступиться к такой задаче?

zykov
Сообщений: 1393
Зарегистрирован: 06 янв 2016, 17:41

Вероятность определённой последовательности

Сообщение zykov » 10 окт 2019, 19:05

Dolly писал(а):Source of the post Как подступиться к такой задаче?
Посчитать количество подходящих вариантов и поделить на $6^{200}$.

Думаю, что точно это не выразить в простой форме.
А вот приближенно оценить это не сложно. Учитывая, что вероятность выпадение такой последовательности начиная с первого элемента равна $\frac{1}{6^6} \approx 2.14 \cdot 10^{-5}$ - т.е. велична очень маленькая, можно отбросить более высокие порядки (выпадение последовательности более одного раза). Тогда приближенная оценка итоговой вероятности (195 случаев объедененных по "или") будет $\frac{195}{6^6} \approx 0.00418$ ($0.42\%$).
Это оценка сверху.

Dolly
Сообщений: 66
Зарегистрирован: 27 фев 2016, 00:06
Откуда: Иерусалимский университет

Вероятность определённой последовательности

Сообщение Dolly » 10 окт 2019, 21:19

zykov писал(а):195 случаев объедененных по "или"
zykov
А Вы можете расшифровать эту фразу? Не поняла.

zykov
Сообщений: 1393
Зарегистрирован: 06 янв 2016, 17:41

Вероятность определённой последовательности

Сообщение zykov » 10 окт 2019, 22:03

Последовательность "начинается с 1" или "начинается с 2" или "начинается с 3" или ... или "начинается с 194" или "начинается с 195".
(Ещё раз повторю, что сумма этих вероятностей равна нужной вероятности не точно, а приближенно, т.к. события не являются независимыми.)

Аватар пользователя
Ian
Сообщений: 960
Зарегистрирован: 18 янв 2016, 19:42

Вероятность определённой последовательности

Сообщение Ian » 11 окт 2019, 09:10

1) мне кажется, формула включений-исключений тут в лоб не идет, если знаете как -покажите.
2) однако рекуррентность 6-го порядка тут, кажется, возможна.Используем то, что 123456 не имеет в конце начала самой себя.
Обозначим [math] вероятность наличия хоть одной "123456" в последовательности n бросаний.
Все последовательности n бросаний разобьем на 2 непересекающиеся группы -начинающиеся с 1 и иные Вероятность иных, годящихся нам [math] . Среди начинающихся с 1 опять 2 случая -продолжаются 2-кой или иные. Тут вероятность иных, но годящихся нам опять известна [math], прем дальше...

zykov
Сообщений: 1393
Зарегистрирован: 06 янв 2016, 17:41

Вероятность определённой последовательности

Сообщение zykov » 11 окт 2019, 11:43

И что получается?

Например вот это:
При $n<6$ будет $p_n=0$.
При $n \geq 6$ будет $p_n=5(6^{-1}p_{n-1}+6^{-2}p_{n-2}+6^{-3}p_{n-3}+6^{-4}p_{n-4}+6^{-5}p_{n-5})+6^{-6}$.
Это неверно. Это грубая оценка снизу. ($p_{200} \approx 0.345\%$)

В этой формуле не все случаи учтены (например первый элемент равен 1, но последовательность начинается не с первого элемента).
А если попробовать учесть все случаи, то сложно избавится от двойного учёта (когда например одна и та же последовательность учтена несколько раз - в $p_{n-1}$ и в $p_{n-2}$).
Последний раз редактировалось zykov 11 окт 2019, 12:05, всего редактировалось 2 раз.

zykov
Сообщений: 1393
Зарегистрирован: 06 янв 2016, 17:41

Вероятность определённой последовательности

Сообщение zykov » 11 окт 2019, 12:04

Вообще:
При $n<6$ будет $p_n=0$.
При $6 \leq n < 12$ будет $p_n=(n-5)6^{-6}$.
Дальше сложнее.
$p_{12}=(12-5)6^{-6}-6^{-12}$
И так далее, с каждым шагом сложнее.

Точный ответ будет имееть сложную форму. Но как я ранее писал, пока $n \ll 6^6 = 46656$, ответ хорошо оценивается как $(n-5)6^{-6}$.

Аватар пользователя
Ian
Сообщений: 960
Зарегистрирован: 18 янв 2016, 19:42

Вероятность определённой последовательности

Сообщение Ian » 11 окт 2019, 13:21

Ответ стремится к 1. И даже интересно, что это за формула, где ответ стремится к 1
Похожие задачи были в "Конкретной математике" но не могу найти. Рекуррентная формула и производящая функция чисел [math] (это не распределение вероятностей!) точно есть какие-то

zykov
Сообщений: 1393
Зарегистрирован: 06 янв 2016, 17:41

Вероятность определённой последовательности

Сообщение zykov » 11 окт 2019, 13:33

Ian писал(а):Source of the post И даже интересно, что это за формула, где ответ стремится к 1

Ну можно взять другую оценку - через "И": $p_n \approx 1-(1-6^{-6})^{n-5}$.
Она и при $n=200$ неплохо даёт. А при больших $n$ даёт правильную асимптотику.

Аватар пользователя
Ian
Сообщений: 960
Зарегистрирован: 18 янв 2016, 19:42

Вероятность определённой последовательности

Сообщение Ian » 11 окт 2019, 14:07

Ну ведь с точки зрения человека сидящего и просматривающего последовательность слева направо все ясно. он может находиться только в 6 состояниях: ждет начала комбинации, 1цу; только что была 1ца. ждет 2ки; ...только что было 12345, ждет 6, или перейдет в состояние 0 с вер 2/3, или в состояние 1 с вер 1/6.
таким образом строка из 6ти вероятностей состояний по-марковски пересчитывается только через предыдущую. Ну у меня это ексель делает за секунду. Получилось 0,004171289<[math]

Код: Выбрать все

n   pn(0)   pn(1)   pn(2)   pn(3)   pn(4)   pn(5)
0            0   0   0   0   0   0
1   0   0   0   0   0   0,166666667
2   0   0   0   0   0,027777778   0,166666667
3   0   0   0   0,00462963   0,027777778   0,166666667
4   0   0   0,000771605   0,00462963   0,027777778   0,166666667
5   0   0,000128601   0,000771605   0,00462963   0,027777778   0,166666667
6   2,14335E-05   0,000150034   0,000793038   0,004651063   0,027799211   0,1666881

......
199   0,004149942   0,004278023   0,00491841   0,008760655   0,031813629   0,170128509
200   0,004171289   0,004299367   0,004939741   0,008781903   0,031834383   0,170146298


За n бросаний [math]равно последней координате 7-мерного вектора
[math]
, соответствующего вероятности попадания в поглощающее состояние 6

zykov
Сообщений: 1393
Зарегистрирован: 06 янв 2016, 17:41

Вероятность определённой последовательности

Сообщение zykov » 11 окт 2019, 17:55

Действительно, Марковские процессы тут подходят.
И точный ответ выражается в виде степени матрицы 7x7.

zykov
Сообщений: 1393
Зарегистрирован: 06 янв 2016, 17:41

Вероятность определённой последовательности

Сообщение zykov » 11 окт 2019, 18:07

Maxima даже выдала точный ответ:

Код: Выбрать все

49455865799704940506821264626539171368699137079061080677701284300232222955810860691117054263203303596926497244617241443485895725320102191217768409090323 / 11856256217000761133249302542188159231749687370958039708207752192642025820822770528307559426132141591578133762963225828637624034458822090066222655331106816

примерно 0.00417129

zykov
Сообщений: 1393
Зарегистрирован: 06 янв 2016, 17:41

Вероятность определённой последовательности

Сообщение zykov » 11 окт 2019, 19:05

У матрицы 7x7 собственные значения: 1, 0.9999786 и ещё пять (одно действительное и две пары комплексных) с модулем менее 0.12.
При возведении в степень 200 только первые два будут иметь сколько-нибудь значимую величину.
1 соответствует тому, что сумма вероятностей сохраняется (всегда равна 1).
0.9999786 близко к $1-6^{-6}$, но оно немного отличается.
Все эти собственные значения являются точными корнями полинома $-x^7+2x^6-x^5-x/46656+1/46656=0$.
Если туда подставить $1-6^{-6}$, то будет маленькое значение (примерно $5\cdot10^{-14}$), но не ноль.

zykov
Сообщений: 1393
Зарегистрирован: 06 янв 2016, 17:41

Вероятность определённой последовательности

Сообщение zykov » 11 окт 2019, 19:29

zykov писал(а):Source of the post А при больших $n$ даёт правильную асимптотику.

Тут я немного погорячился. Асимптотика качественно правильная и даже довольно точная, но имеет небольшую ошибку.
Точная асимптотика: $1-k \lambda^n$, где $k \approx 1.000107193$ находится через собственные вектора.
А $\lambda$ - это корень полинома $-x^7+2x^6-x^5-x/46656+1/46656=0$ чуть меньше 1 (примерно равен $1-6^{-6}$).

Dolly
Сообщений: 66
Зарегистрирован: 27 фев 2016, 00:06
Откуда: Иерусалимский университет

Вероятность определённой последовательности

Сообщение Dolly » 12 окт 2019, 18:46

Я даже не подозревала о таких глубинах в этой задаче. Я и четверти всего написанного не поняла с первого раза. Щас сижу, врубаюсь.
Спасибо всем. Если появятся вопросы, задам.

zykov
Сообщений: 1393
Зарегистрирован: 06 янв 2016, 17:41

Вероятность определённой последовательности

Сообщение zykov » 12 окт 2019, 20:11

Элементарными методами эта задача не решается (только если приближенно).
Но как Ian заметил, это классический случай Марковских цепей.
Марковские процессы - это мощный инструмент. Обычно эту тему кратко затрагивают в конце курса по теорверу.

В данном случае можно рассмотреть конечный автомат с 7 состояниями, которому на вход подают последовтельность цифр (каждая от 1 до 6).
(В компьютерной области такое называют парсер, как например регулярные выражения в качестве частного случая парсера.)
Вначале автомат находится в состянии 1.
При получении нового входа он переходит из текущего состояния в новое (возможно тоже самое) в соответствии с таблицей (графом автомата).
Так из состояния 1 он переходит в состояние 2, если вход был "1". Иначе остается в состоянии 1.
Из состояния 2 переходит в состояние 3 при входе "2" или в состояние 2 (остается в нём) при входе "1". Иначе переходит в состояние 1.
Из 3 в 4 по входу "3", в 2 по входу "1", в 1 по остальным входам.
Аналогично для состояний 4 и 5.
Из состояния 6 переходит в 7 по входу "6", в 2 по входу "1", в 1 по любому другому входу.
Из состояния 7 всегда переходит обратно в 7 независимо от входа.

Переход в состояние 7 означает что автомат распознал последовательность "123456". После этого автомат остается в этом состоянии.
Таким образом, если автомат оказался в состянии 7 после 200 входов, значит где-то он встретил последовательность "123456" во время этих 200 входов. Если он оказался в любом другом состоянии, то такой последовательности не было.

Теперь рассмотрим вероятности.
Вначале автомат был в состоянии 1 с вероятность 100% процентов.
После первого входа он может перейти в состояние 2 с вероятность 1/6 или остатся в 1 с вероятностью 5/6.
Далее, если он был в состянии 1, будет тоже самое. Если он был в состоянии 2, то он может перейти в состоние 3 с вероятностью 1/6, остатся в 2 с вероятность 1/6 или перейти в 1 с вероятностью 4/6.
И так далее.

Вобщем если перед новым входом автомат имел распределение вероятностей по состониям $(p_1, p_2, p_3, p_4, p_5, p_6, p_7)$ (их сумма равна 1), то после получения нового входа (где все 6 вариантов имеют одинаковую вероятность, независимую от состояния автомата) вектор нового распределения вероятностей по состояниям автомата получается умножением строки-вектора старых вероятностей справа на матрицу, которую привел Ian.
Если взять вектор $(1, 0, 0, 0, 0, 0, 0)$ и умножить его на эту матрицу 200 раз (или 1 раз на эту матрицу в степени 200), то получим вектор веротностей найти автомат в каждом из его 7 состояний после 200 входов. Вероятность $p_7$ - это вероятность того, что автомат где-то встретил последовательность "123456".

Аватар пользователя
Ian
Сообщений: 960
Зарегистрирован: 18 янв 2016, 19:42

Вероятность определённой последовательности

Сообщение Ian » 24 фев 2020, 09:33

Меня тут спросили какие задачи можно предложить на олимпиаду топовым IT-студентам, чтобы не были решены в сети, я сразу подумал про эту. Но для этого она должна стать досчитываемой до точного ответа. Сделал дауншифт с 6 исходов до 3, типа корни уравнения 3й степени всегда есть явные.Но и там непросто
Задача. В алфавите три буквы А,В,С выбираемые с вероятностями [math]. Рассматривается случайное слово длины N>2. Найти компактную формулу для вероятности, что в слове есть подслово АВС(7 баллов) Или хотя бы предложить линейный по N алгоритм вычисления этой вероятности (3 балла)

Решение для [math]

Для n+1-го символа слова рассмотрим состояния после просмотра n символов: P - комбинации АВС еще не встречалось, последняя буква не А, последние 2 буквы не АВ; Q-комбинации АВС еще не встречалось, последняя буква А, R-комбинации АВС еще не встречалось, последние 2 буквы АВ, S -комбинация АВС встретилась среди предыдущих n букв. Это полная система непересекающихся гипотез. Обозначим их вероятности [math].

По формулам полной вероятности[math]

При n=0 очевидно [math]

Подстановкой сводим к одному рекуррентному уравнению [math]

[math]

Любое [math], где [math] кубического уравнения, автоматически удовлетворяет этому рекуррентному уравнению. И оно с данными 3-мя начальными условиями имеет единственное решение. Так как корней теоретически три, [math], то [math],где все С найдутся из подстановки n=0,1,2

По формуле Кардано https://studwork.org/spravochnik/matematika/reshenie-uravneniy-3-y-i-4-y-stepeni

[math]

Разделив как-то с приближенными числами кубическое уравнение на [math] , получим квадратное уравнение с комплексными корнями[math]

Естественно, действительные н.у и действительные коэффициенты гарантируют, что [math], будет действительно, а [math] комплексные, но такие, что действительным будет [math]

Ответом задачи будет [math]
Проблема: подобрать [math] так, чтобы решение выразилось с помощью рациональных чисел, тогда ответ красив

Вторая попытка
Задача. В алфавите три буквы А,В,С выбираемые с вероятностями [math]. Рассматривается случайное слово длины N>2. Найти компактную формулу для вероятности, что в слове есть подслово АВС(7 баллов)Найти линейный алгоритм нахождения этой вероятности (3 балла)

Решение

Для n+1-го символа слова рассмотрим состояния после просмотра n символов: P - комбинации АВС еще не встречалось, последняя буква не А, последние 2 буквы не АВ; Q-комбинации АВС еще не встречалось, последняя буква А, R-комбинации АВС еще не встречалось, последние 2 буквы АВ, S -комбинация АВС встретилась среди предыдущих n букв. Это полная система непересекающихся гипотез. Обозначим их вероятности [math].

По формулам полной вероятности[math]

При n=0 очевидно [math]

Подстановкой сводим к одному рекуррентному уравнению[math]

[math]

Это и есть почти полный алгоритм (см в конце)Продолжаем искать компактную формулу

Любое [math], где [math]- корень кубического уравнения, автоматически удовлетворяет этому рекуррентному уравнению. И оно с данными 3-мя начальными условиями имеет единственное решение. Так как корней теоретически три, [math], то [math],где все С найдутся из подстановки n=0,1,2

Решаем кубическое уравнение по методу Кардано. Сначала вводим [math]

Получаем (*)[math]

Используем обозначение (**)[math]
[math]
Формула Кардано [math]
Иррациональность корня исчезает, когда можно представить[math], где [math] рациональны
[math]
....

Получим корень [math]

Ответом задачи будет [math]

(это кстати и окончание алгоритма)

zykov
Сообщений: 1393
Зарегистрирован: 06 янв 2016, 17:41

Вероятность определённой последовательности

Сообщение zykov » 24 фев 2020, 15:54

Ian писал(а):Source of the post Найти линейный алгоритм нахождения этой вероятности

Если под линейным алгоритмом имелось ввиду возведение матрицы в степень, то там всё намного проще.
Например $M^{200}=(M^{100})^2$, $M^{100}=(M^{50})^2$ и т.д.
Учитывая, что $200=5^2 2^3$, то нужно всего 9 умножений матриц - 3 возведения в квадрат и два раза возведение в 5 степень (на каждое по 3 умножения - 2 раза возведение в квадрат и ещё одно умножение на исходную матрицу).

zykov
Сообщений: 1393
Зарегистрирован: 06 янв 2016, 17:41

Вероятность определённой последовательности

Сообщение zykov » 24 фев 2020, 16:16

Ian писал(а):Source of the post какие задачи можно предложить на олимпиаду топовым IT-студентам

Мне кажется, что это типовая задача на цепи Маркова. А типовая задача не очень подходит для олимпиады.
Если же студенты не изучали цепи Маркова, то предлагать им изобрести их - как-то жестко...

Аватар пользователя
Ian
Сообщений: 960
Зарегистрирован: 18 янв 2016, 19:42

Вероятность определённой последовательности

Сообщение Ian » 24 фев 2020, 20:33

zykov писал(а):
Ian писал(а):Source of the post Найти линейный алгоритм нахождения этой вероятности

Если под линейным алгоритмом имелось ввиду возведение матрицы в степень, то там всё намного проще.

Нет конечно линейный значит рекуррентный расчет, число операций линейно по N.
То что Вы говорите может быть реализовано за число операций логарифмическое по N. Хоть нахождение степени матрицы, хоть степеней характеристических корней. А полный перебор экспоненциальный конечно. И я подумал что именно так вопросы поставить интересно, нашел линейный (рекуррентное уравнение) получил 3 балла, нашел формулу (и возможность найти ответ за C*lnN) получил еще 7.
По формулировке - задача должна входить в 100 самых фундаментальных задач теории вероятностей, быть во всех учебниках, а почему в России еще не вошла - потому что не все знают решение. В "Конкретной математике", гл. 8.4, учат получать компактный вид производящих функций чисел [math], но именно эту задачу- не разбирают.
Но кто прочел главу- конечно решит и эту.


Вернуться в «Математика»

Кто сейчас на форуме

Количество пользователей, которые сейчас просматривают этот форум: нет зарегистрированных пользователей и 15 гостей