Помогите c практической задачей по теории вероятности
Добавлено: 21 авг 2008, 07:47
Есть множество файлов определенного типа F1,F2,F3,...,Fm
Есть множество тэгов T1,T2,T3,...,Tn, где n - несколько тысяч
Каждому файлу может соответствовать от 0 до n тэгов, причем они не повторяются.
Редактор последовательно просматривает каждый файл и присваивает ему тэги.
Задача в том, чтобы после присвоения очередного тэга оставшиеся тэги сортировались в порядке уменьшения вероятности их принадлежности данному файлу.
Вероятность каждого тэга в каждый момент времени известна, она может быть вычислена как
P(Тх)= k/m, где k - количество файлов c тэгом Tx, m - общее количество файлов.
По мере того, как редактор классифицирует файлы, вероятности пересчитываются.
Тэги зависят друг от друга.
Условная вероятность каждого тэга относительно всех других тэгов может быть вычислена как
P(Tx/Ty) = Qxy/Qy, где Qxy - количество файлов c Tx и Ty, Qy - количество файлов c Ty
Допустим, есть файл Fx c тэгами T1,T2
Как вычислить вероятность тэга T3 для файла Fx, зная P(T1), P(T2), P(T3), P(T3/T1), P(T3/T2) и то что события T1 и T2 наступили?
Для нового файла, у которого еще нет тэгов, вероятность каждого конкретного тэга будет равна P(Тх)= k/m, где k - количество файлов c тэгом Tx, m - общее количество файлов. Ho как только мы присваивает новому файлу первый тэг Ty, то вероятности появления остальных тэгов для данного файла меняются. Например, тэг Tx встречается редко (P(Tx)=0.1), но при наличии тэга Ty - почти всегда (P(Tx/Ty)=0.95). Как мне кажется, из этого следует, что вероятности остальных тэгов - меняются, единственно, не знаю по какой формуле.
Приведу пример:
Есть тэги "Музыка", "Игра", "Джаз", "Стрелялка", "Стратегия".
Если редактор присвоит файлу тэг "Игра", то вероятность того что файлу соответствует еще и тэг "Джаз" - почти нулевая (т.к. P("Джаз"/"Игра") ~ 0), тогда как вероятность тэгов "Стрелялка" и "Стратегия" - повысится.
Есть множество тэгов T1,T2,T3,...,Tn, где n - несколько тысяч
Каждому файлу может соответствовать от 0 до n тэгов, причем они не повторяются.
Редактор последовательно просматривает каждый файл и присваивает ему тэги.
Задача в том, чтобы после присвоения очередного тэга оставшиеся тэги сортировались в порядке уменьшения вероятности их принадлежности данному файлу.
Вероятность каждого тэга в каждый момент времени известна, она может быть вычислена как
P(Тх)= k/m, где k - количество файлов c тэгом Tx, m - общее количество файлов.
По мере того, как редактор классифицирует файлы, вероятности пересчитываются.
Тэги зависят друг от друга.
Условная вероятность каждого тэга относительно всех других тэгов может быть вычислена как
P(Tx/Ty) = Qxy/Qy, где Qxy - количество файлов c Tx и Ty, Qy - количество файлов c Ty
Допустим, есть файл Fx c тэгами T1,T2
Как вычислить вероятность тэга T3 для файла Fx, зная P(T1), P(T2), P(T3), P(T3/T1), P(T3/T2) и то что события T1 и T2 наступили?
Для нового файла, у которого еще нет тэгов, вероятность каждого конкретного тэга будет равна P(Тх)= k/m, где k - количество файлов c тэгом Tx, m - общее количество файлов. Ho как только мы присваивает новому файлу первый тэг Ty, то вероятности появления остальных тэгов для данного файла меняются. Например, тэг Tx встречается редко (P(Tx)=0.1), но при наличии тэга Ty - почти всегда (P(Tx/Ty)=0.95). Как мне кажется, из этого следует, что вероятности остальных тэгов - меняются, единственно, не знаю по какой формуле.
Приведу пример:
Есть тэги "Музыка", "Игра", "Джаз", "Стрелялка", "Стратегия".
Если редактор присвоит файлу тэг "Игра", то вероятность того что файлу соответствует еще и тэг "Джаз" - почти нулевая (т.к. P("Джаз"/"Игра") ~ 0), тогда как вероятность тэгов "Стрелялка" и "Стратегия" - повысится.