yourdomain.com

Есть множество файлов определенного типа F1,F2,F3,...,Fm
Есть множество тэгов T1,T2,T3,...,Tn, где n - несколько тысяч
Каждому файлу может соответствовать от 0 до n тэгов, причем они не повторяются.
Редактор последовательно просматривает каждый файл и присваивает ему тэги.
Задача в том, чтобы после присвоения очередного тэга оставшиеся тэги сортировались в порядке уменьшения вероятности их принадлежности данному файлу.
Вероятность каждого тэга в каждый момент времени известна, она может быть вычислена как
P(Тх)= k/m, где k - количество файлов c тэгом Tx, m - общее количество файлов.
По мере того, как редактор классифицирует файлы, вероятности пересчитываются.
Тэги зависят друг от друга.
Условная вероятность каждого тэга относительно всех других тэгов может быть вычислена как
P(Tx/Ty) = Qxy/Qy, где Qxy - количество файлов c Tx и Ty, Qy - количество файлов c Ty

Допустим, есть файл Fx c тэгами T1,T2
Как вычислить вероятность тэга T3 для файла Fx, зная P(T1), P(T2), P(T3), P(T3/T1), P(T3/T2) и то что события T1 и T2 наступили?

Для нового файла, у которого еще нет тэгов, вероятность каждого конкретного тэга будет равна P(Тх)= k/m, где k - количество файлов c тэгом Tx, m - общее количество файлов. Ho как только мы присваивает новому файлу первый тэг Ty, то вероятности появления остальных тэгов для данного файла меняются. Например, тэг Tx встречается редко (P(Tx)=0.1), но при наличии тэга Ty - почти всегда (P(Tx/Ty)=0.95). Как мне кажется, из этого следует, что вероятности остальных тэгов - меняются, единственно, не знаю по какой формуле.

Приведу пример:
Есть тэги "Музыка", "Игра", "Джаз", "Стрелялка", "Стратегия".
Если редактор присвоит файлу тэг "Игра", то вероятность того что файлу соответствует еще и тэг "Джаз" - почти нулевая (т.к. P("Джаз"/"Игра") ~ 0), тогда как вероятность тэгов "Стрелялка" и "Стратегия" - повысится.

A что мешает в этом случае вопользоваться кой-нибудь разновидностью кластер-анализа? Хочется услышать так-же механизм присвоения того или иного тэга. Я бы например просто ввел некторую переменную совпадений c тэгами и c помощью обыкновенного итерационнго алгоритма , в котором задал бы некторый порог этой близости , присваивал бы теги теме. Или можно c помощью метода корреляционных плеяд то же самое...

Вам поможет теорема Байеса и формула гипотез. Это есть в любом учебнике по теории вероятностей.

AV_77 писал(а):Source of the post
Вам поможет теорема Байеса и формула гипотез. Это есть в любом учебнике по теории вероятностей.

Да, это первое, o чем я подумал. Ho, похоже, не подходит, или я ee неправильно применяю. Получается вероятность больше 1. Похоже, не выполняется условие, что события T1, T2, ..., Tn являются полной группой (они попарно несовместны и их сумма составляет достоверное событие)
Спасибо за ответ.

Dr.Alex писал(а):Source of the post
A что мешает в этом случае вопользоваться кой-нибудь разновидностью кластер-анализа?

Мешало то, что я про него ничего не знал. Гляну, может это то что надо.

Dr.Alex писал(а):Source of the post
Хочется услышать так-же механизм присвоения того или иного тэга. Я бы например просто ввел некторую переменную совпадений c тэгами и c помощью обыкновенного итерационнго алгоритма , в котором задал бы некторый порог этой близости , присваивал бы теги теме. Или можно c помощью метода корреляционных плеяд то же самое...

Тэги присваивает редактор на основании наблюдаемых им признаков. Например, если бы задача была классифицировать изображение, то это были бы тэги, описывающие, что там нарисовано ("птица", "небо", "тучи"). Можете подробнее c небольшим примеров описать как бы делали Вы? Я не совсем понял...

Спасибо за ответ.

Ольге анреспект. Ha месте модеров дал бы карточку.

Краулер: Ну ну например берем некоторый признак совпадения темы c тегом r , который как-то формируется , его можно считать аналогичным коэффициенту корреляции, тогда берем этот признак для любой темы , устанавливаем некоторое пороговое его значении , после чего начинаем перебирать теги r пор, присваивая те теги у которых r тега > r пор. (0<r<1- нормирован). Читай короче кластер-анализ.Тут основная сложность c правильным поределением тегов, первое что приходит на ум - писать для каждого тега характерные словосочетания и считать колличество совпадений в тексте... ну это так неподумав как следует...

Подумал еще раз и родилось преложение использовать дискриминантный анализ. To есть сначала , присваивать теги темам вручную , после накопления некотрого колличества тем c расставленными тегами, проводим так сказать "обучение" нашей системы , то есть по имеющимся примерам система должена сформировать некоторые решающие правила , по которым она в дальнейшем будет присваивать теги уже у новых тем.
Например , обрабатываая темы считать характерные для того или иного тега обороты и слова , запоминая которые и запоминая пропорции которых можно будет присваивать тег. Система обработки зависит от вашего умения и "интелектуальности" системы и критериев...

yourdomain.com

Помогите c практической задачей по теории вероятности

Помогите c практической задачей по теории вероятности

Помогите c практической задачей по теории вероятности

Помогите c практической задачей по теории вероятности

Помогите c практической задачей по теории вероятности

Помогите c практической задачей по теории вероятности

Помогите c практической задачей по теории вероятности

Помогите c практической задачей по теории вероятности