Ну вот и подходит срок... Завтра на работе выступаю с докладом про теорию вероятностей... Они ещё не знают, какую подлянку я им устроил! Ибо достали уже. Вчера я дважды репетировал выступление, два часа на улице, пока выгуливал детей, и час дома тренировался на жене перед сном (а она всё засыпала)... Надеюсь всё же, что завтра слушатели не заснут.
Итак, первую часть доклада здесь выкладывать нет никакого смысла, действительно строго про теорвер только. Зато вот вторая часть... прелюбопытнейшая. Итак:
Лирическое отступление.
Использование теории вероятностей для решаемых задач в данных примерах носит чисто номинальный характер. То есть, мы здесь конечно оперируем терминами из теории вероятностей, и в начале всех вычислений подводим некоторый базис под правомерность использования тех или иных методов. Но далее вступает в действие просто математический аппарат, которому в общем случае совершенно безразлично, что именно обрабатывается – данные для теории вероятностей, или для дифференциальных уравнений.
К тому же, изначально теория вероятностей разрабатывалась как всего лишь удобный математический аппарат для исследования имеющихся статистических данных.
(Тут стоит вспомнить, что данные бывают трёх основных видов – ложь, наглая ложь и статистика).
В настоящее же время гораздо больше используется другой аппарат для исследования тех же данных – DATA MINING. Суть его вкратце в том, что этот аппарат позволяет исследовать данные, почти ничего не зная о природе и взаимосвязях процессов, и данные при этом могут быть разнородными, а в теории вероятностей обычно исследуют однородные данные. Но конечно же, этот метод массово использует методы обычной теории вероятностей.
К сожалению, большинство пользователей привыкли к тому, что сам DATA MINING изначально позиционируется как обработка очень больших объемов данных. Но это не так, иногда всё необходимое получается из мизерных объёмов исходной информации. Так же, к сожалению, пользователи привыкли к тому, что для использования этого метода (имея в виду закупленный программный продукт), не нужно иметь никакого образования выше маркетингового, но это в корне неверно.
То есть, на самом деле DATA MINING – это комплекс взаимодействий между некоторым объёмом данных, и некоторым объёмом исходных знаний. Чем больше имеется (структурированных) исходных данных, тем меньше знаний необходимо для получения нужной информации. И наоборот, чем меньше исходных данных, тем больше сторонних знаний надо привлечь.
Итак, что может дать этот метод, и как он вообще работает.
продолжение в комментариях