Алгоритм mars майнинг
Дополнительные темы:
- Виды распределений случайных величин и проверка гипотез о распределении данных.
- Анализ взаимосвязей (корреляций) между переменными — коэффициенты корреляции Пирсона, Спирмена и Кендалла.
- Сравнение групп — критерии Стьюдента, Манна — Уитни и дисперсионный анализ (ANOVA).
- Постановка задач, ключевые понятия и определения.
- Модуль Деревья классификации и регрессии: графическое представление результатов, анализ важности предикторов, методика построения моделей, параметры качества построенных моделей, разделение данных на обучающую и контрольную выборки, метод кросс-валидации.
- Другие методики построения деревьев: Общие CHAIDмодели, Растущие деревья класификации и регрессии (Boosted trees), модуль Случайные леса (Random forests).
- Метод опорных векторов (SVM), понятие оптимальной разделяющей гиперплоскости.
- Вероятностный подход к решению задачи классификации, модуль Наивные Байесовские классификаторы.
- Построение непараметрической регрессионной зависимости, модуль Обобщённые аддитивные модели (GAM).
- Решение задачи регрессии методами сплайновой подгонки,модуль Многомерные адаптивные регрессионные сплайны (MARS).
- Сравнение качества построенных моделей при помощи модуля Качество подгонки (Goodness of fit), визуальное сравнение моделей — лифтовые диаграммы (lift charts) и карты выигрышей (gain charts).
- Совместное использование построенных моделей: бустинг (boosting) и создание ансамблей (bagging).
- Применение построенных моделей на новых данных при помощи модуля Быстрые прогнозирующие модели (Rapid Deployment), «голосование» среди моделей.
Дополнительные темы:
- Классические методы регрессионного анализа: множественная и логистическая регрессии, выбор переменных для анализа, критерий Акаике.
- Многомерное нормальное распределение, дискриминантный анализ Фишера.
- Анализ цензурированных данных, модуль Анализ выживаемости.
- Задача кластеризации: постановка задачи, ключевые понятия и определения, метод k-средних и EM-алгоритм.
- Задача понижения размерности: постановка задачи, проблема проклятия размерности, метод независимых компонент (independent component analysis).
- Модуль Нейронные сети (Neural networks): методология нейросетевого подхода в решении статистических задач, структура многослойных сетей, выбор сложности и архитектуры сети.
- Поиск информации в текстовых данных, модуль Добыча текста (Text & Document mining)
- Автоматизация анализа данных, генерирование автоматических отчётов: средства Data Miner Workspace и Data Miner Recipes.
- Совместное использование рассмотренных методов анализа данных.
- Деление методов анализа данных на параметрические, непараметрические и семипараметрические методы, преимущества и недостатки рассмотренных моделей.
- Подведение итогов.
Дополнительные темы: