Алгоритм mars майнинг

Дополнительные темы:

  1. Виды распределений случайных величин и проверка гипотез о распределении данных.
  2. Анализ взаимосвязей (корреляций) между переменными — коэффициенты корреляции Пирсона, Спирмена и Кендалла.
  3. Сравнение групп — критерии Стьюдента, Манна — Уитни и дисперсионный анализ (ANOVA).
  1. Постановка задач, ключевые понятия и определения.
  2. Модуль Деревья классификации и регрессии: графическое представление результатов, анализ важности предикторов, методика построения моделей, параметры качества построенных моделей, разделение данных на обучающую и контрольную выборки, метод кросс-валидации.
  3. Другие методики построения деревьев: Общие CHAIDмодели, Растущие деревья класификации и регрессии (Boosted trees), модуль Случайные леса (Random forests).
  4. Метод опорных векторов (SVM), понятие оптимальной разделяющей гиперплоскости.
  5. Вероятностный подход к решению задачи классификации, модуль Наивные Байесовские классификаторы.
  6. Построение непараметрической регрессионной зависимости, модуль Обобщённые аддитивные модели (GAM).
  7. Решение задачи регрессии методами сплайновой подгонки,модуль Многомерные адаптивные регрессионные сплайны (MARS).
  8. Сравнение качества построенных моделей при помощи модуля Качество подгонки (Goodness of fit), визуальное сравнение моделей — лифтовые диаграммы (lift charts) и карты выигрышей (gain charts).
  9. Совместное использование построенных моделей: бустинг (boosting) и создание ансамблей (bagging).
  10. Применение построенных моделей на новых данных при помощи модуля Быстрые прогнозирующие модели (Rapid Deployment), «голосование» среди моделей.

Дополнительные темы:

  1. Классические методы регрессионного анализа: множественная и логистическая регрессии, выбор переменных для анализа, критерий Акаике.
  2. Многомерное нормальное распределение, дискриминантный анализ Фишера.
  3. Анализ цензурированных данных, модуль Анализ выживаемости.
  1. Задача кластеризации: постановка задачи, ключевые понятия и определения, метод k-средних и EM-алгоритм.
  2. Задача понижения размерности: постановка задачи, проблема проклятия размерности, метод независимых компонент (independent component analysis).
  3. Модуль Нейронные сети (Neural networks): методология нейросетевого подхода в решении статистических задач, структура многослойных сетей, выбор сложности и архитектуры сети.
  4. Поиск информации в текстовых данных, модуль Добыча текста (Text & Document mining)
  5. Автоматизация анализа данных, генерирование автоматических отчётов: средства Data Miner Workspace и Data Miner Recipes.
  6. Совместное использование рассмотренных методов анализа данных.
  7. Деление методов анализа данных на параметрические, непараметрические и семипараметрические методы, преимущества и недостатки рассмотренных моделей.
  8. Подведение итогов.

Дополнительные темы:

Источник