1. Базовые статистические алгоритмы
- Z-оценка (Z-score): Классический метод, определяющий норму в стандартных отклонениях от среднего. Применим только к нормально распределенным данным. При пороге 3.0 отсекается около 0.3% крайних значений.
- Множитель Тьюки (IQR): Метод межквартильного размаха («ящик с усами»). Устойчив к выбросам и не требует нормального распределения. Значение 1.5 отсекает умеренные выбросы, 3.0 — экстремальные.
2. Многомерные методы (Machine Learning)
- Расстояние Махаланобиса: Оценивает удаленность точки от центра распределения с учетом ковариации признаков. Находит респондентов с нестандартными комбинациями ответов. (Rousseeuw, P. J., & Van Zomeren, A. C., 1990)
- Isolation Forest (Изолирующий лес): Строит случайные деревья решений. Аномалии изолируются за меньшее число шагов (ближе к корню). В режиме Auto алгоритм использует математический порог длины пути <0.5. (Liu, F. T., Ting, K. M., & Zhou, Z. H., 2008)
- Local Outlier Factor (LOF): Метод на основе плотности. Сравнивает локальную плотность данных вокруг респондента с плотностью его соседей. Полезен, когда кластеры нормы имеют разную плотность. (Breunig, M. M. et al., 2000)
- DBSCAN: Алгоритм кластеризации. Все профили, которые не смогли объединиться в плотные группы (заданные радиусом Epsilon), помечаются как аномальный шум. (Ester, M. et al., 1996)
3. Непараметрические методы
Современные подходы, устойчивые к размерности (проклятие размерности) и не требующие настройки параметров зараженности:
- COPOD (Copula-Based Outlier Detection): Оценивает аномальность на основе вероятностей совместного распределения признаков. Идеален для поиска редких сочетаний ответов в анкетах без предположения о нормальности. (Li, Z. et al., 2020. "COPOD: Copula-Based Outlier Detection")
- ECOD (Empirical Cumulative Distribution): Оценивает "хвосты" эмпирических распределений по каждой шкале независимо. Метод быстр, прозрачен и дает высокую точность. (Li, Z. et al., 2022. "ECOD: Unsupervised Outlier Detection Using Empirical Cumulative Distribution Functions")
4. Ансамблирование (Majority Vote)
Одиночные алгоритмы машинного обучения склонны к ошибкам на малых выборках. Стратегия ансамблирования (голосования) предполагает запуск 3–5 разных по своей математической логике методов (например, IQR, IForest и COPOD). Если порог голосов равен 2, то респондент исключается только в том случае, если минимум 2 алгоритма одновременно сочли его ответы аномальными.
Пример описания очистки данных для публикации:
"Для выявления многомерных аномалий и обеспечения робастности статистического вывода применялся алгоритм мажоритарного голосования (Majority Vote Ensemble). Данные обрабатывались параллельно с помощью методов Isolation Forest (режим auto-contamination; Liu et al., 2008), ECOD (Li et al., 2022) и оценки дистанции Махаланобиса. Профиль респондента исключался из итоговой выборки только при получении метки выброса минимум от двух независимых алгоритмов одновременно. В результате процедуры фильтрации было исключено [N] наблюдений."