Связь между количеством переменных и факторов в методе главных компонент
Метод главных компонент (Principal Component Analysis, PCA) используется для уменьшения размерности данных, сохраняя при этом как можно больше информации. Он преобразует исходные коррелированные переменные в набор некоррелированных переменных — главных компонент.
Количество переменных и главные компоненты
При выполнении PCA количество главных компонент не превышает количества исходных переменных. Главные компоненты представляют собой линейные комбинации исходных переменных и упорядочены по величине объясняемой дисперсии. Полное количество главных компонент обычно равно меньшему из количества наблюдений и числа переменных, т.е., если у вас есть матрица данных с n переменными и m наблюдениями, максимальное число главных компонент составляет min(n, m).
Выбор количества факторов
В выборке PCA выбирается такое количество главных компонент, которое объясняет существенную долю суммарной дисперсии. Часто используется критерий Кайзера, который предлагает учитывать компоненты с собственными значениями больше единицы. Другая популярная техника — это график осыпания, который помогает визуально определить такую точку, после которой добавление новых компонентов не приводит к значительным улучшениям.
Таким образом, количество факторов в PCA чаще всего определяется эмпирически в зависимости от задачи и требований анализа.
Литература и исследования
Данные подходы описаны в работе Большой российской энциклопедии и презентации NAFI. Статья на Хабр также дает исчерпывающее понимание работы метода в контексте факторного анализа.
Метод главных компонент является основным инструментом в анализе данных, особенно полезным для решения задач высокой размерности.
Категория: Статистика
Теги: анализ данных, метод главных компонент, факторный анализ