Этот сайт лучше всего просматривать в современном браузере с включённым JavaScript.

Есть ли связь между переменными и факторами в PCA?

PolinaS

Связь между количеством переменных и факторов в методе главных компонент

Метод главных компонент (Principal Component Analysis, PCA) используется для уменьшения размерности данных, сохраняя при этом как можно больше информации. Он преобразует исходные коррелированные переменные в набор некоррелированных переменных — главных компонент.

Количество переменных и главные компоненты

При выполнении PCA количество главных компонент не превышает количества исходных переменных. Главные компоненты представляют собой линейные комбинации исходных переменных и упорядочены по величине объясняемой дисперсии. Полное количество главных компонент обычно равно меньшему из количества наблюдений и числа переменных, т.е., если у вас есть матрица данных с n переменными и m наблюдениями, максимальное число главных компонент составляет min(n, m).

Выбор количества факторов

В выборке PCA выбирается такое количество главных компонент, которое объясняет существенную долю суммарной дисперсии. Часто используется критерий Кайзера, который предлагает учитывать компоненты с собственными значениями больше единицы. Другая популярная техника — это график осыпания, который помогает визуально определить такую точку, после которой добавление новых компонентов не приводит к значительным улучшениям.

Таким образом, количество факторов в PCA чаще всего определяется эмпирически в зависимости от задачи и требований анализа.

Литература и исследования

Данные подходы описаны в работе Большой российской энциклопедии и презентации NAFI. Статья на Хабр также дает исчерпывающее понимание работы метода в контексте факторного анализа.

Метод главных компонент является основным инструментом в анализе данных, особенно полезным для решения задач высокой размерности.

Категория: Статистика

Теги: анализ данных, метод главных компонент, факторный анализ