Матричная постановка задачи для метода главных компонент

Метод главных компонент (Principal Component Analysis, PCA) позволяет снизить размерность данных, выделив наиболее значимые факторы. Матричная постановка задачи в PCA начинается с следующих шагов:

  1. Центрирование данных: перед применением PCA важно центрировать данные. Пусть у нас есть матрица данных ( X ) размером ( n \times p ), где ( n ) — количество наблюдений, а ( p ) — количество переменных. Центрирование означает вычитание среднего каждого столбца из всех его элементов, т.е.:
    Xc=XX¯,
    где ( \bar{X} ) — матрица средних значений столбцов.

  2. Вычисление ковариационной матрицы: следующей стадией является вычисление ковариационной матрицы ( C ):
    $$ C = \frac{1}{n-1} (X{c}^{T} X{c}). $$

  3. Собственные вектора и значения: найдите собственные значения ( \lambda ) и собственные вектора ( V ) ковариационной матрицы ( C ):
    CV=λV.
    Собственные вектора соответствуют направлениям главных компонент, а собственные значения показывают величину дисперсии данных вдоль этих направлений.

  4. Сортировка и выбор главных компонент: соберите собственные вектора в матрицу, отсортировав их по убыванию собственных значений. Выбор числа главных компонент определяется требуемым объяснением дисперсии данных: обычно оставляют только те, что объясняют достаточную часть (например, 95%) общей дисперсии.

  5. Трансформация данных: чтобы перейти к новому пространству признаков, домножаем центрированную матрицу данных на матрицу собственных векторов:
    $$ Z = X{c} \cdot V{r}, $$
    где ( V_{r} ) — матрица, содержащая ( r ) отобранных векторов.

Таким образом, мы проецируем исходные данные на новое пространство, уменьшив размерность и упростив последующую обработку.

Метод главных компонент позволяет снизить размерность данных без значительной потери информации о дисперсии, обеспечивая компактное и информативное представление данных.


Категория: Математика

Теги: математическая статистика, машинное обучение, линейная алгебра