Обучаемые и необучаемые параметры в нейронных сетях
При разработке нейронных сетей мы часто сталкиваемся с понятием обучаемых (trainable) и необучаемых (non-trainable) параметров. Эти термины обозначают два разных типа параметров, которые содержатся внутри модели.
Обучаемые параметры — это параметры, которые обновляются во время обучения модели. Примером таких параметров являются веса связей между нейронами в слоях сети. В процессе обучения с использованием алгоритмов оптимизации, таких как обратное распространение ошибки и градиентный спуск, эти значения изменяются, чтобы минимизировать потери модели и улучшить её точность предсказания.
Формально, обновление обучаемых параметров происходит по следующему правилу:
$$ w_i = w_i - \alpha \frac{\partial L}{\partial w_i} $$
где:
- $w_i$ — вес, который нужно обновить;
- $\alpha$ — коэффициент обучения;
- $L$ — функция потерь;
- $\frac{\partial L}{\partial w_i}$ — частная производная функции потерь по отношению к весу.
Необучаемые параметры — это параметры, которые не изменяются в процессе обучения модели. Они могут быть вручную настроены, заданы заранее или быть частью архитектуры, такой как гиперпараметры. Примером является фиксированный коэффициент нормализации в нормализующих слоях, которые могут вычисляться на этапе инициализации модели и оставаться неизменными.
Основное преимущество выделения необучаемых параметров заключается в том, что они позволяют сохранить структуру сети и её эффекты, балансируя нагрузку на обучение путём предотвращения излишнего изменения всех параметров в процессе оптимизации.
Применение в трансферном обучении
В трансферном обучении, части предобученных моделей могут содержать как обучаемые, так и необучаемые параметры. Необучаемые параметры замораживаются, чтобы сохранить уже приобретённые знания, и настраиваются только обучаемые параметры вынесенных слоёв или частей модели. Это помогает адаптировать модель к новой задаче с минимальными затратами времени и ресурсов.
Такой метод используется для ускорения обучения и достижения более высокой точности в сравнении с полным обучением модели с нуля, особенно когда рабочие задачи похожи на задачи из исходной предобученной модели.
Категория: Информатика
Теги: машинное обучение, нейронные сети, обучение моделей