Этот сайт лучше всего просматривать в современном браузере с включённым JavaScript.

Как различаются обучаемые и необучаемые параметры в моделях?

Rimma2001

Обучаемые и необучаемые параметры в нейронных сетях

При разработке нейронных сетей мы часто сталкиваемся с понятием обучаемых (trainable) и необучаемых (non-trainable) параметров. Эти термины обозначают два разных типа параметров, которые содержатся внутри модели.

Обучаемые параметры — это параметры, которые обновляются во время обучения модели. Примером таких параметров являются веса связей между нейронами в слоях сети. В процессе обучения с использованием алгоритмов оптимизации, таких как обратное распространение ошибки и градиентный спуск, эти значения изменяются, чтобы минимизировать потери модели и улучшить её точность предсказания.

Формально, обновление обучаемых параметров происходит по следующему правилу:

$$ w_i = w_i - \alpha \frac{\partial L}{\partial w_i} $$

где:

$w_i$ — вес, который нужно обновить;
$\alpha$ — коэффициент обучения;
$L$ — функция потерь;
$\frac{\partial L}{\partial w_i}$ — частная производная функции потерь по отношению к весу.

Необучаемые параметры — это параметры, которые не изменяются в процессе обучения модели. Они могут быть вручную настроены, заданы заранее или быть частью архитектуры, такой как гиперпараметры. Примером является фиксированный коэффициент нормализации в нормализующих слоях, которые могут вычисляться на этапе инициализации модели и оставаться неизменными.

Основное преимущество выделения необучаемых параметров заключается в том, что они позволяют сохранить структуру сети и её эффекты, балансируя нагрузку на обучение путём предотвращения излишнего изменения всех параметров в процессе оптимизации.

Применение в трансферном обучении

В трансферном обучении, части предобученных моделей могут содержать как обучаемые, так и необучаемые параметры. Необучаемые параметры замораживаются, чтобы сохранить уже приобретённые знания, и настраиваются только обучаемые параметры вынесенных слоёв или частей модели. Это помогает адаптировать модель к новой задаче с минимальными затратами времени и ресурсов.

Такой метод используется для ускорения обучения и достижения более высокой точности в сравнении с полным обучением модели с нуля, особенно когда рабочие задачи похожи на задачи из исходной предобученной модели.

Категория: Информатика

Теги: машинное обучение, нейронные сети, обучение моделей

Transfer learning & fine-tuning - keras.io
Transfer learning & fine-tuning | TensorFlow Core - tensorflow.google.cn
Что такое параметр, не поддающийся обучению? | Baeldung по информатике - www.baeldung.com
«Что такое trainable и non-trainable параметры при построении модели?» — Яндекс Кью - yandex.ru
#9. Введение в модели и слои бэкэнда Keras | Tensorflow 2 уроки - proproprogs.ru