Parameter vs. Hyper-Parameter und Data (Values)

Parameter eines Modells sind die internen Variablen des Modells, die während des Trainings aus den Daten gelernt werden. In einem neuronalen Netz handelt es sich um die Weights und Biases, welche angepasst werden, wenn das Modell trainiert wird.

Hyper-Parameter sind die externen Konfigurationsvariablen des Modells, die vor dem Training festgelegt werden und das Training und die Struktur des Modells beeinflussen. Sie werden also nicht während des Trainings optimiert. Wie die Parameter können sie allerdings optimiert werden - nur halt vor dem Training. Zu den Hyper-Parametern gehören die Anzahl der Schichten, Anzahl der Neuronen je Schicht, die Learning Rate (mindestens ihr initialer Wert und ob/wie sich dieser anpasst), Batch-Size und Anzahl der Epochen.

Die Anzahl der Input-Nodes wird in der Regel nicht als Hyper-Parameter betrachtet. Das liegt daran, dass sie von den Eigenschaften der Eingabedaten abhängt und daher eine feste Größe ist, die sich aus der Problemstellung ergibt. Hyper-Parameter können angepasst werden, um die Leistung zu optimieren. Bei Bildern wie im MNIST-Datensatz beispielsweise lässt sich nicht mit weniger als 28*28 Eingabeneuronen arbeiten.