Grundlagen

Neuronales Netz

Ein System aus geschichteten künstlichen Neuronen, das Muster aus Daten lernt — die Grundlage fast des gesamten modernen Machine Learnings, einschließlich LLMs.

Ein neuronales Netz ist ein Rechenmodell, das lose vom Gehirn inspiriert ist. Es besteht aus Schichten einfacher Einheiten — künstlichen Neuronen —, die gewichtete Eingaben empfangen, eine nichtlineare Aktivierungsfunktion anwenden und das Ergebnis an die nächste Schicht weitergeben. Durch Anpassung der Gewichte beim Training auf gelabelten oder selbstüberwacht erzeugten Daten lernt das Netz, Eingaben (Pixel, Audio, Texttoken) auf Ausgaben (Klassen, Vorhersagen, Embeddings) abzubilden.

Ein typisches Netz besitzt eine Eingabeschicht, eine oder mehrere verborgene Schichten und eine Ausgabeschicht. Wenn der verborgene Teil tief ist — Dutzende bis Hunderte von Schichten —, spricht man von Deep Learning. Das Training basiert auf Backpropagation: Der Fehler an der Ausgabe wird durch das Netz differenziert und genutzt, um jedes Gewicht per stochastischem Gradientenabstieg in die richtige Richtung zu verschieben.

Moderne neuronale Netze treten in vielfältigen Formen auf: konvolutionale Netze für Bilder, rekurrente Netze für Zeitreihen, Graph-Netze für relationale Daten, und am wichtigsten der Transformer, der die Grundlage heutiger großer Sprachmodelle bildet. Dieselbe Grundidee — das Stapeln einfacher differenzierbarer Einheiten zu einer lernbaren Pipeline — treibt Systeme für Bildverarbeitung, Sprache, Robotik, Wirkstoffentdeckung und Codegenerierung an.

Quellen

Siehe auch