Grundlagen

Deep Learning

Teilgebiet des Machine Learnings mit mehrschichtigen neuronalen Netzen zum Lernen komplexer Muster — treibt heutige Vision-, Sprach- und Sprachmodell-KI an.

Deep Learning ist ein Teilgebiet des maschinellen Lernens, das neuronale Netze mit vielen gestapelten Repräsentationsschichten konstruiert. Jede Schicht überführt ihre Eingabe in einen etwas abstrakteren Merkmalsraum, und die Komposition dieser Transformationen erlaubt es dem Modell, Muster zu erfassen, die jenseits der Reichweite klassischer Algorithmen liegen — von Kanten über Formen zu Objekten in der Bildverarbeitung, von Zeichen über Wörter zur Bedeutung in der Sprachverarbeitung.

Die moderne Ära begann etwa 2012, als ein tiefes Convolutional Network (AlexNet) den ImageNet-Benchmark für Bildklassifikation aufbrach. Das Rezept — große gelabelte Datensätze, GPU-Rechenleistung und durchgängiges Training mittels Backpropagation — verbreitete sich rasch auf Spracherkennung, maschinelle Übersetzung, Spielen und schließlich generative Modelle. Yann LeCun, Yoshua Bengio und Geoffrey Hinton erhielten 2018 den Turing Award für ihre grundlegende Arbeit.

Deep Learning bildet die Grundlage praktisch aller Themen, über die wir berichten. Die Transformer-Architektur und die daraus erwachsenden großen Sprachmodelle sind Deep-Learning-Systeme mit Milliarden bis Billionen Parametern. Bildgeneratoren, Sprachmodelle, Vorhersagen für Proteinstrukturen und die Wahrnehmungs-Stacks autonomer Fahrzeuge teilen dasselbe Prinzip: differenzierbare Schichten stapeln, per Gradientenabstieg trainieren und die Skalierung einen Großteil der Arbeit erledigen lassen.

Quellen

Siehe auch