Symbolbild: UTSA.edu

Nachdem in der vergangenen dritten Folge unserer Serie "Datenmanagement als Erfolgsfaktor im Machine Learning" die Entwicklung vom Machine Learning zum Deep Learning aufgezeigt wurde, geht es im nun abschliessenden letzten Teil der Serie über I/O-Flaschenhälse sowie um die grossen Herausforderungen im Hinblick auf das Datenmanagement bei Deep Learning.

Gastbeitrag von Christoph Schnidrig, Leiter Systems Engineering Team, Netapp Schweiz

Flaschenhals I/O

Inzwischen haben die Entwickler von Deep-Learning-Applikationen keinen Einfluss mehr darauf, welche Layers sich das Modell aussucht. Im Normalfall wissen sie es auch nicht, sondern probieren einfach verschiedene Layers und verschiedene Reihenfolgen der Layers aus. Letztlich ist es – wie bei Reihentests in der Pharmaindustrie – eine Frage von Versuch und Irrtum, bis das beste Modell ermittelt ist. Je komplizierter das Modell ist und je mehr Schichten es hat, desto länger dauert die Berechnung und desto mehr Beispiele benötigt es. Die Beispiele werden von den Modellen selbstständig generiert. Im maschinellen Lernen stehen heute grossartige Computer zur Verfügung – die Einschränkung lag jedoch bis vor kurzem beim Lesen und Schreiben der Daten (I/O) von den Speichermedien. (1) Mit der Einführung der Massenspeicherschnittstelle NVMe und 100 Gigabit Ethernet ab 2017/2018 konnte schliesslich auch diese Hürde beseitigt werden.

Herausforderungen an das Datenmanagement bei Deep Learning

Laut Monty Barlow, Direktor für Machine Learning bei Cambridge Consultants, benötigen die Entwickler, die Daten segmentieren, die Modelle trainieren und gegen andere Modelle testen, häufig Zugriff auf alle Daten gleichzeitig. Barlow: "Das sind in der Regel ein paar Dutzend Terabytes, also mehr, als im RAM oder in einem lokalen Cache Platz hat. Ein generatives Modell kann es erfordern, dass eine Datei statt nur einmal hunderte Male gelesen wird. Und wir verwenden nicht einfach Big Data, also grosse Datensätze, die wiederholt gelesen werden müssen – wir haben auch mehrere Teams, die möglicherweise gleichzeitig auf dieselben Daten zugreifen. Oft handelt es sich um sehr kleine Dateien, auf die wir so schnell wie möglich zugreifen müssen, um die GPUs zu speisen, die wir für unsere AI-Algorithmen verwenden. Die Kombination von alldem ist das Worst-Case-Szenario für ein Speichersystem." Dies stelle grosse Herausforderungen an das Data Management bei Deep Learning. Befragt, welche Art von Speichersystem für Deep Learning benötigt werde, antwortet Barlow: "Wir benötigen Zugriff mit möglichst geringer Latenzzeit auf jede Datei, wobei die Latenz etwas weniger kritisch ist, wenn wir für unsere Daten einen Read-ahead-Ansatz verwenden können. Noch wichtiger ist, dass unsere Datenspeichersysteme einen hohen Durchsatz liefern müssen, während Millionen von kleinen Dateien nach dem Zufallsprinzip gelesen werden. Das lässt sich als Metadaten-Schwerstarbeit bezeichnen. Unser Deep-Learning-Speicher basiert auf Netapp-Technologie, weil sie sich in unserer anspruchsvollen Umgebung bewährt hat. Wir benötigten eine Kombination aus hoher Leistung und Flexibilität, denn wir arbeiten an vielen Projekten. Wir müssen die Dateien für verschiedene Maschinen verfügbar machen, damit wir eine Vielzahl von Rechenjobs ausführen können, ohne dass wir Daten verschieben müssen."

Fazit

Die heute allgemein mit dem Begriff künstlicher Intelligenz umrissenen Anwendungen entspringen grösstenteils dem Machine Learning. Der aktuelle Boom basiert einerseits auf den Fortschritten in der Konzeption der neuronalen Netze (Convolutional Neural Networks, Recurrent Neural Networks mit LSTM, Deep-Learning), wie auch auf der Zunahme der Rechenleistung dank Grafikprozessoren. Je mehr Daten ein System in der Lernphase verarbeitet, desto präziser wird es später urteilen. Der Flaschenhals in der Entwicklung von ML-Systemen waren die Speichermedien, beziehungsweise das Lesen und Schreiben der Daten (I/O). Mit den neuen verfügbaren Technologien ist die Einschränkung durch die Performance endlich beseitigt. Künftig sind nur noch die Fertigkeiten der Forscher und Entwickler entscheidend.

Zu Teil 1 der Serie hier!!
Zu Teil 2 der Serie hier!!
Zu Teil 3 der Serie hier!!



Der Online-Stellenmarkt für ICT Professionals