Qualität vor Quantität

Big Data gilt als Maß der Dinge, wenn es um KI geht. Doch hochwertige Datensätze führen zu besseren Erkenntnissen als schiere Datenmengen.

Künstliche Intelligenz ernährt sich von Daten und besonders Neuronale Netze sind nimmersatt. Wenn man sie nur ausreichend füttert, erhält man am Ende auch das gewünschte Ergebnis. Oder nicht? Mittlerweile machen immer öfter Begriffe wie »Small Data«, »Little Data« oder »Smart Data« die Runde. Dahinter verbirgt sich zwar keine feste Definition, doch der gemeinsame Ansatz, Machine-Learning-Modelle auch mit kleinen Datenmengen und kurzen Trainingszeiten zu brauchbaren Erkenntnissen zu führen. Denn damit ein KI-System »intelligent« wird, braucht es nicht zwingend reichlich, sondern vor allem hochwertige Datennahrung. Salopp gesagt: Der ausgefeilteste Algorithmus bringt nichts, wenn die Datenqualität schlecht ist.

Hauptgrund für das Umdenken ist der rasant wachsende Energiehunger der KI-Modelle. Zwar sind Neuronale Netze und Deep Learning stets rechenintensiv, doch ihr Stromverbrauch hängt stark von der Menge und Qualität der Daten ab. Neue Forschungsansätze, unter anderem der sogenannten Green AI, beschäftigen sich daher vermehrt mit Methoden zur Verbesserung der Datenqualität und der Balance zwischen Genauigkeit und (Energie-)Effizienz der Modelle. Diese Entwicklungen kommen nicht nur der Umwelt zugute, sondern auch Unternehmen, die nur wenig Trainingsdaten zur Verfügung haben und diese dennoch gewinnbringend nutzen möchten.

© Fraunhofer IPK/Larissa Klassen
© Fraunhofer IPK/Larissa Klassen
Das EIBA-Assistenzsystem zur Identifizierung von Altteilen ist multisensorisch: Der Sortierarbeitsplatz verfügt über mehrere Kameras sowie eine Waage.

Orientierung im Datendschungel

Doch was genau zeichnet hochwertige Trainingsdaten aus? Datenqualität wird von zahlreichen Faktoren beeinflusst, hängt aber entscheidend von der Erfassungsmethode ab: Für die Gewinnung hochwertiger Daten ist ein akkurater Aufnahmeprozess unerlässlich. Im nächsten Schritt muss dann in den so gewonnenen, noch unsortierten Daten die Teilmenge gefunden werden, die das Zeug zu erstklassigen Trainingsdaten hat, sprich exakt die Informationen enthält, die die KI zum Lernen braucht. Die große Kunst besteht darin, aus einer Datenmenge genau diese Informationsmerkmale und -muster im genau richtigen Mengenverhältnis herauszufiltern.

 

Altteil-Identifizierung per KI

Mit dieser Herausforderung haben sich Forschende des Fraunhofer IPK im Projekt »EIBA« beschäftigt. Dabei wurde gemeinsam mit Technologiepartnern ein KIbasiertes Assistenzsystem entwickelt, das alte Kfz- Bauteile identifiziert und ihren Zustand bewertet – ganz ohne QR- oder Barcodes. Der Hintergrund: Zahlreiche (Industrie-)Altteile landen jährlich zum Recycling auf dem Schrottplatz. Ökologisch und ökonomisch sinnvoller wäre das sogenannte Remanufacturing, bei dem das verschlissene Bauteil wieder an seinen Neuzustand angeglichen wird. Voraussetzung hierfür ist jedoch, dass das Produkt eindeutig identifiziert wird – und das ist mühsam, wenn es verschmutzt, verrostet oder überlackiert ist und sich viele Produkte ohnehin nur geringfügig unterscheiden. Durch das neue Assistenzsystem werden die Mitarbeitenden bei der schwierigen Altteil-Beurteilung deutlich entlastet.

 

Schnellstart mit wenig Daten

Aufgabe des Fraunhofer IPK-Teams war es, neuronale Netze und spezielle Algorithmen für das Maschinelle Sehen der Altteile zu trainieren. Bei der Datenerfassung wählten die Forschenden einen multimodalen Ansatz, der bewusst auf mehrere Datenquellen zugreift. Denn ein einzelnes Bild ist für die KI oft nicht ausreichend, um ein Objekt eindeutig zu identifizieren. Im menschlichen Vergleich dazu greifen wir das Objekt auf, betrachten es aus verschiedenen Blickwinkeln, suchen nach charakteristischen Merkmalen und beziehen weitere Informationen ein, die unabhängig von Farbe und Form sind. Inspiriert von dieser multisensorischen menschlichen Wahrnehmung umfasst die am Fraunhofer IPK entwickelte Lösung Stereokameras und eine Waage, um das Gewicht und optische Eigenschaften in 2D und 3D zu erfassen. Zudem werden auch bereits aus den Logistik- und Dokumentationsprozessen vorhandene Geschäfts- und Lieferdaten miteinbezogen.

Da es gerade für kleinere Firmen aufwendig und teuer ist, im Vorfeld große Datenbestände zu generieren – das heißt, sämtliche Altteile bildhaft zu erfassen – wurde die Datenerhebung durch fest installierte Kameras am Arbeitsplatz in den laufenden Betrieb des Anwendungspartners C-ECO, eines Dienstleisters für die Kreislaufwirtschaft, integriert. Auf diese Weise kamen in einem ersten Proof-of-Concept rund 200 000 Bilddaten zusammen. Trainingsdaten hatte die KI folglich mehr als genug – aber genügte das, um effektive Ergebnisse zu erzielen? Womit die Forschenden nicht gerechnet hatten, war die häufig schlechte Qualität der Bilddaten. Auf vielen Aufnahmen waren Hände, Kaffeetassen oder andere Utensilien im Bild, war das Bauteil abgeschnitten, verschattet oder nur der leere Arbeitstisch zu sehen.

Ein erheblicher Teil der Daten erwies sich nicht nur als unbrauchbar für das Training, sondern schadete ihm sogar. Denn der Algorithmus versuchte zu lernen, Objekte auf Bildern zu erkennen – obwohl diese Objekte zum Teil verdeckt waren, mit einem unordentlichen Hintergrund verschmolzen oder ganz fehlten. Dadurch wurden Korrelationen in den Daten erfasst, die keinen Sinn ergaben, zugleich konnten wichtige Klassen oder Muster nicht ausreichend gelernt werden.

Für die KI-basierte Bildverarbeitung gibt es viele mögliche industrielle Anwendungsfälle

Bevor es losgeht: Daten aufräumen!

Um die neuen Herausforderungen zu meistern, vollzogen die Forschenden einen grundlegenden Paradigmenwechsel. Sie verwarfen das Prinzip »mehr Daten liefern bessere Ergebnisse« und ersetzten es durch »die sinnvolle Anordnung von Daten liefert bessere Ergebnisse«. Doch jedes Bild per Hand pixelgenau zu korrigieren, wäre ein enormer Aufwand. Die Datenexperten des Fraunhofer IPK entwickelten deshalb eine Methode, die wiederum KI und Statistik nutzt, um die Bildqualität zu bewerten. Dadurch ist es ihnen gelungen, die Flut an Bildern hinsichtlich ihrer Eignung für den Trainingsprozess automatisch vorzusortieren.

Konkret bedeutete das, dass die Datensätze gesäubert – also von falschen, doppelten, unwichtigen, ungenauen oder unvollständigen Werten befreit – und in eine statistisch repräsentative Verteilung gebracht wurden. Ein Datensatz mit einer hohen Informationsdiversität entsteht, wenn alle Datenklassen enthalten sind und zugleich jede Klasse bestmöglich repräsentiert ist. Die Schwierigkeit liegt darin, die richtige Balance zwischen Datenreduktion und Informationsgewinnung zu finden: Denn werden zu viele Daten herausgefiltert, leidet wiederum die Performance der KI.

 

KI-Datendetektive: Aufspüren von Fehlern

Ein Verfahren, mit dem ein großer Datensatz organisiert und in Klassen eingeteilt werden kann, ohne, dass diese Klassen vorher bekannt sind, ist das Clustering. Es stellt eine Form des unüberwachten Maschinellen Lernens dar, bei dem nicht gekennzeichnete Daten allein aufgrund ihrer »räumlichen Ähnlichkeit« gruppiert werden: Die Zuordnung hängt davon ab, wie weit ein Datenpunkt von einem sogenannten Cluster-Zentrum entfernt ist. Mit dieser Technik gelang es den Forschenden, Gruppen mit gleichen und ähnlichen visuellen Mustern zu bilden. Dadurch konnten sie »Ausreißer« sowie Daten mit redundantem Informationsgehalt erkennen und aus dem Datensatz entfernen.

 

Kleine Menge – Große Wirkung

Durch die entwickelte Methode der automatisierten Datenvorverarbeitung gelang es dem Forscherteam, die relevantesten Bilddaten zu isolieren und die Trainingsdatenmenge um 60 Prozent zu reduzieren. Dies führte nicht nur zu deutlich genaueren Vorhersagen der KIAssistenz – bei Leistungstests wurden über 98 Prozent der Kfz-Altteile richtig identifiziert, sondern reduziert auch den Energieverbrauch: In den vorsortierten Daten kann der Algorithmus schneller Muster erkennen, da er weniger Zeit für die Analyse irrelevanter Informationen aufbringt. Dadurch sinken Trainingsaufwand und Rechenleistung.

Zu guter Letzt: im Mittelpunkt steht stets der Mensch, der das Assistenzsystem nutzt. Je präziser es arbeitet, desto motivierter ist er, es mit neuen Daten zu füttern. Durch die kontinuierliche Digitalisierung und gleichzeitige Nutzung und Bewertung der Daten entsteht eine Art KI-Lebenszyklus: Ein Kreislauf, bei dem das Wissen über jedes Altteil stetig erweitert und dadurch die KI-Anwendung immer weiter verbessert wird.

Projekterfolge in Zahlen

Um 60 % konnte die KI-Trainingsdatenmenge reduziert werden.

Über 98 % aller Altteile konnte das KI-Assistenzsystem richtig identifizieren.

Pro richtig sortiertem und anschließend instandgesetztem Bauteil werden 8,8 kg CO2-Äquivalente eingespart.

Förderhinweis

Das Projekt »EIBA« wird vom Bundesministerium für Bildung und Forschung im Rahmen des Förderprogramms »Ressourceneffiziente Kreislaufwirtschaft – Innovative Produktkreisläufe (ReziProK)« gefördert.