Synthetic training data for deep neural networks on visual correspondence tasks

Abstract: Im Maschinellen Sehen erzielen tendenziell diejenigen tiefen neuronalen Netzwerke die besten Resultate, welche nach dem Schema des überwachten Lernens trainiert wurden.
Hierbei enthält jeder Datenpunkt eines Trainingsdatensatzes eine Annotation mit einer korrekten Ausgabe, die zu reproduzieren das Ziel des Trainings ist.
Da sich der Mensch bei der Wahrnehmung und Interpretation seiner Umgebung vor allem auf seinen Sehsinn verlässt, ist es eine besondere Herausforderung Algorithmen zu schaffen, die Aufgaben mit allein visueller Eingabe lösen können.
Für Unterhaltung, Kommunikation und Forschung sind Werkzeuge geschaffen worden, die es uns ermöglichen, visuell realistische Weltmodelle zu simulieren.
Ebendiese Werkzeuge können wir nun auch nutzen, um synthetische Trainingsdaten für Algorithmen zu erzeugen -- mit wesentlich mehr und genaueren Annotationen, als es mit anderen Verfahren möglich wäre.

Das zentrale Thema dieser Arbeit ist das Erstellen umfangreicher synthetischer Datensätze für eine fundamentale Kategorie visueller Aufgaben, die Korrespondenzprobleme.
Mit unseren Datensätzen wurden tiefe neuronale Netzwerke für optischen Fluss und Stereo-Disparität trainiert, die zum Zeitpunkt ihrer Veröffentlichung einen neuen state of the art definierten.

Weiterhin isolieren wir die einzelnen Komponenten, aus denen synthetische Daten für optischen Fluss bestehen, und untersuchen ihren Einfluss auf das Training mit solchen Daten.
Die daraus gewonnenen Erkenntnisse nutzen wir, um neue Datensätze für konkrete Aufgabenstellungen in bestimmten Echtweltsituationen zu generieren und so zu belegen, dass die Ausgaben neuronaler Netzwerke durch zielgerichtetes Daten-Design verbessert werden können.
Im Gegensatz zu Optimierungsmethoden, die die Architektur oder Modellgröße eines neuronalen Netzwerks verändern, können Trainingsdaten selbst dann variiert werden, wenn der lernende Algorithmus selbst eine unveränderliche oder sogar unbekannte Struktur hat
Abstract: In the realm of deep learning for computer vision tasks, the best performing models tend to be trained with supervision, i.e. with a training dataset that contains ground-truth annotations which the model is expected to match.
Visual tasks are particularly interesting because humans rely mostly on their eyes for almost everything they do; we attribute great importance to our visual perception of the world, and we have developed methods to produce visually realistic simulations of this world for purposes of entertainment, communication, and research.
These same methods enable the creation of synthetic training data: rendered views of virtual worlds with annotations that are more extensive and accurate than anything a human could label with justifiable time and effort.

In this thesis, we motivate and describe the making of large synthetic datasets for low-level correspondence matching problems.
We used these datasets to train deep neural networks for the fundamental vision tasks of optical flow and stereo disparity estimation, achieving a new state of the art at the time of their publication.

We further isolate individual design components that make up an optical flow dataset, and analyze their contributions to the data's suitability for training.
Finally, we use our results to create new datasets for specific real-world scenarios, thereby demonstrating that data engineering is a viable and practicable method for improving the performance of neural networks.
Complementary to optimizations that operate on a network itself such as those of architecture, loss function or model capacity, data is a design dimension that can be varied even if the learning algorithm is a black box

Standort
Deutsche Nationalbibliothek Frankfurt am Main
Umfang
Online-Ressource
Sprache
Englisch
Anmerkungen
Universität Freiburg, Dissertation, 2020

Schlagwort
Training
Korrespondenzproblem
Maschinelles Lernen
Maschinelles Sehen
Dreidimensionales maschinelles Sehen
Optischer Fluss
Datensatz

Ereignis
Veröffentlichung
(wo)
Freiburg
(wer)
Universität
(wann)
2020
Urheber
Beteiligte Personen und Organisationen

DOI
10.6094/UNIFR/166944
URN
urn:nbn:de:bsz:25-freidok-1669440
Rechteinformation
Der Zugriff auf das Objekt ist unbeschränkt möglich.
Letzte Aktualisierung
14.08.2025, 10:48 MESZ

Datenpartner

Dieses Objekt wird bereitgestellt von:
Deutsche Nationalbibliothek. Bei Fragen zum Objekt wenden Sie sich bitte an den Datenpartner.

Entstanden

  • 2020

Ähnliche Objekte (12)