Instance segmentation in the automotive domain

Abstract: The automotive domain is currently facing many unsolved problems, especially when considering the development of autonomous vehicles. Many companies are aborting their autonomous driving projects despite early announcements and high investments. Those companies that continue to pursue this goal heavily rely on machine learning techniques as a major enabler, but still face open challenges. This dissertation tackles three of these challenges:
the first part of this dissertation proposes robust and efficient computer vision algorithms for the task of instance segmentation. Those algorithms provide a pixel-precise localization of all objects in a given camera image and are able to capture the full complexity of the environment. This enables down-stream modules to reason about occlusions and allows for a precise tracking and motion prediction of all objects in the scene. The camera is a sensor modality that is particularly well suited for this task, as it provides a rich source of semantic information. While many concurrent works focus on maximizing the achievable accuracy only, the contributions in this dissertation put a strong emphasis on the computational efficiency, as developed algorithms are intended for real-time applications.
However, since monocular cameras cannot directly measure distances to obstacles, a further contribution in this dissertation tackles the second challenge in autonomous driving: Using LiDAR sensor measurements as input to deep learning algorithms. To this end, a novel Convolutional Neural Network (CNN) architecture is proposed, that is by design invariant to the sparsity of the given input data, which arises when projecting 3D LiDAR data into corresponding 2D camera images. Using these sparsity invariant CNNs, it is possible to perform dense pixel-level tasks on sparse projected point clouds, which increases the robustness of an overall perception system, as camera and LiDAR can be used interchangeably.
Even with the best machine learning architectures, the accuracy of the algorithms is still limited by the amount and quality of available training data, which is tackled as third challenge. In this dissertation, two approaches are proposed to automatically generate highquality annotations, and hence alleviate the need for costly human labeling. The first one fuses temporal information and various sensor measurements to generate semi-dense Ground Truth (GT) depth maps.
The second approach learns to refine 2D bounding box annotations from autolabeling services which are not yet precise enough to fulfull the needs in the automotive domain. Both approaches are able to generate GT for real-world data at scale, which is essential for training reliable deep learning models
Abstract: Die Automobilbranche steht derzeit vor vielen ungelösten Problemen, insbesondere im Hinblick auf die Entwicklung autonomer Fahrzeuge. Trotz früher Ankündigungen und hoher Investitionen beenden viele Unternehmen ihre Projekte zum autonomen Fahren. Diejenigen Unternehmen, die dieses Ziel weiterhin verfolgen, setzen stark auf Techniken des maschinellen Lernens als essenziellen Baustein, stehen aber dennoch vor offenen Herausforderungen. Diese Dissertation befasst sich mit drei dieser Herausforderungen:
Im ersten Teil dieser Dissertation werden robuste und effiziente Bildverarbeitungsalgorithmen für die Aufgabe der Instanzsegmentierung präsentiert. Diese Algorithmen liefern eine pixelgenaue Lokalisierung aller Objekte in einem gegebenen Kamerabild und sind in der Lage, die gesamte Komplexität der Umgebung zu erfassen. Dies ermöglicht nachgelagerten Modulen eine Schlussfolgerung über Verdeckungen und erlaubt eine präzise Verfolgung und Bewegungsvorhersage für alle Objekte in der Szene. Die Kamera ist eine Sensormodalität, die für diese Aufgabe besonders gut geeignet ist, da sie eine reichhaltige Quelle für semantische Informationen darstellt. Während viele konkurrierende Arbeiten sich auf die Maximierung der erreichbaren Genauigkeit konzentrieren, legen die hier vorgestellten Algorithmen einen starken Schwerpunkt auf die Recheneffizienz, da sie für die Echtzeitanwendung vorgesehen sind.
Da monokulare Kameras jedoch keine Entfernungen zu Objekten messen können, wird eine weitere Arbeit vorgestellt, die sich mit der zweiten Herausforderung des autonomen Fahrens befasst: Die Verwendung von Light Detection And Ranging (LiDAR) Sensormessungen als Eingabe für Deep-Learning Algorithmen. Zu diesem Zweck wird eine Architektur für ein neuronales Faltungsnetzwerk vorgeschlagen, die konstruktionsbedingt invariant gegenüber dünn besetzten Eingabedaten ist, welche bei der Projektion von dreidimensionalen LiDAR Daten in entsprechende zweidimensionale Kamerabilder entstehen. Mit diesen sogenannten sparsity invariant CNNs ist es möglich, dichte und pixelgenaue Vorhersagen auf spärlich projizierten Punktwolken auszuführen. Dies kann die Robustheit des gesamten Wahrnehmungssystems erhöhen, da somit Kamera und LiDAR austauschbar verwendet werden können.
Selbst bei den besten Architekturen für maschinelles Lernen ist die erreichbare Genauigkeit der Algorithmen durch die Menge und Qualität der verfügbaren Trainingsdaten begrenzt, was als dritte Herausforderung angegangen wird. In dieser Dissertation werden zwei Ansätze zur automatischen Generierung von Annotationen mit hoher Qualität vorgestellt um somit die Notwendigkeit einer kostspieligen menschlichen Annotation zu verringern. Der erste Ansatz fusioniert zeitliche Informationen und verschiedene Sensormessungen, um nahezu dichte Ground Truth (GT) Tiefenkarten zu erzeugen. Der zweite Ansatz lernt die Verfeinerung von zweidimensionalen Bounding Box Annotationen aus Autolabeling Diensten, welche noch nicht präzise genug sind, um die Anforderungen im Automobilbereich zu erfüllen. Beide Verfahren sind in der Lage große Mengen an hochqualitativen Annotationen für reale Daten automatisch zu generieren, was für das Training zuverlässiger Deep-Learning-Modelle unerlässlich ist

Location
Deutsche Nationalbibliothek Frankfurt am Main
Extent
Online-Ressource
Language
Englisch
Notes
Universität Freiburg, Dissertation, 2024

Keyword
Bildsegmentierung
Objekterkennung
Merkmalsextraktion
Maschinelles Lernen
Maschinelles Sehen
Objekterkennung
Umfelderfassung
Semantische Segmentierung
Regionenorientierte Segmentierung
Autonomes Fahrzeug

Event
Veröffentlichung
(where)
Freiburg
(who)
Universität
(when)
2024
Creator
Contributor

DOI
10.6094/UNIFR/257471
URN
urn:nbn:de:bsz:25-freidok-2574711
Rights
Open Access; Der Zugriff auf das Objekt ist unbeschränkt möglich.
Last update
15.08.2025, 7:28 AM CEST

Data provider

This object is provided by:
Deutsche Nationalbibliothek. If you have any questions about the object, please contact the data provider.

Time of origin

  • 2024

Other Objects (12)