Detailansicht

Variational models of visual attention with a special focus on dynamic sequences
Aniello Raffaele Patrone
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Dr.-Studium der technischen Wissenschaften (Dissertationsgebiet: Informatik)
Betreuer*in
Otmar Scherzer
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.43416
URN
urn:nbn:at:at-ubw:1-15479.19605.107570-4
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Aufmerksamkeit ist der Prozess, in dem sich unsere geistige Fähigkeiten auf Teile der verfügbaren Informationen konzentrieren. Dies liegt daran, dass Menschen nicht alle verfügbaren Informationen auf einmal verarbeiten können. In dieser Dissertation konzentrieren wir uns auf die visuelle Aufmerksamkeit und versuchen, mathematisch ihr Verhalten zu simulieren. Die Verbreitung von Informationen durch Videos wird mehr und mehr in der heutigen Gesellschaft, durch TV-On-Demand, Webstreaming, E-Learning und Onlinespiele, um nur einige Beispiele zu nennen, präsent. Die vorliegende Arbeit konzentriert sich auf die folgenden Forschungsgebiete: die Bedeutung von Schnitt in Filmsequenzen für die visuelle Aufmerksamkeit, die Attraktivität einer Region in einem Video und das Verhalten der visuellen Aufmerksamkeit in Gegenwart von Verzerrungen, wie Jitter. Im Folgenden werden wir uns auf das erste Forschungsgebiet, nämlich auf Schnitte, konzentrieren. Schnitte bezeichnen eine Bearbeitungstechnik, die zu einer starken Veränderung der Filmszene führt. Insbesondere werden Objektorte durch Schnitte unkorreliert. Wir analysieren zunächst das Verhalten der Zuschauer, während sie sich ein Video mit einem Schnitt anschauen, aus der Sicht der Kognitionswissenschaft. Wir schlagen eine zweistufige konzeptuelle Architektur vor und testen sie durch Eyetracking Experimente. Die Architektur wird durch die zeitliche Kohärenz der scheinbaren Bewegung angetrieben, die auch als optischer Fluss bekannt ist und sich auf zwei Fälle konzentriert: die Reaktion des Betrachters auf eine Sequenz ohne Schnitte und auf eine mit Schnitten. Wir schlagen vor, dass die Aufmerksamkeit des Betrachters durch Neuheit in einer Einstellung, die keine Schnitte enthält, angezogen wird. In diesem Fall, während der globale Fluss kohärent ist, weist die lokale Inkohärenz auf die Neuheit hin. Das Verhalten der Zuschauer ändert sich, wenn man auf einen Schnitt trifft. In diesem Fall ist der globale Fluss inkohärent, was den Schnitt signalisiert. Die Aufmerksamkeit des Betrachters wird durch wiederholte Merkmale, wie wiederholte Bewegung, angezogen. Mathematisch formulieren wir die zweistufige Architektur als Variationsansatz zur Berechnung des optischen Flusses. Wir gehen von der Horn-Schunck Funktional aus und modifizieren es bequem, um den räumlich-zeitlichen Ansatz von Weickert-Schnörr mit einzuschließen. Wir schlagen eine Aufteilung des Flusses in zwei optische Felder vor: eines, das einen zeitlich-kohärenten Fluss charakterisiert und ein anderes, das Bezug auf wiederholte Bewegung, die auch als Schwingungsmuster bekannt ist, nimmt. Um das Schwingungsmuster zu mo- dellieren, schlagen wir ein in Zeit nicht lokalen Regularisator, von Meyers Buch inspiriert, vor. Wir beschreiben nun das zweite Forschungsgebiet, das sich auf die Attraktivität einer bestimmten Stelle in einem Video bezieht. Das Ziel eines Modells der visuellen Aufmerksamkeit ist, die Attraktivität einer Stelle für den Betrachter, numerisch in einer Wahrscheinlichkeit von Interesse übersetzt, zu schätzen. Eine Karte der Wahrscheinlichkeiten von Interesse für jeden Punkt eines stati- schen Bildes wird Salienzkarte genannt. Um im Standardansatz die Salienz von dynamischen Sequenzen zu berechnen, wird die Salienz jedes Kaders des Videos und die Salienz der Bewegungsmerkmale berechnet, um sie dann durch ein Gewichtungsschema zu kombinieren. Wir schlagen einen Algorithmus zur Berechnung der Salienz der Bewegungsmerkmale in einer dynamischen Sequenz, in einer so genannten dynamische Salienzkarte vor. Auch hier formulieren wir die Bewegungsmerkmale als Variationsansatz des optischen Flusses-Problems. Insbesondere berechnen wir den Fluss einer hoch-dimensionalen Sequenz, die durch Intensität- oder Farbkanäle, ergänzt durch die Salienzkarte jedes Kaders, zusammengesetzt ist. Dies ermöglicht uns, das Aperturproblem zu überwinden. Außerdem inkludieren wir eine modifizierte Version des räumlich-zeitlichen Ansatzes von Weickert-Schnörr in unserem Funktional. Dank der vorgeschlagenen Veränderung ist unser Modell besonders wirksam im Falle von Okklusion. In der Tat, in unserer dynamischen Salienzkarte, simulieren wir das menschliche Verhalten, die Bewegung eines Objektes kontinuierlich durch Okklusion zu verfolgen. Wir sprechen das dritte und letzte Forschungsgebiet, genauer gesagt das Verhalten der visuellen Aufmerksamkeit in Gegenwart von Verzerrungen wie z. B. Jitter, an. Die Menschen sind in der Lage, Formen und Objekte bis hin zu einem gewissen Grad der Verzerrung zu erkennen. Das menschliche Hirn führt eine automatische Rekonstruktion des Originalbildes. Wir simulieren diesen Prozess der Rekonstruktion im Fall von statischen Bildern und konzentrieren uns auf eine bestimmte Art von Verzerrung, so genannt Jitter. Jitter entsteht, wenn das Zeitintervall zwischen den Abfragepunkten des Signals nicht korrekt ist. Wir schlagen Variationsansätze des Funktionals, um Bilder, die von Linien-, Linien-Pixel- und Pixeljitter verzehrt werden, zu rekonstruieren, vor. Die vorgeschlagenen Algorithmen erlauben Kognitionswissenschaftler, Theorien zu testen und quantitative Bewertung durchzuführen. Eyetracking Experimente sollen durchgeführt werden, um die Antwort der menschlichen visuellen Aufmerksamkeit im Vergleich zum Ergebnis unserer Algorithmen zu untersu- chen. Ein weiterer Schritt von mathematischem Interesse könnte die Erweiterung unserer Modelle in Richtung eines allgemeinen Modells, das in der Lage ist, die visuelle Aufmerksamkeit in allen oben-genannten Forschungsgebieten gleichzeitig zu simulieren, darstellen. Wir behaupten, dass eine geeignete Formulierung des optischen Flusses, quantitative Methoden zur Abschätzung der visuellen Aufmerksamkeit liefern kann.
Abstract
(Englisch)
Attention is the process of focusing our mental capacities on parts of the available information. This is because humans cannot process all available information at once. In this thesis, we focus on the visual attention and we try to simulate mathematically its behavior. The diffusion of information through videos is more and more present in today’s society though TV on demand, web-streaming, e-learning and online games, just to name a few. The present work focuses on the following research areas: the importance of cuts in movie sequences for visual attention, the attractiveness of a location in a video and the behavior of visual attention in the presence of distortions such as jitter. In the following, we shall concentrate on the first research area and, more specifically, on cuts. They refer to an editing technique which leads to a strong change of the movie scene. In particular, object locations become uncorrelated through cuts. We initially analyze the behavior of viewers while watching a video containing a cut, from the point of view of cognitive science. We propose a two-step conceptual architecture and test it through eye-tracking experiments. The architecture is driven by the temporal coherence of the apparent movement, also known as optical flow and focuses on two cases: the viewer’s reaction to a sequence without cuts and with cuts, respectively. We propose that the viewer’s attention is attracted by novelty within a movie take not containing cuts. In this case, while the global flow is coherent, local incoherence indicates novelty. The viewer’s behavior changes if a cut is encountered. In this case, the global flow is incoherent, signalizing the cut. The viewer’s attention is attracted by repeated features such as repeated movement. Mathematically, we formulate the two-step architecture as a variational optical flow problem. We start from the Horn-Schunck functional, conveniently modified in order to include the spatio-temporal extension by Weickert-Schnörr. We propose a decomposition of the flow into two optical fields: one characterizing the time-coherent flow and another referring to repeated movement, also known as oscillating pattern. In order to model the oscillating pattern, we propose a regularizer that is non-local in time, inspired by Meyer’s book. We delineate now the second research area, referring to the attractiveness of a certain location in a video. The target of a visual attention model is to estimate the attractiveness of a location for a viewer, translated numerically in a probability of interest. A map including the probability of interest for each point of a static image is called saliency map. In order to calculate the saliency of dynamic sequences, the standard approach is to calculate the saliency of each frame composing the video and the saliency of motion features, combining them through a weighting scheme. We propose an algorithm for calculating the saliency of motion features in a dynamic sequence, called dynamic saliency map. Again, we formulate the motion features as a variational optical flow problem. In particular, we calculate the flow of a high-dimensional sequence composed by intensity or color channels complemented by the saliency map of each frame. This allows us to overcome the aperture problem. Moreover, we include a modified version of the spatio-temporal extension by Weickert- Schnörr in our functional. Thanks to the change we propose, our model is particularly effective in the case of occlusions. Indeed we simulate the human behavior continuously following motion of an object through occlusion in our dynamic saliency map. We address the third and last research area, referring more specifically to the behavior of visual attention in the presence of distortions such as jitter. Humans are able to recognize shapes and objects up to a certain level of distortion. The human mind performs an automatic reconstruction of the original image. We simulate this reconstruction process in the case of static images and focus on a particular type of distortion, called jitter. Jitter arises when the time interval between sampling points of the signal is incorrect. We propose variational functionals to dejitter images affected by line, line pixel and pixel jitter. The proposed algorithms allow cognitive scientists to test theories and perform quantitative evaluation. Eye-tracking experiments should be designed for testing the response of human visual attention compared to the result of our algorithms. A further step of mathematical interest could constitute the extension of our models towards a general one, able to simulate visual attention in all above-mentioned research areas at once. We claim that an appropriate formulation of the optical flow can deliver quantitative methods for the estimation of visual attention.

Schlagwörter

Schlagwörter
(Englisch)
Optical flow Variational methods Saliency map Visual Attention Computer Vision
Schlagwörter
(Deutsch)
Optischer Fluss Variationsansätze Salienzkarte Visuelle Aufmerksamkeit Computer Vision
Autor*innen
Aniello Raffaele Patrone
Haupttitel (Englisch)
Variational models of visual attention with a special focus on dynamic sequences
Paralleltitel (Deutsch)
Variationsansätze der visuellen Aufmerksamkeit mit einem besondern Fokus auf dynamische Sequenzen
Publikationsjahr
2016
Umfangsangabe
114 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*innen
Carola-Bibiane Schönlieb ,
Thomas Schuster
Klassifikationen
54 Informatik > 54.74 Maschinelles Sehen ,
54 Informatik > 54.80 Angewandte Informatik
AC Nummer
AC13450556
Utheses ID
38425
Studienkennzahl
UA | 786 | 880 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1