Detailansicht

Using GANs and facial landmark detection for virtual reality conferencing

Bernhard Kokesch

Art der Arbeit

Masterarbeit

Universität

Universität Wien

Fakultät

Fakultät für Informatik

Studiumsbezeichnung bzw. Universitätlehrgang (ULG)

Masterstudium Medieninformatik

Betreuer*in

Helmut Hlavacs

Volltext herunterladen
Volltext in Browser öffnen

DOI

10.25365/thesis.76841

URN

urn:nbn:at:at-ubw:1-15267.51386.750398-3

Link zu u:search

(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract

(Deutsch)

Aufgrund der COVID-19 Pandemie ist es wichtiger denn je, dass es Möglichkeiten gibt, miteinander zu sprechen und zu interagieren, ohne am selben Ort sein zu müssen. Die virtuelle Realität kann diese Lücke schließen und es ermöglichen, Konferenzen, Besprechungen und sogar Familientreffen virtuell abzuhalten, ohne die Möglichkeit zu verlieren, miteinander zu interagieren. Mit den neuesten Entwicklungen bei Virtual-Reality-Headsets und Computergrafiken kann auch ein gewisses Maß an Wohlbefinden und Realismus in der virtuellen Welt erreicht werden, so dass sie sich ähnlich der realen Welt anfühlt. Das Ziel dieser Arbeit ist es, einen anderen Ansatz als die „traditionellen“ Lösungen wie 3D-Köpfe und Avatare zu finden. Die Idee ist, Methoden zur Erkennung von Gesichtsmerkmalen zu nutzen, um Bilder, ähnlich wie ein Video, in Echtzeit zu bewegen und diese in eine Anwendung für eine virtuelle Konferenz zu integrieren. Für diesen Ansatz wurde vid2vid in Kombination mit GANs und Motion Transfer verwendet, um ein einzelnes Bild zu „bewegen“. Der daraus resultierende Prototyp wurde im Hinblick auf das feeling of presence in der virtuellen Umgebung der Anwendung evaluiert. Für die Evaluierung testeten 10 Personen die Anwendung und nahmen anschließend an einer Umfrage teil, die auf der Skala des igroup presence questionnaire basiert, um die Spatial Presence, das Involvement und the sense of realness innerhalb des virtuellen Raums zu messen. Die Ergebnisse der durchgeführten Experimente deuten auf ein positives und zufriedenstellendes Ergebnis des Prototyps und ein positives Gefühl im Hinblick auf Presence und Involvement hin. So kann am Ende gesagt werden, dass der Prototyp eine vielversprechende Grundlage für die Zukunft darstellt.

Abstract

(Englisch)

Because of the corona virus crisis, the need for possibilities to talk and interact with each other not in place is getting more important than ever. Virtual reality can fill this gap and make it possible to hold conferences, meetings and even family gatherings virtually without losing the possibility to interact with each other. Also with the latest milestones of virtual reality headsets and computer graphics a certain level of a good feeling inside the virtual world can be achieved and let it feel a little bit like the real world. The goal of this work is to find a different approach to the “traditional” solutions like 3D heads and avatars. The idea is to leverage and use facial landmark detection and methods to bring motion to simple images and package it into a VR conferencing application. For this idea vid2vid was used in combination with GANs and motion transfer to “move” a single image. The resulting prototype has been evaluated in terms of the feeling of presence experienced inside the applications virtual environment. For the evaluation 10 people tested the application and took a survey, based on the igroup presence questionnaire scale to measure the spatial presence, involvement and the sense of realness inside the virtual conference room afterwards. The results of the conducted experiments indicate a positive outcome of the prototype and a positive feeling of presence and involvement which also indicates that the prototype is a promising foundation for the future.

Autor*innen

Bernhard Kokesch

Haupttitel (Englisch)

Using GANs and facial landmark detection for virtual reality conferencing

Paralleltitel (Deutsch)

Verwendung von GANs und Facial Landmark Detection für virtuelle Realität

Publikationsjahr

2024

Umfangsangabe

xiii, 67 Seiten : Illustrationen

Sprache

Englisch

Beurteiler*in

Helmut Hlavacs

Klassifikationen

54 Informatik > 54.72 Künstliche Intelligenz ,

54 Informatik > 54.81 Anwendungssoftware

AC Nummer

AC17343464

Utheses ID

73103

Studienkennzahl

UA | 066 | 935 | |

Detailansicht

Abstracts

Schlagwörter