Detailansicht
A comparative analysis of image recognition cloud services
Ziad Al Sarrih
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Informatik
Betreuer*in
Wolfgang Klas
DOI
10.25365/thesis.76490
URN
urn:nbn:at:at-ubw:1-25215.03182.929399-5
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Die schnelle Entwicklung in den Computer Vision Technologien von Industrieunternehmen wie Amazon, Google, IBM und Microsoft hat zur Entwicklung robuster Bilderkennungs-APIs geführt. Diese APIs haben die Art und Weise, wie Programmierer und Unternehmen Computer Vision nutzen, revolutioniert und die Notwendigkeit eliminiert, komplexe Systeme von Grund auf neu zu entwickeln. Obwohl diese APIs erhebliche Vorteile bieten, präsentieren sie auch bemerkenswerte Herausforderungen in Bezug auf Leistung, Kosten, Einschränkungen und Funktionalitäten. Es ist wesentlich, eine tiefgehende Analyse und einen Vergleich dieser APIs durchzuführen, um Entwicklern und Organisationen zu helfen, gut informierte Entscheidungen zu treffen. Die Auswahl der am besten geeigneten API gemäß spezifischen Anforderungen ist eine komplexe Aufgabe. Beispielsweise kann ein kleiner Fehler, wie das Fehllesen einer Autokennzeichennummer durch eine API, ernsthafte Folgen haben und zeigt die kritische Natur der genauen API-Leistung in realen Szenarien. Die aktuellen APIs bieten eine breite Palette von Dienstleistungen an, darunter Bildklassifizierung, Gesichtserkennung, Bildabruf, optische Zeichenerkennung und Handschrifterkennung. Diese APIs haben den Zugang zu leistungsstarken Künstlicher-Intelligenz-(KI)-Fähigkeiten demokratisiert, sodass Entwickler sich auf die Pipeline-Aspekte ihrer Anwendungen konzentrieren können. Um die am besten geeignete API auszuwählen, die die festgelegten Anforderungen erfüllt, empfiehlt der bestehende Ansatz, die Dokumentation einer oder mehrerer APIs zu überprüfen oder Tests an ihnen durchzuführen. Diese Methoden sind jedoch zeitaufwändig, ressourcenintensiv und möglicherweise nicht ausreichend zuverlässig. Angesichts der Unpraktikabilität, alle Dokumentationen aller API-Anbieter gründlich zu untersuchen und zu testen, ist ein effizienterer und effektiverer Auswahlprozess erforderlich. Diese Forschung zielt darauf ab, diese Computer Vision APIs zu studieren und zu vergleichen. Sie wird ihre Leistung, Kosten, Funktionalität und Einschränkungen bewerten. Zusätzlich wird ein Prototyp-Tool entwickelt, um bei der Auswahl der besten API/s für spezifische Umstände zu helfen, unter Berücksichtigung von Faktoren wie Anwendungstyp und Budgetbeschränkungen. Das Ziel dieser Studie ist es, eine tiefgehende Analyse und einen Vergleich verschiedener Computer Vision APIs durchzuführen, Aspekte wie ihre Leistung, Kosten, Funktionalität und Einschränkungen zu bewerten. Ein Entscheidungshilfesystem wird entwickelt, um bei der Auswahl der geeignetsten API für bestimmte Situationen zu helfen. Dieses System konzentriert sich auf vier Schlüsselbereiche: Leistung, Kosten, Funktionalität und Einschränkungen. Das Tool ist so konzipiert, dass es automatisch API-Dokumentationen von Websites sammelt und analysiert, unter Verwendung eines maschinellen Lernalgorithmus. Basierend auf den vom Benutzer angegebenen Kriterien, wie Kosten oder Leistung..., organisiert und präsentiert das Tool die entsprechenden Informationen für alle ausgewählten APIs in aufsteigender Reihenfolge basierend auf einem Bewertungskriterium. Zusammenfassend hat das Aufkommen fortschrittlicher Computer Vision APIs von Industrieunternehmen die Landschaft der KI-Branche erheblich verändert. Diese APIs bieten zwar immense Vorteile in Bezug auf Funktionalität und Benutzerfreundlichkeit, bringen aber auch drei Herausforderungen in Bezug auf Leistung, Kosten und Einschränkungen mit sich. Die Notwendigkeit eines umfassenden Vergleichs und einer Analyse dieser APIs ist offensichtlich, da die richtige Wahl entscheidend ist, um potenzielle Risiken zu vermeiden und die Effizienz zu maximieren. Diese Forschung hat zum Ziel, diese Bedürfnisse zu adressieren, indem sie eine eingehende Bewertung verschiedener Computer Vision APIs und die Entwicklung eines Entscheidungshilfesystems. Dieses System, das maschinelles Lernen für die Analyse nutzt, vereinfacht den Auswahlprozess, indem es die Fähigkeiten der API mit benutzerspezifischen Anforderungen abgleicht. Letztendlich trägt diese Studie nicht nur zu einem tieferen Verständnis der aktuellen API-Landschaft bei, sondern bietet auch Entscheidungshilfetools, um Entwicklern und Organisationen bei der fundierten Entscheidungsfindung zu helfen, wodurch effektivere und zuverlässigere Anwendungsentwicklungen im Bereich der Computer Vision erleichtert werden.
Abstract
(Englisch)
The rapid advancements in computer vision technologies by industrial companies like Amazon, Google, IBM, and Microsoft have led to the development of robust image recognition APIs. These APIs have revolutionized the way programmers and businesses utilize computer vision, eliminating the need for building complex systems from scratch. Although these APIs offer considerable advantages, they also present notable challenges in terms of performance, cost, limitations, and functionalities. It is essential to conduct an in-depth analysis and comparison of these APIs to assist developers and organizations in making well-informed choices. Selecting the most suitable API in accordance with specific requirements is a complex task. For instance, a minor error like misreading a car license plate number by an API can lead to serious repercussions, demonstrating the critical nature of accurate API performance in real-life scenarios. The current APIs offer a wide range of services, including image classification, face recognition, image retrieval, optical character recognition, and handwriting interpretation. These APIs have democratized access to powerful Artificial Intelligence (AI) capabilities, enabling developers to focus on the pipeline aspects of their applications. In order to select the most suitable API that meets the specified requirements, the existing approach recommends reviewing the documentation of one or more APIs, or alternatively, conducting tests on them. However, these methods are time-consuming, resource-intensive, and may not be sufficiently reliable. Given the impracticality of thoroughly examining and testing all documentation of all the API providers, a more efficient and effective selection process is required. This research aims to study and compare these computer vision APIs. It will assess their performance, cost, functionality, and limitations. Additionally, a prototype tool will be developed to assist in selecting the best API/s for specific circumstances, considering factors such as application type, budget constraints. The goal of this study is to conduct an in-depth analysis and comparison of various computer vision APIs, evaluating aspects such as their performance, cost, functionality, and limitations. A decision support tool is developed to assist in select the most appropriate API for particular situations. This system will focus on four key areas: performance, costs, functionality, and limitations. The tool is designed to automatically gather and analyze API documentation from websites, utilizing a machine learning algorithm. Based on the user's specified criteria, such as cost or performance..., the tool is organizing and presenting the relative information for all chosen APIs in an ascending order based on an evaluation criteria. In conclusion, the emergence of advanced computer vision APIs from industrial companies has significantly transformed the landscape of AI industry. These APIs, while offering immense benefits in terms of functionality and ease of use, also bring three challenges in performance, cost and limitations. The necessity for a comprehensive comparison and analysis of these APIs is evident, as the correct choice is crucial to avoid potential risks and maximize efficiency. This research has aimed to address these needs by providing an in-depth evaluation of various computer vision APIs and developing a decision support system. This system, leveraging machine learning for analysis, simplifies the selection process by aligning API capabilities with user-specific requirements. Ultimately, this study not only contributes to a deeper understanding of the current API landscape but also offers decision support tools to assist developers and organizations in making informed decisions, thereby facilitating more effective and reliable application development in the field of computer vision.
Schlagwörter
Schlagwörter
(Deutsch)
Computer Vision Technologien Bilderkennungs-APIs Einschränkungen Funktionalitäten Bildklassifizierung
Autor*innen
Ziad Al Sarrih
Haupttitel (Englisch)
A comparative analysis of image recognition cloud services
Publikationsjahr
2024
Umfangsangabe
xiii, 108 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Wolfgang Klas
Klassifikation
54 Informatik > 54.87 Multimedia
AC Nummer
AC17283626
Utheses ID
72154
Studienkennzahl
UA | 066 | 921 | |