Detailansicht

Bulk processing of molecule patent associations
Patrick Penner
Art der Arbeit
Diplomarbeit
Universität
Universität Wien
Fakultät
Fakultät für Lebenswissenschaften
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Diplomstudium Pharmazie
Betreuer*in
Thierry Langer
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.47400
URN
urn:nbn:at:at-ubw:1-26129.99731.113963-9
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Die Suche nach Molekülen in chemischen Patenten ist schon seit Jahrzehnten eine Herausforderung. Die Ungenauigkeit von Moleküldarstellungen, die Extraktion von Strukturen aus Patenten und die große Anzahl veröffentlichter Patente erschweren dieses Unterfangen. Dieses Projekt widmet sich einem bis jetzt wenig beachteten Aspekt der Patentsuche, nämlich einer automatisierten Suche nach Patenten für größere Molekülmengen. Dazu wird ein Framework geschaffen, das von zwei Endnutzerapplikationen implementiert wird. Als Datenquelle wurde der SureChEMBL Datensatz verwendet. Dieser wurde, zur besseren Handhabung, in eine relationale Datenbank eingespielt, die, auf einer mitgelieferten Vorlage aufbauend, der Nutzung entsprechend modifiziert wurde. Es wurde außerdem ein Interface programmiert, das die Verbindung der Datenbank mit einer Applikation steuert und die Nutzung erleichtert. Auf diesem Interface basierend, wurden zwei Programme in zwei verschiedenen Nutzeroberflächen implementiert: ein Knoten für die Workflowumgebung KNIME und ein Command Line Tool. Anschliessend wurde eine Reihe von Experimenten durchgeführt, welche die Funktionalität des Systems beschreiben sollen. Die Fähigkeit des Systems Moleküle in patentierte und nicht patentierte Moleküle zu sortieren, wurde an der KNIME Node geprüft. Das System trennte den gegebenen Datensatz mit hoher Genauigkeit auf. Einzelne Fehlentscheidungen des Systems und grundsätzliche Probleme mit dem Versuchsaufbau wurden anschließend diskutiert. Außerdem beschreiben weitere Experimente mit verschiedener Thread Anzahl, mit verschieden großen Datensätzen und mit unterschiedlich stark patentierten Verbindungen die Performance des Systems. Das System braucht im Durchschnitt etwa eine Sekunde, um ein Molekül hinsichtlich der Patentsituation zu charakterisieren. Zwei praktische Beispiele illustrieren mögliche Anwendungen des Systems und zuletzt wird noch auf zwei mögliche zukünftige Features eingegangen.
Abstract
(Englisch)
Searching through molecules in chemical patents has presented a challenge for decades. The ambiguity of representing molecules, their extraction from patents, and the sheer number of published patents all contribute to the complexity of the subject. This project attempts to fill a gap left by other patent searching systems. It creates a framework to allow automated processing of patent molecule associations. In addition, two user facing applications using this framework will be implemented. A data source had to be found to provide the associations, and the data set generated by the SureChEMBL platform was used. The data then had to be represented in a format that would allow for easy retrieval. A relational database was designed based on a provided template and modified to suit the needs of the intended functionality. Furthermore, an interface was required that would bridge the gap between a user facing application and the database backend. This interface was then used to create separate implementations in two different environments. One being a KNIME node extension and the other being a command line tool. A series of experiments was performed to determine whether the intended functionality had been achieved. The KNIME node implementation was used to test whether the node would correctly classify patented and not patented molecules. It was found that it did so with high accuracy. The reasons for incorrect molecule classification are discussed as well as some problems surrounding the test set up. Performance experiments describe the efficiency of the functionality. This varies depending on thread usage, size of the query data set, and the number of patents molecules are associated with. In general, approximately 1 second of average query time per molecule can be expected. Two use cases are included for illustration purposes and possible future features briefly discussed.

Schlagwörter

Schlagwörter
(Englisch)
Patents Pharmacy Chemistry Software Database Cheminformatics
Schlagwörter
(Deutsch)
Patente Pharmazie Chemie Software Datenbank Cheminformatik
Autor*innen
Patrick Penner
Haupttitel (Englisch)
Bulk processing of molecule patent associations
Paralleltitel (Deutsch)
Automatisierte Verarbeitung von Molekül Patent Assoziationen
Publikationsjahr
2017
Umfangsangabe
xiii, 57 Seiten : Illustrationen, Diagramme
Sprache
Englisch
Beurteiler*in
Thierry Langer
Klassifikationen
35 Chemie > 35.06 Computeranwendungen ,
54 Informatik > 54.20 Datenverarbeitungsanlagen: Allgemeines
AC Nummer
AC13794870
Utheses ID
41948
Studienkennzahl
UA | 449 | | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1