Bulk processing of molecule patent associations

Penner Patrick; undefined; undefined; undefined

doi:10.25365/thesis.47400

Detailansicht

Bulk processing of molecule patent associations

Patrick Penner

Art der Arbeit

Diplomarbeit

Universität

Universität Wien

Fakultät

Fakultät für Lebenswissenschaften

Studiumsbezeichnung bzw. Universitätlehrgang (ULG)

Diplomstudium Pharmazie

Betreuer*in

Thierry Langer

Volltext in Browser öffnen

DOI

10.25365/thesis.47400

URN

urn:nbn:at:at-ubw:1-26129.99731.113963-9

Link zu u:search

(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract

(Deutsch)

Die Suche nach Molekülen in chemischen Patenten ist schon seit Jahrzehnten eine Herausforderung. Die Ungenauigkeit von Moleküldarstellungen, die Extraktion von Strukturen aus Patenten und die große Anzahl veröffentlichter Patente erschweren dieses Unterfangen. Dieses Projekt widmet sich einem bis jetzt wenig beachteten Aspekt der Patentsuche, nämlich einer automatisierten Suche nach Patenten für größere Molekülmengen. Dazu wird ein Framework geschaffen, das von zwei Endnutzerapplikationen implementiert wird. Als Datenquelle wurde der SureChEMBL Datensatz verwendet. Dieser wurde, zur besseren Handhabung, in eine relationale Datenbank eingespielt, die, auf einer mitgelieferten Vorlage aufbauend, der Nutzung entsprechend modifiziert wurde. Es wurde außerdem ein Interface programmiert, das die Verbindung der Datenbank mit einer Applikation steuert und die Nutzung erleichtert. Auf diesem Interface basierend, wurden zwei Programme in zwei verschiedenen Nutzeroberflächen implementiert: ein Knoten für die Workflowumgebung KNIME und ein Command Line Tool. Anschliessend wurde eine Reihe von Experimenten durchgeführt, welche die Funktionalität des Systems beschreiben sollen. Die Fähigkeit des Systems Moleküle in patentierte und nicht patentierte Moleküle zu sortieren, wurde an der KNIME Node geprüft. Das System trennte den gegebenen Datensatz mit hoher Genauigkeit auf. Einzelne Fehlentscheidungen des Systems und grundsätzliche Probleme mit dem Versuchsaufbau wurden anschließend diskutiert. Außerdem beschreiben weitere Experimente mit verschiedener Thread Anzahl, mit verschieden großen Datensätzen und mit unterschiedlich stark patentierten Verbindungen die Performance des Systems. Das System braucht im Durchschnitt etwa eine Sekunde, um ein Molekül hinsichtlich der Patentsituation zu charakterisieren. Zwei praktische Beispiele illustrieren mögliche Anwendungen des Systems und zuletzt wird noch auf zwei mögliche zukünftige Features eingegangen.

Abstract

(Englisch)

Searching through molecules in chemical patents has presented a challenge for decades. The ambiguity of representing molecules, their extraction from patents, and the sheer number of published patents all contribute to the complexity of the subject. This project attempts to fill a gap left by other patent searching systems. It creates a framework to allow automated processing of patent molecule associations. In addition, two user facing applications using this framework will be implemented. A data source had to be found to provide the associations, and the data set generated by the SureChEMBL platform was used. The data then had to be represented in a format that would allow for easy retrieval. A relational database was designed based on a provided template and modified to suit the needs of the intended functionality. Furthermore, an interface was required that would bridge the gap between a user facing application and the database backend. This interface was then used to create separate implementations in two different environments. One being a KNIME node extension and the other being a command line tool. A series of experiments was performed to determine whether the intended functionality had been achieved. The KNIME node implementation was used to test whether the node would correctly classify patented and not patented molecules. It was found that it did so with high accuracy. The reasons for incorrect molecule classification are discussed as well as some problems surrounding the test set up. Performance experiments describe the efficiency of the functionality. This varies depending on thread usage, size of the query data set, and the number of patents molecules are associated with. In general, approximately 1 second of average query time per molecule can be expected. Two use cases are included for illustration purposes and possible future features briefly discussed.

Autor*innen

Patrick Penner

Haupttitel (Englisch)

Bulk processing of molecule patent associations

Paralleltitel (Deutsch)

Automatisierte Verarbeitung von Molekül Patent Assoziationen

Publikationsjahr

2017

Umfangsangabe

xiii, 57 Seiten : Illustrationen, Diagramme

Sprache

Englisch

Beurteiler*in

Thierry Langer

Klassifikationen

35 Chemie > 35.06 Computeranwendungen ,

54 Informatik > 54.20 Datenverarbeitungsanlagen: Allgemeines

AC Nummer

AC13794870

Utheses ID

41948

Studienkennzahl

UA | 449 | | |

Detailansicht

Abstracts

Schlagwörter