Dovoľujeme si oznámiť, že dňa
25. 8. 2016 o 13.00 hod.
sa uskutoční na Fakulte informatiky a informačných technológií STU v Bratislave
Ilkovičova 2, v miestnosti 5.08 obhajoba dizertačnej práce
Ing. Štefana Dlugolinského
Názov dizertačnej práce:
Combining Named Entity Recognition Methods for Concept Extraction
Príspevok k spracovaniu rozsiahlych informačných zdrojov
Odbor: 9.2.9 Aplikovaná informatika
Školiteľ: doc. RNDr. Michal Laclavík, PhD. - ÚI SAV, Bratislava
Oponenti dizertačnej práce:
prof. Ing. Ján Paralič, PhD. - FEI TU v Košiciach
doc. Ing. Viera Rozinajová, PhD. - FIIT STU v Bratislave
Abstrakt:
V práci prezentujeme náš výskum v oblasti rozpoznávania názvoslovných entít (NER), ktorá je jedným z hlavných problémov extrakcie informácií. Zameriavame sa pritom na "gazetteer-e" ako základný kameň mnohých NER systémov a na kombináciu rôznych NER metód. V súvislosti s "gazetteer-mi" sa koncentrujeme na detekciu entít v texte s lineárnou zložitosťou pri použití veľkých dátových zdorojov akými sú napr. Freebase, či Wikipedia. Hlavná časť práce je venovaná kombinácii NER metód reprezentovanými rôznymi nástromi. Navrhli sme metódu rozpoznávania názvoslovných entít v texte, ktorá dokáže kombinovať čiastkové výsledky použitých nástrojov a dosahuje lepšie výsledky ako by dosahoval ľubovoľný z kombinovaných nástrojov samostatne. Nástroje kombinujeme s využitím techník strojového učenia, konkrétne pomocou rozhodovacích stromov a náhodných lesov s algoritmom C4.5. Metódu sme evaluovali na štandardnom datasete mikropríspevkov a porovnali s existujúcimi známymi nástrojmi. Výsledky ukazujú, že kombinujúca metóda dosahuje mierne lepšie F1 skóre ako základný systém aj napriek tomu, že kombinované metódy neboli vôbec trénované a upravované na daný typ textu.
In the current work, we present our research related to Named Entity Recognition (NER). We focus on gazetteers, as a base-building block of many NER systems as well as on combining different NER methods. Regarding gazetteers, we focus on problems, related to when it comes to complete gazetteer lists with entities from big data sources such as Freebase or Wikipedia, yet with the ability of linear complexity matching of the entities in the input text. Regarding the combination of different NER methods, we propose a method for NER in micro-posts, which is designed to combine annotations yielded by existing NER tools, in order to produce more precise results than input tools alone. We combine NE recognizing utilizing machine learning techniques, namely decision tree and random forest using the C4.5 algorithm. The main advantage of the current proposed method is the possibility to combine arbitrary NER methods and in its application on short, informal texts.
Autoreferát dizertačnej práce zaslaný do vedeckého časopisu Information Sciences and Technologies - Bulletin of ACM Slovakia.
Dizertačná práca je k nahliadnutiu na Študijnom oddelení FIIT STU.