Announcement of the defence of the dissertation of Ing. Juraj Petrík
Dovoľujeme si oznámiť, že dňa 26. augusta 2025 o 12.00 hod.
sa uskutoční na Fakulte informatiky a informačných technológií STU v Bratislave, Ilkovičova 2, 842 16 Bratislava, v miestnosti č. 2.06, obhajoba dizertačnej práce/
We would like to announce that on 26 August 2025 at 12:00 p.m. will be held at the Faculty of Informatics and Information Technology STU in Bratislava, Ilkovičova 2, 842 16 Bratislava, in room No. 2.06, the defence of the doctoral thesis of a PhD student
Ing. Juraja Petríka/
Ing. Juraj Petrík
Názov dizertačnej prác/Thesis title:
Rozpoznanie podobnosti textov, programových kódov
Recognition the similarity of texts, programing
Odbor/Study field: Informatika/Computer Science
Študijný program/Study program: Aplikovaná informatika/Applied informatics
Školiteľ/Supervisor: doc. Mgr. Michal Kováč, MSc., PhD. – FIIT STU v Bratislave
Abstrakt/Annotation:
Táto dizertačná práca je štúdiou výpočtových metód pre autorskú atribúciu a stylometrickú analýzu so zameraním na rozpoznávanie podobnosti textov a analýzu zdrojového kódu. Práca ukazuje, ako využiť štandardné unixové nástroje na spracovanie textu na odhalenie plagiátorstva v zdrojovom kóde bez potreby poznať programovací jazyk. Tento prístup fungoval lepšie než známe nástroje ako MOSS, JPlag a SIM. Po druhé, predstavuje hierarchickú architektúru neurónových sietí, ktorá kombinuje konvolučné a rekurentné vrstvy a dosahuje 97,5 % presnosť pri určovaní autorstva zdrojového kódu na referenčných datasetoch. Po tretie, je to prvá systematická štúdia efektov časového posunu (angl. temporal drift) v stylometrii zdrojového kódu. Ukazuje, že presnosť v čase výrazne klesá a že existujú zaujímavé asymetrické časové vzory.
Štúdia presahuje rámec analýzy zdrojového kódu a zahŕňa profilovanie obsahu sociálnych médií, analýzu politického diskurzu a autorskú atribúciu naprieč jazykmi. Práca dokazuje, že vyvinuté metódy sú užitočné v mnohých jazykoch a oblastiach účasťou na zdieľaných úlohách PAN@CLEF. Porovnanie tradičných metód strojového učenia a hlbokého učenia ukazuje, že modely hlbokého učenia zvyčajne dosahujú vyššiu presnosť, ale tradičné metódy zostávajú konkurencieschopné vďaka zvyčajne lepšej interpretovateľnosti a menším výpočtovým nárokom.
Dizertácia tiež prispieva výskumnej komunite vytvorením a zverejnením štandardizovaných datasetov (Google Code Jam a Codeforces), ktoré sa často používané ako referenčné datasety v stylometrii zdrojového kódu.
This dissertation is a thorough study of computational methods for authorship attribution and stylometric analysis, with a focus on recognizing text similarity and analyzing source code. The thesis shows how to use standard Unix text processing tools to find plagiarism in source code without having to know the programming language. This worked better than well-known tools like MOSS, JPlag, and SIM. Second, it shows a hierarchical neural network architecture that combines convolutional and recurrent layers and gets 97.5% accuracy in figuring out who wrote the source code on benchmark datasets. Third, it is the first systematic study of the effects of temporal drift in source code stylometry. It shows that accuracy drops significantly over time and shows interesting asymmetric temporal patterns.
The study goes beyond looking at source code to include profiling social media content, analyzing political discourse, and attributing authorship across languages. The work shows that the methods developed are useful in many languages and fields by taking part in PAN@CLEF shared tasks. A systematic comparison of traditional machine learning and deep learning methods shows that deep learning models usually have higher accuracy, but traditional methods are still competitive because usually they are easier to understand and faster to compute.
The dissertation also helps the research community by creating and making public standardized datasets (Google Code Jam and Codeforces) that are now commonly used as benchmarks in source code stylometry.