Prejsť na obsah
dizertácie

 

Dovoľujeme si oznámiť, že dňa

30. 8. 2012 o 10:00

sa na Fakulte informatiky a informačných technológií STU v Bratislave
v miestnosti D 220 uskutoční obhajoba dizertačnej práce

Ing. Jakuba Mažguta

Názov dizertačnej práce:     Generalized Multilinear Model for Dimensionality Reduction of Binary Tensors
(Zovšeobecnený multilineárny model na redukciu dimenzie tenzorových dát s binárnymi prvkami)
Odbor:     Aplikovaná informatika

Školiteľ:

  • Ing. Peter Tiňo, PhD. - FIIT STU v Bratislave

Oponenti dizertačnej práce:

  • doc. Ing. Igor Farkaš, PhD. - FMFI UK v Bratislave
  • prof. Ing. Vladimír Kvasnička, DrSc. - FIIT STU v Bratislave

Abstrakt:

    Current data processing tasks often involve manipulation of multi-dimensional objects - tensors. In many real world applications such as gait recognition, document analysis or graph mining (with graphs represented by adjacency tensors), the tensors can be constrained to binary values only. To the best of our knowledge at present there is no principled systematic framework for decomposition of binary tensors. To close this gap we propose a generalized multilinear model for dimensionality reduction of binary tensors (GMM-DR-BT). We derived an iterative scheme for estimation of the model parameters via maximum likelihood. We evaluate and compare the proposed GMM-DR-BT technique with existing real-valued and nonnegative tensor decomposition methods in two scenarios: (1) in a series of controlled experiments exploring the amount of preserved information in the lower rank approximations involving synthetic and real data sets; (2) on a real world biological data set of DNA sub-sequences from different functional regions, with sequences represented by binary tensors. The experiments suggest that the GMM-DR-BT model is better suited for modeling binary tensors than its real-valued and nonnegative counterparts. Furthermore, we extended our GMM-DR-BT model to the semi-supervised setting by forcing the model to search for a natural parameter subspace that represents a user specified compromise between the modelling quality and the degree of class separation.

    Viaceré riešenia aktuálnych úloh v oblasti spracovania dát vyžadujú manipuláciu s objektmi s viacnásobnou dimenzionalitou. Takéto objekty nazývame tenzory a vo viacerých aplikáciach reálneho sveta, ako napríklad identifikácia človeka na základe chôdze, analýza dokumentov alebo dolovanie znalostí z rozsiahlych grafov (graf reprezentovaný tenzorom susednosti), môžu byť prvky jednotlivých tenzorov obmedzené len na binárne hodnoty. Avšak, podľa našich doposiaľ získaných vedomostí, absentovala v oblasti dekompozičných techník systematická metodológia špeciálne navrhnutá pre spracovanie tenzorov s binárnymi prvkami. Aby sme vyplnili objavenú medzeru v oblasti dekompozičných techník, navrhli sme zovšeobecnený multilineárny model pre redukciu dimenzie tenzorových dát s binárnymi prvkami (GMM-DR-BT model). Odvodili sme iteratívny algoritmus pre odhad parametrov modelu pomocou metódy maximalizácie funkcie vierohodnosti (maximum likelihood). Výsledky experimentov či už na syntetických, alebo reálnych dátových množinách naznačujú, že náš GMM-DR-BT model je vhodnejší pre modelovanie binárnych tenzorov ako existujúce dekompozičné techniky pre tenzori s reálnymi a nezápornými prvkami. Okrem samotného GMM-DR-BT modelu, sme navrhli jeho rozšírenie o možnosť kombinácie učenia bez učiteľa a s učiteľom (z angl. semi-supervised learning) tak, aby sa pri odhade parametrov modelu zvýšila miera separácie medzi jednotlivými triedami dátových tenzorov.

    Autoreferát dizertačnej práce zaslaný do vedeckého časopisu Information Sciences and Technologies - Bulletin of ACM Slovakia

Dizertačná práca je k nahliadnutiu na Študijnom oddelení FIIT STU.