Announcement of the defence of the dissertation of MA. Jay Kejriwal
Dovoľujeme si oznámiť, že dňa 24. júna 2024 o 12.30 hod.
sa uskutoční na Ústave informatiky SAV, Dúbravská cesta 9, 845 07 Bratislava, v miestnosti č. 108, obhajoba dizertačnej práce/
We would like to announce that on 24 June 2024 at 12:30 p.m. will be held at the Institute of Informatics of the Slovak Academy of Sciences, Dúbravská cesta 9, 845 07 Bratislava, in room No. 108, the defence of the doctoral thesis of a PhD student
MA. Jaya Kejriwala/
MA. Jay Kejriwal
Názov dizertačnej prác/Thesis title:
Možnosti rečového prispôsobovania pre komunikáciu človek-stroj
Conversation coordination in human-machine communication
Odbor/Study field: Informatika/Computer Science
Študijný program/Study program: Aplikovaná informatika/Applied informatics
Školiteľ/Supervisor: prof. Mgr. Štefan Beňuš, PhD. – ÚI SAV, Bratislava
Abstrakt/Annotation:
Strhávanie je tendencia rečníka upravovať niektoré vlastnosti funkcií rečníka tak, aby zodpovedali charakteristikám partnera. Ovplyvňuje rôzne lingvistické dimenzie a zistilo sa, že koreluje s pozitívnymi sociálnymi atribútmi, čo umožňuje bohaté aplikácie v interakcii človek-stroj (HMI). Hovorcovia však nevykazujú podobné strhávacie správanie v každej konverzácii a jeho výskyt sa výrazne líši v závislosti od vlastností, rečníkov a kontextov, čo bráni širokému použitiu. Ďalej, strhávanie bolo rozsiahle študované pri interakciách človek-človek (HH) a človek-stroj (HM), ale nie je dobre pochopené. Konkrétne je ťažké porovnávať výsledky rôznych štúdií, pretože strhávanie sa vo všeobecnosti meria pomocou rôznych metodológií, ktoré odrážajú rôzne konceptualizácie. Táto práca sa primárne zameriava na zlepšenie systémov hovoreného dialógu (SDS) získaním hlbokého pochopenia strhávacieho správania v interakcii človek-človek (HHI) a potom aplikovaním tohto pochopenia na zlepšenie HMI. Prvým hlavným cieľom dizertačnej práce je vyvinúť systém na detekciu strhávania. Je prezentovaný originálny rámec hlbokého učenia, ktorý odvodzuje reprezentáciu z textových prvkov a trénuje existujúci akustický rámec pomocou siete TRIpLet Loss (TRILL) vektory obsahujúce relevantné informácie na identifikáciu strhnutia v štyroch lingvistických dimenziách: lexikálnej, syntaktickej, sémantickej a akustickej. Cieľom rámca je riešiť nedostatky existujúcich prístupov a priniesť sľubné výsledky. Výkon každého modelu hlbokej neurónovej siete (DNN) sa skúma v navrhovanom rámci extrahovaním rôznych textových a rečových funkcií. Strhávanie bolo kvantifikované pomocou dvoch rôznych vzdialeností v reprezentačnom priestore. Výkon trénovaných modelov bol overený rozlíšením skutočných a falošných rozhovorov pomocou navrhovaných vzdialeností. Nakoniec modely rozlišujú medzi interakciami človek-človek (HH) a človek-stroj (HM). Analýza odhalila, že akustické modely DNN prekonávajú textové modely DNN a merania vzdialenosti ovplyvňujú výkon modelu. Zistilo sa, že iba akustické modely dokážu rozlíšiť interakciu HH a HM. Druhým hlavným cieľom dizertačnej práce je pochopiť medzijazykové rozdiely v strhávaní naprieč rôznymi lingvistickými dimenziami v rôznych jazykoch. Niekoľko štúdií dokumentovalo za určitých okolností strhávanie hovoreného dialógu v konkrétnych jazykoch. Výskumníci však použili rôzne opatrenia na strhávanie a výsledky sú nepresvedčivé. Rozsah variácií v strhávaní v porovnateľných úlohovo orientovaných konverzáciách štyroch typologicky odlišných jazykov (angličtina, slovenčina, maďarčina a španielčina) na štyroch jazykových úrovniach (lexikálna, syntaktická, sémantická a akustická) s použitím porovnateľných nástrojov a metodológií založených na vložení DNN je preukázané. Medzijazykové porovnanie odhalilo, že maďarsky hovoriaci ľudia strhávajú viac so svojimi partnermi v porovnaní s anglicky, slovensky a španielsky hovoriacimi. Ďalej porovnanie na rôznych jazykových úrovniach v rámci každého jazyka odhalilo, že hovoriaci strhávajú viac na akustickej úrovni, po ktorej nasleduje sémantická, lexikálna a syntaktická úroveň. Okrem toho strhávanie na všetkých štyroch úrovniach pozitívne koreluje. Nakoniec sa skúmal vzťah medzi strhávaním a neverbálnymi sociálnymi podnetmi. Po prvé, vzťah medzi strhávaním človeka a robota a správaním sa robota pri pohľade bol analyzovaný zo súboru údajov, kde účastníci interagovali s robotom za dvoch rôznych podmienok pohľadu (upretý pohľad a averzia pohľadu). Predbežné analýzy naznačujú, že reproduktory strhávajú viac lexikálnych a akusticko-prozodických prvkov, keď je správanie pohľadu robota viac podobné ľudskému. Výsledky sú v súlade s teoretickými popismi strhávania, čo naznačuje, že jednotlivci podvedome používajú skripty na interakciu s ľuďmi na sociálne interakcie, keď zistia sociálne podnety ľudstva. Po druhé, vzťah medzi strhávaním a emóciami bol skúmaný pomocou korpusu založeného na dialógoch zo série telenoviel "Priatelia", aby sa preskúmali variácie v akusticko-prozodických črtách, keď sú rečníci v rôznych emocionálnych stavoch. Výsledky ukázali variácie v akusticko-prozodických črtách, kde rečník strháva a rozptyľuje rôzne prozodické črty, keď je jeho partner v rôznych emocionálnych stavoch. Stručne povedané, práca prispela k lepšiemu pochopeniu strhávania v HHI a HMI, ktoré môže byť užitočné pri vývoji strhávacej funkcie v existujúcich SDS.
Entrainment is the tendency of a speaker to adjust some properties of a speaker’s features to match the interlocutor’s characteristics. It affects various linguistic dimensions and is found to correlate with positive social attributes, allowing for rich applications in human-machine interaction (HMI). However, speakers do not exhibit similar entrainment behavior in every conversation, and its occurrence varies significantly across features, speakers, and contexts, hindering broad application. Further, entrainment has been extensively studied in Human-Human (HH) and Human-Machine (HM) interactions but is not well understood. Specifically, it is difficult to compare the results of different studies because entrainment is generally measured using different methodologies, reflecting varying conceptualizations. This thesis primarily focuses on improving spoken dialogue systems (SDS) by gaining an in-depth understanding of entrainment behavior in Human-Human interaction (HHI) and then applying this understanding to improve HMI. The first major goal of the dissertation is to develop an entrainment detection system. An original deep learning framework is presented that derives representation from textual features and trains existing acoustic framework with TRIpLet Loss network (TRILL) vectors containing relevant information for identifying entrainment in four linguistic dimensions: lexical, syntactic, semantic, and acoustic. The framework aims to address the shortcomings of existing approaches and produce promising outcomes. The performance of each Deep Neural Network (DNN) model is investigated within the proposed framework by extracting various text-based and speech features. Entrainment was quantified using two different distance measures in the representation space. The performance of the trained models was validated by distinguishing real and sham conversations using the proposed distances. Lastly, the models distinguish between Human-Human (HH) and Human-Machine (HM) interactions. The analysis revealed that acoustic-based DNN models outperform text-based DNN models, and distance measures affect the model's performance. It was found that only acoustic-based models can distinguish HH and HM interaction. The second major goal of the dissertation is to understand the cross-linguistic differences in entrainment across various linguistic dimensions in different languages. Several studies have documented entrainment in spoken dialogue in particular languages under certain circumstances. However, different entrainment measures have been utilized by researchers, and the results are inconclusive. The extent of variation in entrainment in comparable task-oriented conversations of four typologically different languages (English, Slovak, Hungarian, and Spanish) at four linguistic levels (lexical, syntactic, semantic, and acoustic) using comparable tools and methodologies based on DNN embeddings is demonstrated. A cross-linguistic comparison revealed that Hungarian speakers entrain more with their interlocutors when compared to English, Slovak, and Spanish speakers. Further, comparison across different linguistic levels within each language revealed that speakers entrain more at the acoustic level, followed by semantic, lexical, and syntactic levels. In addition, entrainment at all four levels is positively correlated. Lastly, the relationship between entrainment and non-verbal social cues was examined. First, the relationship between human-robot entrainment and the gaze behavior of the robot was analyzed from dataset where participants interacted with a robot under two different gaze conditions (fixed gaze and gaze aversion). Preliminary analyses indicate that speakers entrain more at lexical and acoustic-prosodic features when robot gaze behavior is more human-like. The results align with theoretical accounts of entrainment, suggesting individuals subconsciously apply scripts for interacting with humans to social interactions when they detect social cues of humanity. Second, the relationship between entrainment and emotion was explored using the corpus based on the dialogues from the "Friends" soap opera series to examine variations in acoustic-prosodic features when speakers are in different emotional states. The results showed variation in acoustic-prosodic features where a speaker entrains and dis-entrains on different prosodic features when their interlocutor is under different emotional states. To sum up, the thesis contributed to a better understanding of entrainment in HHI and HMI that can be useful in developing entrainment functionality in existing SDS.