Announcement of the defence of the dissertation of Ján Mach
Dovoľujeme si oznámiť, že dňa 26. augusta 2025 o 10.30 hod.
sa uskutoční na Fakulte informatiky a informačných technológií STU v Bratislave, Ilkovičova 2, 842 16 Bratislava, v miestnosti č. 3.08, obhajoba dizertačnej práce/
We would like to announce that on 26 August 2025 at 10:30 a.m. will be held at the Faculty of Informatics and Information Technology STU in Bratislava, Ilkovičova 2, 842 16 Bratislava, in room No. 3.08, the defence of the doctoral thesis of a PhD student
Ing. Jána Macha/
Ing. Ján Mach
Názov dizertačnej prác/Thesis title:
Architektúry procesorov RISC-V pre aplikácie kritické z hľadiska spoľahlivosti
RISC-V Processor Architectures for Safety-Critical Applications
Odbor/Study field: Informatika/Computer Science
Študijný program/Study program: Aplikovaná informatika/Applied informatics
Školiteľ/Supervisor: doc. Ing. Lukáš Kohútka, PhD. – FIIT STU v Bratislave
Abstrakt/Annotation:
Táto dizertačná práca je zameraná na ochranu procesorových jadier pred náhodnými hardvérovými poruchami. V súčasnosti je najrozšírenejšou technikou zabezpečenia redundantné vykonávanie na inak nechránených jadrách, a to najmä pre svoju jednoduchosť a schopnosť detekcie porúch. Mechanizmom detekcie chýb na tejto úrovni však chýbajú informácie o vnútorných stavoch jadier, čo vedie k rôznym nevýhodám a kompromisom v návrhu a prevádzke systémov kritických z hľadiska bezpečnosti. Mechanizmy, ktoré zabezpečujú obnovu po zistení poruchy, sa často implementujú v softvéri a vyžadujú vytváranie pravidelných záloh, čo komplikuje plánovanie úloh v operačných systémoch v reálneho času, znižuje výkon a zvyšuje nároky na pamäť. Obnova môže navyše trvať dlho, čo znižuje dostupnosť systému. Dizajnovanie prispôsobených procesorových jadier už nie je zriedkavý a mnohé spoločnosti ich využívajú na zvýšenie efektivity svojej špecifickej aplikácie. Vzostup otvorenej a prispôsobiteľnej inštrukčnej sady, RISC-V, vytvára ešte viac takýchto príležitostí. Táto dizertačná práca popisuje novú schému ochrany na úrovni mikroarchitektúry jadra, ktorú možno integrovať do dizajnu existujúcich jadier pre vnorené systémy. Využitím takejto ochrany sa zlepšuje odolnosť systémov kritických z hľadiska bezpečnosti voči chybám s vyššou efektívnosťou ako bežne používaná redundancia celých jadier. Táto práca analyzuje vznik a šírenie porúch v elektronickom systéme, prevalenciu problému v súčasných návrhoch a predpovede do budúcnosti. Tiež sumarizuje vývoj elektronického systému a analyzuje rôzne existujúce techniky zabezpečenia použiteľné na rôznych úrovniach návrhu systému. Analýza odhalila, že najmodernejšie systémy zvyčajne akceptujú nevýhody redundancie celých jadier a existujúce návrhy vlastnej ochrany zvyčajne popisujú iba čiastočné riešenia, často bez akejkoľvek ochrany rozhrania, ktorá by mohla umožniť robustné prepojenie v rámci systému. Schéma ochrany navrhnutá v tejto dizertačnej práci kombinuje priestorovú a informačnú redundanciu vo vykonávacom prostriedku jadra, súbore registrov a zbernicovom rozhraní, pričom sa vyhýba redundancii štruktúr, ktoré nie sú nevyhnutné na zabezpečenie odolnosti voči chybám. Ochrana tiež využíva otvorenosť a prispôsobiteľnosť RISC-V na poskytovanie rôznych softvérovo konfigurovateľných funkcií. Bola navrhnutá aj nová metodika vkladania chýb, ktorá bola využitá na analýzu robustnosti zabezpečenia. Výsledky z fyzickej syntézy ukazujú, že jadro procesora chránené navrhovanou schémou môže poskytnúť odolnosť voči chybám s podobným výpočtovým výkonom, spotrebou energie a plochou čipu ako dvojjadrová redundancia, ktorá môže poskytnúť iba detekciu chýb.
This PhD thesis is focused on protecting processor cores against random hardware faults. Nowadays, the most widespread protection technique is system-level lockstepping of several unprotected cores, mainly because of its simplicity and fault detection capabilities. However, the error detection mechanisms at this level lack information about the internal states of the cores, resulting in various downsides and compromises in the design and operation of the safety-critical systems. The recovery mechanisms are often employed in the software and require periodic checkpointing, which complicates task scheduling in real-time operating systems, reduces performance, and increases memory overhead. Moreover, the recovery may take a long time, reducing system availability. The design of custom processor cores is no longer rare, and many companies leverage them to increase the efficiency of their specific application. The rise of open and customizable instruction set architecture, RISC-V, creates even more opportunities. Therefore, a protection at the microarchitectural level of the core was proposed that can be integrated into the design of existing embedded-class cores. Employing such protection improves fault tolerance capabilities of safety-critical systems with higher efficiency than conventional system-level lockstepping. This thesis analyzes fault creation and propagation within the electronic system, the prevalence of the problem in current designs, and future predictions. It also summarizes the development of an electronic system and analyzes various existing protection techniques employable at distinct levels of the system design. The analysis revealed that state-of-the-art systems usually accept the downsides of the system-level lockstep, and existing custom protection proposals typically describe only partial solutions, often without any interface protection that could enable robust interconnection within the system. The protection scheme proposed in this PhD thesis combines spatial and information redundancy in the execution pipeline, register file, and bus interface while avoiding redundancy of structures that are not essential for providing fault tolerance. The protection also leverages the openness and customizability of the RISC-V to provide various software-configurable features. Moreover, a new fault injection methodology was proposed and leveraged to analyse the robustness of the protection scheme. The results from physical synthesis show that a processor core protected with the proposed scheme can provide fault tolerance with similar performance, power consumption, and chip area as dual-core lockstep, which can only provide fault detection.