Az ember-gép kommunikáció multimodális adatbázisai: adatok és interpretáció

Vezető: 
Dr. Hunyadi László, egyetemi tanár

Az ember-gép kommunikáció multimodális adatbázisai: adatok és interpretáció

Kutatócsoportunk célja alap- és alkalmazott kutatások végzése a multimodális ember-gép kommunikáció területén, ezáltal az ember-gép kommunikáció természetességének, hatékonyságának a növelése. Fókuszterületeink a verbális és nonverbális kommunikatív események közötti átfedések vizsgálata, illetve a spontán beszéd prozódiai szerkezetének és képi kifejeződéseinek kutatása a következő jelenségek kapcsán: beágyazások, beékelések, iterációk, hezitációk, újrakezdések; érzelmek/kognitív állapotok; társalgási fordulók, visszajelzések (backchannels). A kutatás első lépése volt egy olyan multimodális, reprezentatív adatbázis gyűjtése és annotálása, amely a vizsgálandó jelenségeket megfelelő mennyiségben tartalmazza, valamint beszédtechnológiai rendszerek betanítására és tesztelésére alkalmas.

A felvételek a Debreceni Egyetem Angol-Amerikai Intézetéhez tartozó, előre felszerelt stúdióban készültek; az audió-felszerelés (beszélőnként egy Shure 16 A típusú kardioid mikrofon, összesen 2 db) tehát adott volt; a hangrögzítéshez a Sound Forge Pro 10 szoftvert használtuk, sztereó wav formátumú fájlokat rögzítettünk 44,1 kHz mintavételezési frekvenciával és 16 bites kvantálással. A videófelvételek rögzítéséhez 3 HD minőségű digitális kamerát (Sony HDRXR520VE) és 2 webkamerát (Logitech Webcam Pro 9000) használtunk, ezek közül 1 HD kamera rögzítette az interjúztatót, a többi a beszélőt. A HD kamerákkal rögzített felvételek fájlformátuma mts, a webkameráké jpg. Folyamatban van a kutatócsoport saját stúdiójának kiépítése, ezáltal lehetőség nyílik újabb felvételek készítésére. A jelenlegi adatbázis 121 fiatal felnőtt beszélőtől tartalmaz formális és informális spontán beszédet irányított dialógusok formájában, megfelelő férfi-női eloszlással (45% nő, 55% férfi beszélő). Életkor tekintetében a beszélők leginkább az egyetemi képzésben résztvevő hallgatókat, a származási eloszlás tekintetében pedig elsősorban Északkelet-Magyarországot reprezentálják. Az egyes beszélőknek négy feladata volt a felvételek rögzítése során:

  1. fonetikailag gazdag mondatok és szavak felolvasása (ez a rész a folyamatos beszédfelismerő rendszer betanításához szükséges, a magyar nyelv fonémavariációit fedi le megfelelő arányban), 
  2. beágyazott mondatok felolvasása
  3. formális társalgás szimulált állásinterjú formájában, magázódás, 
  4. informális társalgás az interjúztató és a beszélő között – ennél a résznél az interjúztató már egyenrangú félként viselkedik, a saját történeteit is elmeséli, tegeződés. Beszélőnként átlagosan 30 percnyi anyagot rögzítettünk (4 perc felolvasást és 26 perc irányított spontán beszélgetést); jelenleg összesen 51 órányi multimodális anyag áll rendelkezésre.

Az adatbázis annotációja folyamatban van, amely fontos része az adatfeldolgozásnak. Az audió-annotáció részét képezi a hanganyag tagmondatokra való szegmentálása, és a szegmentumok címkékkel való ellátása. Az annotáláshoz a Praat szoftvert használjuk, öt annotációs szintet különítünk el: három funkcionális és két transkripciós szintet; a funkcionális szint három összetevőből áll: az intonációs frázisok, az emocionális frázisok és a diskurzusfrázisok szintjéből. A videó-annotációs eszközzel – amely a HuComTech csoport saját fejlesztése – címkézzük a fej, a szemek/tekintet, a szemöldök, a kezek, a váll, illetve a felsőtest különféle mozdulatait, valamint a tartások, mozdulatok társalgásban betöltött szerepét. Lehetőség van az annotációs szintek bővítésére is. A kész adatbázison azután lehetővé válik a dialógusok multimodális jellemzőinek feltárása, az egyes audió- és videó-címketípusok gyakoriságának összehasonlítása, illetve az egyes címketípusokhoz tartozó jelenségek mélyreható vizsgálata.