(In Hungarian)
Kedvezményezett neve:
TC&C Kft.
A projekt címe:
A CARIN egységes kommunikáció rögzítő rendszer továbbfejlesztése mesterséges intelligencia alapú új funkciókkal multimédiás tartalmak nagy megbízhatóságú kiértékeléséhez
A szerződött támogatás összege:
177.700.866 Ft
A támogatás mértéke (%-ban):
66,63%
A projekt tartalmának bemutatása:
A TC&C csaknem két évtizede kezdte fejleszteni a Cisco egységes kommunikációs rendszerein folytatott audió, videó és chat beszélgetések komplex rögzítését megvalósító, többszörösen díjazott CARIN architektúrát.
E rögzítő rendszerek legjelentősebb felhasználója a pénzügyi és a szolgáltató szektor, amelynek szereplői keresik azokat a megoldásokat, amelyekkel a törvényi kötelezettség miatt rögzítendő hívásokat új szempontok szerint, megbízható módon, automatikusan lehet kiértékelni. Komoly igény mutatkozik arra, hogy a rögzítő megoldás érzelmileg elemezze a multimédia tartalmat és kiszűrje a kritikus beszélgetéseket a minőségbiztosítási, illetve a compliance csoport számára. Az érzelmi elemzésre a jelenleg rohamosan fejlődő mesterséges intelligencia tudományterülete nyújt eszközöket.
A PROJEKT CÉLJA, HOGY A TC&C – A CARIN EGYSÉGES KOMMUNIKÁCIÓ RÖGZÍTŐ RENDSZER TOVÁBBFEJLESZTÉSÉVEL – EGY OLYAN TERMÉKET HOZZON LÉTRE, AMELY MESTERSÉGES INTELLIGENCIA ALAPÚ ÉRZELEM FELISMERÉS ÉS EGYÉB SZÜKSÉGES FUNKCIÓK RÉVÉN KÉPES A MULTIMÉDIÁS TARTALMAK NAGY MEGBÍZHATÓSÁGÚ KIÉRTÉKELÉSÉRE. A KIFEJLESZTENDŐ TERMÉK KÓDNEVE: CARIN QAI.
Technikailag a feladat egy szöveg vagy szöveg-részlet érzelmi kifejezéseinek meghatározása. Egyrészt különböző alapérzelem típusok (harag, boldogság, szomorúság stb.) érzékeléséhez számszerű értéket/valószínűséget tudunk rendelni, másrészt a szöveg polaritásának megállapítására (pozitív, negatív vagy semleges) érzelmi pontszámot használunk, amely megkönnyíti a különböző beszédek és beszélők érzelmi kifejezésének összehasonlítását.
Mesterséges intelligencia megoldásunk az érzelem elemzés során arcfelismerést, beszédfrekvencia elemzést és szemantikai elemzést használna az érzelmek, videók, szöveg és beszéd alapján történő értelmezésére.
Az elérhető piaci megoldásokkal szemben a mi rendszerünk on-prem rendszerként is működtethető, tehát a pénzügyi, kormányzati szektorban tevékenykedő vállalatok szigorú biztonsági előírásai mellett is alkalmazható: nem kerül feltöltésre érzékeny adat/média külső szolgáltatóhoz felhő-infrastruktúrába.
Abból a szempontból is egyedi a megoldás, hogy videó hívás esetében a lehetséges három forrásból (videó, beszéd, szöveg) mindhárom esetében képesek lennénk érzelem kinyerésre, audió hívás esetében pedig a lehetséges két forrásból (beszéd és szöveg).
A feladat jellege miatt az eltérő piacokon tevékenykedő vállalatok ügyfélkörére eltérő érzelem elemzés eredmények várhatóak, például egy faktoring cég ügyfélszolgálata más kommunikációt folytat, mint egy kormányhivatal. Ezeknek a kihívásoknak úgy lehet megfelelni, hogy az ügyfeleknek lehetősége van saját adattal tanítani az érzelem felismerő rendszert. A tanítás technikailag a háttérben futó mesterséges neurális hálózatok módosítását jelenti az ügyfél által megcímkézett adathalmaz alapján.
A videó alapú érzelem detektálás képkockánként történik majd az arcon megjelenő érzelmek felismerésével. Koncepciónk szerint az algoritmus felismeri az arcot vagy arcokat egy képkockáról és az arcon lévő pontok közötti kapcsolatok elemzésével érzékeli az érzelmi kifejezéseket. A mesterséges intelligencia meghatározza, hogy az adott arcon látható érzelem milyen valószínűséggel kategorizálható be valamelyik tanított érzelmi kategóriába (öröm, harag, undor stb.).
Az írott szövegben az érzelmek észleléséhez a tanulórendszer elemzi a szöveget és megállapítja, hogy a szövegben szereplő állítás általában pozitív vagy negatív a kulcsszavak és az azokhoz tartozó érzelmi indexek alapján.
Az elmondott beszéd alapján működő érzelem detektálás a rögzített beszéd hangneme alapján állapítja meg a beszédben kifejeződő érzelmeket. A hangnem felismeréséhez a médiából kinyert hullámforma, spektrogram szükséges, illetve tudományos adatbázisok és saját adatbázis segítségével tanított mesterséges neurális hálózat.
A különböző forrásokból származó érzelmi elemzés összesítését egy újabb tanítható mesterséges neurális hálózat fogja elvégezni.
A projekt tervezett befejezési dátuma:
2023.09.30.
Projekt azonosító száma:
2020-1.1.2-PIACI-KFI-2021-00220