Tým z Massachusetts Institute of Technology a University of Toronto představil model, který se nesoustředí na výraz, ale na úmysl. Místo toho, aby vyhodnocoval, jak se člověk tváří, se pokouší pochopit, proč tuto emoci projevuje — a v jakém kontextu.
Proč klasické rozpoznávání emocí nestačí
Systémy založené na čtení obličejových výrazů mají několik zásadních omezení. Emocionální signály se napříč kulturami liší, výrazy mohou být záměrně potlačené nebo naopak přehnané, a mnoho lidí projevuje emoce tak subtilně, že běžný algoritmus nedokáže vzorec zachytit.
Navíc emoce nejsou jen vizuální. Neurověda ukazuje, že emocionální stav je výsledkem interakce kontextu, paměti, fyziologie a motivace. Zaměřit se pouze na výrazy znamená zachytit jen zlomek skutečného psychologického procesu.
Nový přístup: od výrazu k úmyslu
Výzkumný tým vytvořil model, který analyzuje emoce jako funkci situace, nikoli jako izolovaný signál. Místo toho, aby sledoval jednotlivé tvářové rysy, kombinuje několik vrstev vstupních dat:
textový kontext (například obsah probíhající konverzace)
intonaci a rytmus řeči
mikrogesta a pohyby očí
fyziologické indikátory (kde jsou dostupné)
historické vzorce chování uživatele
Tím vytváří dynamickou mapu úmyslu – dokáže například rozlišit ironii, stres v důsledku přetížení, obranný smích nebo situace, kdy člověk vyjadřuje radost povrchově, ale vnitřně je nejistý.
Model tak nepředvídá emoci, ale motivaci, která ji vede.

ČTĚTE TAKÉ: AI, která odhaluje ztracená města: algoritmy čtou terén rychleji než archeologické expedice
Jak se systém učí: spojení psychologie a strojového učení
Nový model vychází z tzv. Theory of Mind Networks – výzkumu, který zkoumá, jak lidé chápou mentální stavy druhých. Tuto oblast dříve využívala převážně kognitivní psychologie, nyní ale nachází uplatnění i ve strojovém učení.
Algoritmus je trénován na multimodálních datech, v nichž jsou emoce označeny nejen kategorií („hněv“, „radost“), ale i kontextem („hněv způsobený frustrací“, „hněv jako varování“, „falešná radost“). Výsledkem je systém, který dokáže předpovídat emocionální úmysl s přesností, která překonává dosavadní přístupy.
Studie také ukázala, že model dokáže lépe pracovat s ambivalentními signály — například smíšenými emocemi, které jsou pro klasické přístupy prakticky neuchopitelné.
Etické otázky: hranice mezi pomocí a narušením soukromí
Technologie, která dokáže odhadnout úmysl, otevírá zásadní etické otázky. Interpretace motivace může být citlivější než interpretace výrazu. Autoři studie proto zdůrazňují striktní omezení:
model má být použitelný pouze v prostředí s informovaným souhlasem
data mají být anonymizovaná a lokální, nikoli odesílaná na externí servery
výstupy mají sloužit k podpoře člověka, nikoli k rozhodování bez lidského dohledu
algoritmus nemá být využíván v represivních nebo kontrolních systémech
Etické rámce budou hrát klíčovou roli v tom, zda se technologie stane nástrojem pro podporu, nebo pro dohled.

ČTĚTE TAKÉ: AI, která dokáže předvídat přírodní katastrofy: jak funguje nový model výzkumníků z MIT
Možné využití: od zdravotnictví po výuku
Pokud bude technologie směrována správným směrem, může mít pozitivní dopad v několika oblastech:
psychoterapie (jemnější porozumění klientovi)
zdravotnictví (monitoring stresu u pacientů)
asistivní technologie pro lidi s poruchami komunikace
vzdělávání (identifikace frustrace nebo nejistoty u studentů)
péče o osamělé nebo starší osoby
Modely založené na úmyslu mohou lépe reagovat na potřeby člověka, aniž by se spoléhaly jen na vizuální signály.
Emoce nejsou jen to, co vidíme. Jsou to komplexy motivací, vzpomínek a kontextů, které se projevují různými způsoby. Nový přístup ke strojovému učení ukazuje, že budoucnost práce s emocemi může být přesnější a více propojená s tím, jak lidé skutečně fungují.
Technologie, která dokáže rozlišit úmysl, přibližuje umělou inteligenci způsobu lidského porozumění. Tím však zároveň vyžaduje, aby se vývojáři i společnosti ptali, kde leží hranice jejího použití.
Zdroje
Lee, K., et al. (2024). "Intent-Aware Emotion Recognition via Multimodal Learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
MIT Media Lab. "Affective Computing Group Research Overview."
University of Toronto, Cognitive Systems Lab. "Theory of Mind Models in Machine Learning."
Barrett, L. F. (2017). How Emotions Are Made: The Secret Life of the Brain. Houghton Mifflin Harcourt.

