[논문 리뷰] (CHI ‘24) Simulating Emotions With an Integrated Computational Model of Appraisal and Reinforcement Learning

논문 출처: Jiayi Eurus Zhang, Bernhard Hilpert, Joost Broekens, and Jussi P. P. Jokinen. 2024. Simulating Emotions With an Integrated Computational Model of Appraisal and Reinforcement Learning. In Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems (CHI '24). Association for Computing Machinery, New York, NY, USA, Article 703, 1–12. https://doi.org/10.1145/3613904.3641908

Abstract

상호작용 중 유저의 감정 상태(emotional state)를 예측하는 것은 감성 컴퓨팅(affective computing)의 주요 과제
한계: 전통적인 방식 감각 데이터(sensory data)에 의존하여 사용자의 내재적(latent) 인지 상태와 감정 반응 간의 상호작용(interplay) 때문에 한계
연구 방법: 상호작용 에피소드 동안 감정을 정적인 상태가 아닌 연속적인 과정(continuous process)으로 시뮬레이션하는 인지 컴퓨팅 모델 제안
- 모델은 계산적 합리성(computational rationality)과인지-감정적 평가 메커니즘(cognitive-emotional appraisal mechanisms) 통합, 강화학습의 가치 예측(value predictions) 활용
연구 결과: 상호작용 중에 발생하는 행복(happiness), 지루함(boredom), 짜증(irritation)과 같은 감정의 발생을 예측하고 설명
연구 의의:
- 이러한 접근 방식은 사용자 감정 상태에 적응하여 사용자 경험과 몰입도(engagement)를 향상시키는 상호작용 시스템 설계 가능성을 열어줌
- 보상 처리(reward processing), 강화학습, 목표 지향적 행동(goal-directed behavior), 그리고 평가(appraisal) 간의 관계를 모델링하는 가능성을 심화

1. Introduction

emotion의 중요성
- 상호작용에 영향을 미침
- 컴퓨터는 상대방의 감정을 이해, 예측하기 어려움
emotion detection의 어려움
- 심리 생리학적 시그널에 집중
- 감정(emotion)과 인지(cognition)간 상호작용(interplay) 때문에 어려움
  - 인지 과정은 관찰 불가능
이 논문은 강화학습 모델을 이용하여 보상 체계(reward processing)과 평가 이론(appraisal theory) 통합 → 상호작용 중 감정을 동적으로 시뮬레이션하는 방법을 제시
- cf) 평가 이론: 정서유발자극이 지각되면 → 먼저 그 상황에 대한 평가가 이루어지고 → 정서적 경험이 결정된다는 이론
  - 상황 자체가 아니라, 상황에 대한 개인의 평가에 따라 정서적 경험이 결정됨
  - 정서는 인지의 결과로 나타남, 평가는 개인과 외부환경 간의 관계를 나타냄

보상처리: 컴퓨터를 사용해 목표를 달성 ?
상호작용:
- 컴퓨터를 이용한 문제 해결 과제
- 의사결정 과정(Decision Process)
평가 결과: 가치 예측(Value Prediction) 업데이트
전반적인 실험 도식
- 이 논문은 시간차 강화학습(Temporal Difference Reinforcement Learning)과 평가 이론(Appraisal Theory)에 기반한 감정 계산 모델 개발 및 평가
- 이 모델은 보상 처리(Reward Processing)와 인지적 평가(Cognitive Appraisal)를 통합하여 사건에 대한 감정적 반응을 예측
- 연구 방법:
  - 인간 참여자를 대상으로 한 작업 예시에서는 사용자가 컴퓨터를 사용해 목표를 달성하려고 시도
  - 문제를 여러 차례 성공적으로 해결하면 자신이 느끼는 행복감(self-evaluated feeling of happiness)이 증가하며, 이는 제안된 계산 모델에서도 동일하게 나타남
  - 상호작용은 의사결정 과정(Decision Process)으로 모델링되며, 상호작용 사건의 평가 결과가 가치 예측(Value Prediction) 업데이트로 이어짐
  - →감정의 평가 과정은 이러한 평가 중 수행되는 다양한 계산에 기반해 모델링

기대효과
- 기존 연구의 문제: 모델들이 예상되는 결과를 최적화하기 위해 행동을 평가하고 선택할 수 있는 자율 에이전트의 시뮬레이션을 포함(incorporate)하지 않음
- 감성 컴퓨팅(Affective Computing) 연구자들은 우리의 작업을 기존의 생리신호 모델에 통합함으로써 감정 탐지의 정확성을 향상할 수 있음
- 사용자 감정에 대한 모델 기반 이해를 갖춘 기계는 시뮬레이션(in silico)을 통해 대안적인 행동 경로(alternative courses of action)를 모의 실행할 수 있으며, 원하는 감정적 결과를 달성할 가능성이 가장 높은 행동을 선택할 수 있음

2. Background

감성 컴퓨팅(Affective Computing)의 배경

감성 컴퓨팅은 인간의 감정을 인식하고, 해석하며, 시뮬레이션하고 이에 반응할 수 있는 시스템을 개발하는 연구 분야
이 분야는 감정 및 사회적 신호(social signals)를 탐지하고, 인간-에이전트 상호작용의 다양한 측면을 모델링하며, 심리학적 이론에 기반한 감정 과정을 시뮬레이션하는 데 중점을 둠

기존 이론: 평가 이론(Appraisal Theory)

평가 이론은 감정을 인지적-감정적 통합 과정으로 설명하며, 특정 상황이 감정적 반응을 어떻게 유발하는지 설명
이 이론의 핵심은 상황적 자극을 인지적으로 평가하는 과정으로, 감정은 평가의 결과물로 발생한다고 봄
대표적인 모델인 구성 요소 과정 모델(Component Process Model, CPM)은 상황적 자극을 평가하는 단계별 체크리스트(예: 새로움, 내재적 쾌적성, 목표 관련성, 대처 가능성)를 제공
이러한 평가 결과는 특정 감정(예: 행복, 분노)으로 연결. CPM은 이러한 과정을 정량적으로 공식화하여 계산적으로 구현할 수 있는 기반을 제공

보상 처리 모델(Reward processing models)

감정 컴퓨팅 및 HCI에서 사용자 반응을 추정하고 예측하는 데 사용되어 시스템이 사용자의 행동을 적응시킬 수 있도록 함
본질적으로 보상 처리 모델링은 예상 보상에 따라 의사 결정을 이해하고 궁극적으로 시간이 지남에 따라 이러한 보상을 극대화하는 것을 목표로 함
작동 원리는 긍정적인 결과가 행동을강화하여 반복을 장려한다는 것
한계
- 종종 에이전트가 보상을 위해 순전히 행동한다고 가정하여 동기를 지나치게 단순화하고 인지 처리 또는 행동 제약과 같은 측면을 간과
- 게다가 감정의 보상 처리 모델과 인간 감정의 현실적인 모델 사이에는 여전히 상당한 차이가 있음

계산적 합리성(Computational rationality)

인간을 정보, 계산 리소스 및 예상결과 유틸리티가 부과하는 경계 내에서 의사 결정 및 행동이 최적화된 에이전트로 모델링할 수 있다고 가정
감정의 보상 처리 모델과의 관련성:
- 계산적 합리성 모델링에 서 RL은 제한된 최적 행동 정책을 도출하는 데 사용
- HCI에서 계산 합리성의 핵심은 시뮬레이션된 사용자의 목표를 보상 함수로 구현하는 것
한계 존재

3. Modeling

RL을 이용하여 감정 평가를 공식화하는 모델 검토 및 발전

3.1 Decision making

→ Markov decision process (MDP)

<S, A, T, R, $𝛾$>

S: A가 나타내는 state
A: agent가 취할 수 있는 action
T: transition function; a 액션을 취했을 때 상태 s에서 s’로 바뀔 확률
R: 상태 s에서 s’로 바뀔 때 agent가 받는 즉각적인 reward
$𝛾$: discount factor: 행동의 가치를 계산할 때 미래 보상을 할인
MDP로 설명된 순차적 의사결정 작업의 장기 보상을 최대화하기 위
해 RL 에이전트는 환경과 상호 작용하여 상태 전환 확률과 보상 함수
인코딩
RL의 과제는 최적의 정책을 도출하는 것
상태를 동작 확률에 매핑하여 그에 따른 동작이 예상 누적 보상을 최대화
하도록 함
value function
form of TD learning called Q-learning

3.2 Appraisal Calculation

급작성(Suddenness): 평가 동안 사건이 얼마나 새로웠는지, 상태 전환이 예상 가능했는지
목표 관련성(Goal Relevance): 현재 에이전트와 목표가 얼마나 연관되어있는지
유익성(Conduciveness): 특정 사건이 에이전트의 목표 달성을 돕는지를 평가
- 값이 0이면 해당 사건은 매우 비유익함(highly unconducive)
- 값이 1이면 매우 유익함(very conducive)
- 값이 0.5이면 기대에 부합하는 중립적 사건(neutral event)
통제력(Power): 얼마나 agent가 사건의 결과에 영향을 미치는지

3.3 Classifier

SVM(Support Vector Machine)을 사용하여 계산된 평가 값을 감정 레이블로 분류
해당 논문의 목표는 classifier에서 인간의 성능을 근사하는 것
인간의 감정 식별 정확도를 분석
- 분류기의 정밀도는 인간의 성능과 거의 일치
- parameter c는 모델의 예측 오류를 최소화하기 위해 인간의 감정 평가에 대해 조정된 것이 아니라 인간 데이터에서 발견되는 것과 동일한 평가 정밀도 수준으로 조정
- c 값이너무 크면 가장 강렬한 감정만 예측되며, 값을 낮추면 모델은 다른 덜 강렬한 감정도 예측
classifier를 사용하면 계산 평가 모델은 다양한 평가에 대한 방정식을 통해 RL 에이전트의 값 계산에서 감정 단어를 예측할 수 있음

3.4 Extending The Model for Sequential Emotions

단일 순간의 감정 상태 대신, 상호작용 중 발생하는 연속적인 감정 변화를 반영하기 위해 이동 평균(Moving Average)을 사용

4. Evaluation

4.1 General Method

실험 초점: 행복(happiness), 지루함(boredom), 짜증(irritation) 세 가지 감정을 유도하는 과제를 설계하고 사용자 감정 데이터를 수집
↔ 과거: vignette-based method
실험 과제 설계: 평가 이론(Appraisal Theory)의 원칙에서 도출되었으며, 목표 감정에 해당하는 평가 프로파일을 반영(예: Table 1 참고).
- 행복 과제: 낮은 급작성(low-suddenness)과 높은 목표 유익성(high goal-conduciveness)을 특징으로 함
- 짜증 과제: 목표에 방해가 되는(goal-obstructive) 사건이 포함되며, 참여자가 일부 통제력을 가질 수 있도록 설계됨
실험 구성:
- 첫 번째 실험: 단일 평가(single-appraisal) 모델을 실제 감정 경험 데이터와 비교하여 테스트
- 두 번째 실험: 감정을 시간적으로 더 긴 연속(sequence)에서 평균화하는 아이디어를 테스트
평가 척도: 자기 보고식 감정 강도 척도를 사용하여 데이터를 표준화하고 분석

4.1.1 materials

각 실험에 대해 3개씩, 총 6개의 온라인 과제 구성
자료는 위키피디아에서 가져온 영어 텍스트 단락(약 220단어)이었고, 참가자들은 텍스트에 대한 질문에 답해야 함
동일한 소스 텍스트에서 여러 질문이 설계 됨
과제 내용
- 행복 과제: 질문은 의미 있었고, 정답은 긍정적인 피드백으로 이어졌으며, 결국참가자는 좋은 성과를 축하하는 메시지를 받음(그림 2a).
- 지루함 과제: 단조롭고 간단한 질문이 많았고, 개별 과제와 실험의 끝에 의도적으로 중립적인 피드백을 제공(그림 2b).
- 짜증 과제: 여러 시스템 오류를 통합하여 사용자의 결정과 관계없이 잘못된 선택을 하게 했고, 결국 과제 실패와 부정적인 피드백으로 이어짐(그림 2c)
그림2

4.1.2 참가자

첫 번째 실험: 각 과제당 9명씩, 총 27명의 참가자 모집, 평균 연령 34세, 7명의 남성과 20명의 여성으로 구성
두 번째 실험: 각 과제당 15명씩, 총 45명의 참가자 모집, 평균 연령 29세=7.3, 남자 15명, 여자 30명

4.2 Experiment 1

목표: 단일 평가(single-appraisal) 모델의 감정 예측 정확성을 실제 사용자 데이터를 기반으로 테스트
평가 방법
- 각 과제 후 참가자들에게 자신의 감정(행복, 지루함, 짜증 등)을 0에서 10까지의 척도로 보고하도록 요청
- 모델은 마르코프 결정 과정(Markov Decision Process, MDP)으로 설계된 환경에서 강화학습 에이전트를 사용하여 동일한 과제를 수행
- 모델이 생성한 감정 예측 값과 인간 참가자의 보고 값을 비교
결과
- 모델은 인간 참가자 데이터와 유사한 감정 프로파일을 생성
- 각 과제에서 목표 감정(행복, 지루함, 짜증)의 강도가 가장 높게 나타났으며, 예측 정확도는 RMSE = 0.13로 측정됨
- 이는 단일 평가 모델이 실험에서 유발된 감정을 성공적으로 예측할 수 있음을 보여줌

4.3 Experiment 2

목표: 감정을 단일 시점에서 측정하는 대신, 상호작용 중 시간에 따라 감정이 어떻게 변화하는지를 모델링
실험 설계
- 첫 번째 실험과 동일한 세 가지 과제를 사용하되, 감정 데이터를 여러 시간 단계에서 수집.
  - 참가자는 실험 초반, 중간 두 번, 그리고 종료 시 총 네 번 감정 강도를 보고.
- MDP 모델은 각 과제에 대해 세 가지 주요 단계로 확장되어 시간적 변화 요소를 반영
평가 방법
- 모델은 이동 평균(Simple Moving Average, SMA)을 사용하여 감정이 시간이 지남에 따라 누적되거나 감소하는 과정을 반영
- 모델 초기 상태는 인간 참가자의 초기 감정 보고 데이터를 기반으로 설정
- 각 시간 단계에서 모델의 예측 값과 인간 데이터 간의 일치를 분석
결과: 모델은 감정의 시간적 변화를 잘 예측했으며, 전체적인 데이터 적합도는 R² = 0.86, RMSE = 0.19로 나타남
- 지루함 과제:
  - 지루함은 시간이 지남에 따라 증가했으나 일부 참가자들이 짜증을 보고하기도 함
  - 이는 단조로운 과제가 예상 외로 짜증을 유발했기 때문으로 분석됨

5. Discussion and Conclusion

기여: 제안된 모델은 사용자 감정을 효과적으로 예측할 뿐만 아니라 상호작용 중 감정 변화를 설명할 수 있음
한계: 제한된 감정 범위와 단순한 과제 디자인. 향후 연구에서는 더 다양한 감정과 복잡한 상호작용을 포함해야 함
응용 가능성: 사용자 감정을 예측하고 적응하는 지능형 상호작용 시스템 설계에 활용 가능

← Back to blog

[논문 리뷰] (CHI '24) Simulating Emotions With an Integrated Computational Model of Appraisal and Reinforcement Learning