<< TOPへ
Multimodal Emotion Recognition by Fusing Video Semantic in MOOC Learning Scenarios
・LLMに教育コンテンツの感情分析をさせることで、受講生がどのように感じているかを判断させ、教え方を改善させることができるマルチモーダルLLM。2024年。
・視線解析をインプットとすることで、感情分析のセンサとして用いる点が新鮮に感じた。
・LLMへのインプットば以下
- ビデオのセマンティック情報:学習用ビデオから生成されるビデオ記述を通じて取得される。これにはシーン、オブジェクト、アクション、プロットなどのキーコンテンツが含まれる。この情報は、事前訓練された大規模言語モデル(LLM)を使用して自動的に生成され、BERTモデルを用いて特徴が抽出される。
- 生理的シグナル:眼球運動(Eye Movement):視線の動きから得られるデータ。光電容積脈波記録(PPG: PhotoPlethysmoGraphy):心拍数や血流変動を測定するデータ。
・アウトプットは以下
- 感情状態の分類:学習者の感情状態(例:退屈、幸福、混乱、注意散漫など)を特定する。このために、融合された特徴を用いて感情分類器が訓練され、最終的な感情予測が行われる。