<< TOPへ
Enhancing Human-Centered Dynamic Scene Understanding via Multiple LLMs Collaborated Reasoning
・めちゃ面白い!ChatGPT-4.0、LLaMA2、PaLM2 を議論させてまとめ、ビデオ内の人の振る舞いを精度高く推論する研究。2024年。
・これはウェブアクセシビリティにとても活用できる!実際に応用してみようと思う。
・それにしてもLLM界隈の論文に日本人が出てくることは、ほとんどない。中国一強で、ほんとに、すごい。Enhancing Human-Centered Dynamic Scene Understanding via Multiple LLMs Collaborated Reasoning
・めちゃ面白い!ChatGPT-4.0、LLaMA2、PaLM2 を議論させてまとめ、ビデオ内の人の振る舞いを精度高く推論する研究。2024年。
・これはウェブアクセシビリティにとても活用できる!実際に応用してみようと思う。
・それにしてもLLM界隈の論文に日本人が出てくることは、ほとんどない。中国一強で、ほんとに、すごい。
---
```mermaid
graph LR
A[I. はじめに] --> B(動的シーン理解)
A --> C(HOI検出)
B --> D[動的シーン理解は、ロボットや自律走行車の安全な行動計画に不可欠である]
C --> E[HOI検出は、人物-物体ペアをローカライズし、相互作用ラベルを認識する]
C --> F[初期のHOI検出は静止画像に焦点を当てていたが、最近の研究ではビデオHOI検出のための時間的依存関係を利用している]
A1[II. 関連研究] --> B1(HOI検出)
A1 --> C1(大規模言語モデルからの推論)
B1 --> D1[2段階HOI検出器は、物体を特定し、各人物-物体ペアの相互作用を予測する]
B1 --> E1[1段階HOI検出器は、物体検出と相互作用クラスを同時に生成する]
B1 --> F1[ビデオHOI検出手法は、時間的依存関係を利用して画像ベースの手法を上回る性能を示す]
C1 --> G1[LLMは、基礎情報を組み込むことで増幅できる強力な推論能力を持っている]
A2[III. 問題定義] --> B2(V-HOI検出タスク)
B2 --> C2[V-HOI検出は、各ビデオフレームの境界ボックス、物体クラス、相互作用クラスを取得する]
A3[IV. 手法の概要] --> B3(V-HOI MLCRフレームワーク)
B3 --> C3[最先端のV-HOIモデルから初期HOIトリプル予測を取得する]
B3 --> D3[HOIトリプルは、2段階のLLMコラボレーションシステムで処理される]
D3 --> E3[クロスエージェント推論は、空間的および時間的推論のためにLLMエージェントに役割を割り当てる]
D3 --> F3[マルチLLMsディベートは、LLMからの応答を集約して予測を改良する]
A4[V. クロスエージェント推論] --> B4(常識的推論エージェント)
A4 --> C4(空間的推論エージェント)
A4 --> D4(時間的推論エージェント)
B4 --> E4[常識に基づいてHOIトリプルの合理性を確認する]
C4 --> F4[予測されたアクションの空間認識とその合理性を、主体-物体の位置関係から検証する]
D4 --> G4[ビデオフレーム間のHOIトリプルの変化の時間的合理性を評価する]
A5[VI. マルチLLMsディベート] --> B5(ディベーターとしてのLLMs)
A5 --> C5(ジャッジとしてのLLM)
B5 --> D5[各LLMはディベーターとして機能し、前のディベーターの主張を基に議論を展開する]
C5 --> E5[ジャッジLLMはディベートを調整し、最も合理的な答えを決定する]
A6[VII. CLIPを用いた補助訓練] --> B6(V-HOIモデルの強化)
B6 --> C6[CLIPの埋め込みは、トリプル特徴を正則化し、モデルの推論と識別能力を向上させる]
A7[VIII. 実験] --> B7(データセットと評価指標)
A7 --> C7(実装の詳細とベースライン)
A7 --> D7(実験結果)
B7 --> E7[Action GenomeとVidHOIデータセットでRecall@K指標を用いて実験を行った]
C7 --> F7[ChatGPT-4.0、LLaMA2-70B、PaLM2-Bisonをフレームワークで使用; STTranGazeとSTTranをベースラインモデルとして使用]
D7 --> G7[MLCRは両データセットで最先端の手法と比較して優れた性能を達成した]
A8[IX. 結論] --> B8(V-HOI MLCRフレームワーク)
B8 --> C8[既存のV-HOIモデルとLLMを協調させ、推論能力を促進する新しいフレームワーク]
```