<< TOPへ
LongVLM: Efficient Long Video Understanding via Large Language Models
・動画について質問して答えてくれるLLMの作り方。良く出来ているなぁ~。2024年。
・事前学習を大量のデータと、追加のデータセットで行っている。質問の際にはユーザーから動画のインプットと問いのテキストインプットを受けて、回答をする形態になっている。
・結局のところ、データに価値があって、それを処理するマシンパワーと、仕組みの組み合わせが重要ということ。
・トレーニングの際と利用する際の、LLMへのインとアウトのペアは同じなので、例えばWebアクセシビリティチェックを行う際のユーザーの振る舞いに、どのようなデータが取れるのか考えると広がりがあるかも。単純な画面のスクリーンショットや撮影動画、判断のクラス、対処の内容など。抽象的に考えると想像は広がるけれども、実際にモデルをトレーニングするのはまだ腰が重い。早くやらなきゃなぁー。LongVLM: Efficient Long Video Understanding via Large Language Models
・動画について質問して答えてくれるLLMの作り方。良く出来ているなぁ~。2024年。
・事前学習を大量のデータと、追加のデータセットで行っている。質問の際にはユーザーから動画のインプットと問いのテキストインプットを受けて、回答をする形態になっている。
・結局のところ、データに価値があって、それを処理するマシンパワーと、仕組みの組み合わせが重要ということ。
・トレーニングの際と利用する際の、LLMへのインとアウトのペアは同じなので、例えばWebアクセシビリティチェックを行う際のユーザーの振る舞いに、どのようなデータが取れるのか考えると広がりがあるかも。単純な画面のスクリーンショットや撮影動画、判断のクラス、対処の内容など。抽象的に考えると想像は広がるけれども、実際にモデルをトレーニングするのはまだ腰が重い。早くやらなきゃなぁー。
---
```mermaid
graph LR
A[Introduction] --> B(VideoLLMsの課題)
A --> C(LongVLMの提案)
B --> D[長尺動画の詳細な理解が困難]
C --> E[短期セグメントに分割し、局所特徴を抽出]
C --> F[大域的意味情報を局所特徴に統合]
H[Related Work] --> I(Large Language Models)
H --> J(Video-based Large Language Models)
H --> K(Long-term Video Processing)
I --> L[LLMの発展がMultimodal LLMの進歩を促進]
J --> M[VideoLLMsは視覚トークンをプーリングや照会集約により圧縮]
K --> N[長尺動画の冗長性を除去しつつ時空間依存性をモデル化]
O[Method] --> P(全体アーキテクチャ)
O --> Q(局所特徴の集約)
O --> R(大域的意味情報の統合)
P --> S[視覚エンコーダ・射影層・大言語モデルから構成]
Q --> T[長尺動画を複数の短期セグメントに分割]
Q --> U[セグメント内で階層的トークンマージにより局所特徴を圧縮]
R --> V[各フレームの CLS トークンを時間方向に平均化し大域特徴を得る]
R --> W[因果的注意機構により大域特徴を局所特徴に統合]
X[Experiments] --> Y(Video-based Generation Benchmark)
X --> Z(Zero-shot Video Question-Answering)
Y --> a[VideoChatGPT Benchmarkでプーリングや照会集約手法を上回る]
Z --> b[3つのデータセットでSOTAを達成]
c[Conclusion] --> d[LongVLMは長尺動画の詳細な理解を可能にする]
c --> e[局所特徴と大域特徴の統合が効果的]
```