<< TOPへ
VISIONGPT: LLM-ASSISTED REAL-TIME ANOMALY DETECTION FOR SAFE VISUAL NAVIGATION
・LLMを用いて視覚障害者のために、視覚ナビゲーションを行うためのシステムを開発。2024年。
・何より大切になるのは危険の認識とリアルタイム性。この部分についてリアルタイム物体検出モデルYolo-Worldと専門的なプロンプトを組み合わせた、ゼロショット異常検出のフレームワークを提案。すごい。
・提案手法をルールベースの異常検出と比較し、高い精度を示している。また、モバイルデバイス上でも低遅延でリアルタイム検出が可能であることを示している。すごいすごい!
・以前オンラインゲームでのリアルタイム対応を行っている研究があったけど、リアルタイム性に着目した研究として素晴らしい
>参考:
>Large Language Models Play StarCraft II: Benchmarks and A Chain of Summarization Approach
>https://paper.path-finder.jp/2c5adb863f0ba22bcc6005b651feb33e23e7c6df647eaf5555b3f29d64ad26ff
・これって、カメラでうまくいったということは、今自分がやっているようにWCAGのスクリーンショットでも検査ができるってこと。スピード上げて研究にしていきたい。VISIONGPT: LLM-ASSISTED REAL-TIME ANOMALY DETECTION FOR SAFE VISUAL NAVIGATION
・LLMを用いて視覚障害者のために、視覚ナビゲーションを行うためのシステムを開発。2024年。
・何より大切になるのは危険の認識とリアルタイム性。この部分についてリアルタイム物体検出モデルYolo-Worldと専門的なプロンプトを組み合わせた、ゼロショット異常検出のフレームワークを提案。すごい。
・提案手法をルールベースの異常検出と比較し、高い精度を示している。また、モバイルデバイス上でも低遅延でリアルタイム検出が可能であることを示している。すごいすごい!
・以前オンラインゲームでのリアルタイム対応を行っている研究があったけど、リアルタイム性に着目した研究として素晴らしい
>参考:
>Large Language Models Play StarCraft II: Benchmarks and A Chain of Summarization Approach
>https://paper.path-finder.jp/2c5adb863f0ba22bcc6005b651feb33e23e7c6df647eaf5555b3f29d64ad26ff
・これって、カメラでうまくいったということは、今自分がやっているようにWCAGのスクリーンショットでも検査ができるってこと。スピード上げて研究にしていきたい。
---
```mermaid
graph LR
A[Introduction] --> B(LLMsの視覚ナビゲーションへの応用)
A --> C(動的環境下の視覚ナビゲーションの課題)
B --> D[マルチモーダルLLMsは視覚と言語の理解を統合し、人間に近い認知能力を持つ]
C --> E[リアルタイムの視覚・言語理解が安全上重要だが、LLMsを活用した研究は少ない]
C --> F[本研究はオープンワールド物体検出とLLMsを組み合わせ、リアルタイムのパーソナライズされたアノーマリ検知を実現]
G[Related Work] --> H(Open-vocabulary object detection)
G --> I(Prompt Engineering)
G --> J(Accessible Technology)
H --> K[OVDは定義済みカテゴリ以外の物体検出に注力。YOLOベースの手法が効率的]
I --> L[LLMsの能力を引き出すためのプロンプトエンジニアリングは自然言語処理で発展したが、視覚アクセシビリティ分野での応用は少ない]
J --> M[コンピュータビジョンを用いたアクセシブル技術は視覚障害者の安全性向上に重点を置く]
N[Methodology] --> O(Object Detection Module)
N --> P(Detection Class Manager)
N --> Q(Anomaly Handle Module)
N --> R(Data Collection)
N --> S(LLM Module)
O --> T[軽量かつ強力な物体検出モデルYOLO-Worldを使用し、検出クラスをカスタマイズ可能]
P --> U[ユーザーとのインタラクションにより、シーンに応じて動的に物体検出クラスを切り替え]
Q --> V[画像を4つの領域に分割し、各領域の物体情報を分析してアノーマリを特定]
R --> W[視覚ナビゲーションのための大規模な第一人称視点のアノーマリ検知データセットは存在しないため、独自に50本の動画クリップを収集]
S --> X[GPT-3.5とGPT-4を使用。GPT-3.5は低レベルの情報処理、GPT-4は高レベルな理解に使用]
Y[Experiments] --> Z(System Optimization)
Y --> AA(Detection Accuracy)
Y --> AB(Quality Evaluation)
Y --> AC(Ablation Study)
Y --> AD(Performance Evaluation)
Z --> AE[フレーム補完により検出性能を16FPSから73FPSに向上。LLMモジュールを30フレームごとに並列処理]
AA --> AF[ルールベースの検出器をベースラインとして、LLMの検出器のゼロショット学習能力をテスト]
AB --> AG[ルールベースの検出器とLLM検出器のアノテーション結果を比較し、LLMの低感度設定が非緊急のアノーマリを除外する傾向にあることを確認]
AC --> AH[各プロンプトモジュールの寄与度を調べるためにアブレーションスタディを実施。感度設定がパフォーマンスに大きく影響]
AD --> AI[モバイルデバイスでのエンドツーエンドの遅延は60msで、リアルタイム性能を確保。日2時間の使用でGPT-3.5ベースのシステムのコストを見積もり]
AJ[Conclusion] --> AK(将来の研究の方向性)
AJ --> AL(本研究の意義)
AK --> AM[より高度なプロンプトエンジニアリングによる複雑なシナリオへの対応が今後の研究課題]
AL --> AN[本研究はコンピュータビジョンとLLMsの統合による視覚障害者の安全性と自立性向上の可能性を示した]
```