<< TOPへ
Risk or Chance? Large Language Models and Reproducibility in Human-Computer Interaction Research
・LLMの研究は再現性が無いことが課題であるが、この点を考慮してどうあるべきか提案している研究。2024年。
・例えば、使用したLLMの種類、バージョン、入力したプロンプト、パラメータ設定など、詳細な情報を記録し、報告すること。単一のLLMに依存するのではなく、異なる特性を持つ複数のLLMを組み合わせて使用すること。出力を鵜呑みにするのではなく、人間の専門家の判断と組み合わせて解釈すること。LLMを使用した研究結果について、他の研究者が再現実験を行い、結果を検証できるようにすること。とある。
・再現性実験を行えるように公開することはすでに多くの研究でされているね。Risk or Chance? Large Language Models and Reproducibility in Human-Computer Interaction Research
・LLMの研究は再現性が無いことが課題であるが、この点を考慮してどうあるべきか提案している研究。2024年。
・例えば、使用したLLMの種類、バージョン、入力したプロンプト、パラメータ設定など、詳細な情報を記録し、報告すること。単一のLLMに依存するのではなく、異なる特性を持つ複数のLLMを組み合わせて使用すること。出力を鵜呑みにするのではなく、人間の専門家の判断と組み合わせて解釈すること。LLMを使用した研究結果について、他の研究者が再現実験を行い、結果を検証できるようにすること。とある。
・再現性実験を行えるように公開することはすでに多くの研究でされているね。
---
```mermaid
graph LR
A[Introduction] --> B(LLMsの発展と社会への浸透)
A --> C(HCI研究におけるLLMsの利用)
B --> D[LLMsは教育、ゲーム、創造性、仕事など多くの分野に影響を与えている]
C --> E[LLMsはテキストデータ分析の加速やサポートに利用されている]
C --> F[LLMsはUCDプロセスのサポートや、ユーザースタディのシミュレーションに利用されている]
G[Large Language Models as Research Tool] --> H(LLMsのアーキテクチャと特性)
G --> I(LLMsの再現性への影響)
H --> J[LLMsはトランスフォーマーアーキテクチャを用いた大規模な言語モデル]
I --> K[Value Lock-In: LLMsは初期学習時の態度や信念を反映し続ける可能性]
I --> L[Training Bias: LLMsはデータセットに反映された知識に制限される]
I --> M[Hallucination: LLMsは意図しないコンテンツを生成する可能性がある]
N[Implications for Reproducibility in HCI Research] --> O(過去の再現性の課題から学ぶ)
N --> P(UX研究全体におけるバイアス)
N --> Q(相互検証と分析支援のためのLLMs)
N --> R(新しい報告要件の定義とコミュニティの教育)
N --> S(HCIの再現性に対する研究圧力のリスク)
O --> T[p-hackingとprompt-hackingの類似性を認識し、透明性と正当性を優先する]
P --> U[LLMsは特定の社会の一部の視点を反映し、偏りを助長する可能性がある]
P --> V[HCI研究ではLLMsを複数使用し、幅広い人間の視点を反映させるべき]
Q --> W[LLMsは研究者に再現性の落とし穴について教育し、研究結果の検証をサポートできる]
Q --> X[LLMsへの過度の依存はリスクがある]
R --> Y[LLMの使用に関する正確な文書化要件を確立する必要がある]
R --> Z[コミュニティに報告要件とLLM使用の課題について教育するリソースを提供すべき]
S --> a[LLMsの導入圧力に関する懸念に対処し、期待を管理すべき]
S --> b[ベストプラクティスを早急に開発、伝達し、論文投稿要件の一部として要求すべき]
c[Risk or Chance for Reproducibility in HCI?] --> d(LLMsはHCI研究にとって重要な機会)
c --> e(LLMsの使用には慎重なアプローチが必要)
d --> f[LLMsはデータ分析を加速し、結果の普及を促進できる]
e --> g[LLMsの構造、学習方法、頻繁なアップデートは一貫した結果を生まない可能性がある]
e --> h[LLMsの使用は偏りを助長し、公表プロセスへの圧力を高める可能性がある]
i[Conclusion] --> j(HCIコミュニティ内でのLLMsの影響に関する議論の必要性)
i --> k(再現性を維持するための専門的な科学プラットフォームの確立)
j --> l[LLMsがHCI研究の再現性に与える影響について議論を喚起することを目的としている]
k --> m[AI ツールを使用した HCI データ分析における再現性を維持するための専門的な科学プラットフォームの確立を目指す]
```