<< TOPへ
METATOOL BENCHMARK FOR LARGE LANGUAGE MODELS: DECIDING WHETHER TO USE TOOLS AND WHICH TO USE
・大規模言語モデル(LLM)の、ツール選択能力を評価するためのベンチマーク「METATOOL」を提案。MetaGPTでデータ解析を行う際にツールを作って使う件が書いてあったけど、その件での派生研究かな。2024年。
・ベンチマーク内にデータセット「TOOLE」を作成。8つの一般的なLLMで実験を行い、ほとんどのLLMがまだツールを効果的に選択するのに苦労していることを発見した。
・LLMの評価手法でさまざま議論があることは知っていたけど、「ツールの選択」という観点にフォーカスしてで研究してて、そういう路線もあるのかぁと思った。いろいろあるなぁ。