<< TOPへ
FLASHBACK : Efficient Retrieval-Augmented Language Modeling for Long Context Inference
・外部知識を用いてLLMを拡張するためのトレーニング手法。LLMは変更せず、LoRAモジュールのみをトレーニング。特定の知識に応えられるLLMの仕組みを効率的に作成。2024年。
・はずかしながら、いつも目にしていたLoRAを今回初めて認識した。ファインチューニングについて、LLMの特定層を対象とするのではなくLLM自体は変更しない。
・LoRAはLow-Rank Adaptation(低ランク適応)の略で、パラメータ効率の良いファインチューニング手法。LoRAでは、追加のパラメータを導入し、それらのパラメータのみを学習することで、LLMを効率的にタスクに適応させる
・低ランク、という行列の考え方も知った(復習)
・Retrieveした知識を後にくっつけることも大切とのこと。Key-Value (KV) キャッシュの再計算が効率的と。
・扱いたい。GitHubで公開してほしい。。