<< TOPへ
Direct Importance Estimation with Model Selection and Its Application to Covariate Shift Adaptation
【起】
人工知能の学習では、練習データ(訓練データ)とテストの問題(テストデータ)が似ているということを前提にしています。例えば、晴れた日の写真で練習して、晴れた日の写真をテストするようなものです。
【承】
でも実際の世の中では、練習したデータとテストデータが違うことがよくあります。例えば、晴れた日の写真で練習して、雨の日の写真をテストしなければいけないような状況です。これを「共変量シフト」と呼びます。
【転】
この問題を解決するために、従来は「練習データの分布」と「テストデータの分布」を別々に推定してから、その比を計算する方法が使われていました。でもこれは、高次元のデータ(たくさんの特徴を持つデータ)では上手くいきませんでした。
【結】
そこで研究チームは、分布を個別に推定せず、直接その比(重要度)を推定する新しい方法「KLIEP」を開発しました。さらに、自動的に最適なパラメータを選ぶ機能も備えています。実験の結果、特に複雑なデータで従来の方法より良い性能を示しました。
【研究の新規性(面白さ)】
この研究の面白いところは、「1+1=2を計算するのに、まず1を10倍して10にして、もう1つの1を10倍して10にして、それから足して20にして、最後に10で割って2を得る」という遠回りをせずに、直接「1+1=2」と計算するようなアプローチをとったところです。
従来の方法は、わざわざ難しい計算(密度推定)を2回行ってから割り算をしていましたが、この研究では「そんな回り道はやめよう!」と考えて、目的の値(重要度)を直接求める方法を考え出しました。これにより、特に複雑なデータでも安定して良い結果が得られるようになりました。まさに「直接攻めるのが一番の近道」という発想の勝利と言えます!