学習とテストに同じデータを利用する場合，過大評価か過小評価か

Question

タイトルどおりですが，学習に使うデータとテストするデータが同じとき，
誤差の評価として下向きのバイアスが生じるそうです。
なぜ，下向きのバイアスが生じるのかも知りたいのですが，下向きのバイアス
ということは，過小評価ということになるのでしょうか？
同じデータを使っているので，テストするときに強く反応するから過大評価してるんじゃないか
とも思うのですが，過大評価・過小評価のどちらなのでしょうか？
できれば，“下向き”のバイアスになる理由も教えてほしいです。
回答よろしくお願いします。

ltx78 · Accepted Answer

何らかの機械学習システムのようなものを使うことを仮定しているのですよね？

一般的な機械学習システムは、内部に何らかのモデルを持っています。
このモデルとは、入力されるデータと出力するデータとの関係を表します。
そして多くの場合、「学習」とは
学習データ（入力データと出力データとの組）をシステムに与え、
「入力データから推測される出力データ」と「入力データと組になっている出力データ」との
「誤差」を最小化するように、システム内部を最適化します。
最適化とは、たとえばパラメータ推定であったり、モデルの構造変更であったりします。

この学習を行った結果、
学習データをそのままテストデータに用いると、
システムは「学習データでの誤差を最小化する」ように学習されているので、
誤差はそのシステムでの最小のものになります。
学習データとは異なるテストデータを用いると、
テストデータには何らかのノイズが含まれるでしょうから、
誤差は大きくなります。

> 過大評価・過小評価のどちらなのでしょうか？
「評価」するとは、具体的にはどういうことでしょうか？
誤差が大きくなるか小さくなるか、であれば「小さくなる」ですが、
過大評価か過小評価かと問われると、「評価」という言葉の意味が良く分からないので一概には答えられません。

sanori · Answer

こんにちは。

「バイアス」という言葉を知らないので、頓珍漢なことを書くかもしれませんが、ご容赦を。

学習とテストのデータが同じでない場合は、
被験者の思考力のウェイトが高くなります。

学習とテストのデータが同じである場合は、
被験者の記憶力のウェイトが高くなりなります。

仮に、被験者の思考力はばらばらでも、記憶力は同一であるとすれば、
たとえば、単元の７割を記憶できるとすれば、
被験者のテストの成績は、７０点近傍に集中します。

つまり、データが同じときに下向きのバイアスが生じるのは、
記憶力のばらつきよりも思考力のばらつきのほうが大きいから、
ということではないでしょうか。

学習とテストに同じデータを利用する場合，過大評価か過小評価か

何らかの機械学習システムのようなものを使うことを仮定しているのですよね？

この回答への補足

こんにちは。

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング