タイトルどおりですが,学習に使うデータとテストするデータが同じとき,
誤差の評価として下向きのバイアスが生じるそうです。
なぜ,下向きのバイアスが生じるのかも知りたいのですが,下向きのバイアス
ということは,過小評価ということになるのでしょうか?
同じデータを使っているので,テストするときに強く反応するから過大評価してるんじゃないか
とも思うのですが,過大評価・過小評価のどちらなのでしょうか?
できれば,“下向き”のバイアスになる理由も教えてほしいです。
回答よろしくお願いします。
No.2ベストアンサー
- 回答日時:
何らかの機械学習システムのようなものを使うことを仮定しているのですよね?
一般的な機械学習システムは、内部に何らかのモデルを持っています。
このモデルとは、入力されるデータと出力するデータとの関係を表します。
そして多くの場合、「学習」とは
学習データ(入力データと出力データとの組)をシステムに与え、
「入力データから推測される出力データ」と「入力データと組になっている出力データ」との
「誤差」を最小化するように、システム内部を最適化します。
最適化とは、たとえばパラメータ推定であったり、モデルの構造変更であったりします。
この学習を行った結果、
学習データをそのままテストデータに用いると、
システムは「学習データでの誤差を最小化する」ように学習されているので、
誤差はそのシステムでの最小のものになります。
学習データとは異なるテストデータを用いると、
テストデータには何らかのノイズが含まれるでしょうから、
誤差は大きくなります。
> 過大評価・過小評価のどちらなのでしょうか?
「評価」するとは、具体的にはどういうことでしょうか?
誤差が大きくなるか小さくなるか、であれば「小さくなる」ですが、
過大評価か過小評価かと問われると、「評価」という言葉の意味が良く分からないので一概には答えられません。
この回答への補足
>「評価」するとは、具体的にはどういうことでしょうか?
学習により得られたモデルがどれだけ真のモデルに対してうまく構築されているかを「評価」するのではないかと思います。
今回の場合,評価するために,学習に用いたデータと同じデータを入力して誤差を求めるのだと思います。
本文では,「予測誤差を過小評価する傾向にある」とされています。
No.1
- 回答日時:
こんにちは。
「バイアス」という言葉を知らないので、頓珍漢なことを書くかもしれませんが、ご容赦を。
学習とテストのデータが同じでない場合は、
被験者の思考力のウェイトが高くなります。
学習とテストのデータが同じである場合は、
被験者の記憶力のウェイトが高くなりなります。
仮に、被験者の思考力はばらばらでも、記憶力は同一であるとすれば、
たとえば、単元の7割を記憶できるとすれば、
被験者のテストの成績は、70点近傍に集中します。
つまり、データが同じときに下向きのバイアスが生じるのは、
記憶力のばらつきよりも思考力のばらつきのほうが大きいから、
ということではないでしょうか。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・街中で見かけて「グッときた人」の思い出
- ・「一気に最後まで読んだ」本、教えて下さい!
- ・幼稚園時代「何組」でしたか?
- ・激凹みから立ち直る方法
- ・1つだけ過去を変えられるとしたら?
- ・【あるあるbot連動企画】あるあるbotに投稿したけど採用されなかったあるある募集
- ・【あるあるbot連動企画】フォロワー20万人のアカウントであなたのあるあるを披露してみませんか?
- ・映画のエンドロール観る派?観ない派?
- ・海外旅行から帰ってきたら、まず何を食べる?
- ・誕生日にもらった意外なもの
- ・天使と悪魔選手権
- ・ちょっと先の未来クイズ第2問
- ・【大喜利】【投稿~9/7】 ロボットの住む世界で流行ってる罰ゲームとは?
- ・推しミネラルウォーターはありますか?
- ・都道府県穴埋めゲーム
- ・この人頭いいなと思ったエピソード
- ・準・究極の選択
- ・ゆるやかでぃべーと タイムマシンを破壊すべきか。
- ・歩いた自慢大会
- ・許せない心理テスト
- ・字面がカッコいい英単語
- ・これ何て呼びますか Part2
- ・人生で一番思い出に残ってる靴
- ・ゆるやかでぃべーと すべての高校生はアルバイトをするべきだ。
- ・初めて自分の家と他人の家が違う、と意識した時
- ・単二電池
- ・チョコミントアイス
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
「未使用」と「不使用」ってど...
-
高速フーリエ変換でデータ数が...
-
XMLデータってなんですか?
-
パレート図等で「N=100」とあ...
-
日本通信の当月利用データ量は...
-
ワードの差し込み印刷のデータ...
-
ネットカフェから、メールでき...
-
イントラネット上のデータをエ...
-
シリアルRS-232出力機器からの...
-
Excelの“並び替え”で文字コード...
-
OUTLOOK2003 予定表について
-
エクセルのグラフのデータ系列...
-
PCの内蔵メモリにデータは残る?
-
インスタの設定について。 イン...
-
表計算: 多次元の表を作りたい
-
メモリーの読み出し方式
-
標準偏差の計算方法:「n」と「...
-
exFATには1980年1月1日から2107...
-
Excel Webクエリ
-
排他的論理和の問題
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
「未使用」と「不使用」ってど...
-
高速フーリエ変換でデータ数が...
-
PCの内蔵メモリにデータは残る?
-
日本通信の当月利用データ量は...
-
パレート図等で「N=100」とあ...
-
XMLデータってなんですか?
-
ネットカフェから、メールでき...
-
インスタの設定について。 イン...
-
データ用HDDの別のPCへの乗せ替え
-
エクセルのグラフのデータ系列...
-
エクセルで縦に並んだデータを...
-
Excel Webクエリ
-
Excelの“並び替え”で文字コード...
-
電子辞書の画面をPCに映すには
-
ワードの差し込み印刷のデータ...
-
職務質問で聞かれたデータはど...
-
表計算: 多次元の表を作りたい
-
相関行列作成時の数字以外のデ...
-
Excel グラフで数値の正と負の...
-
フーリエ変換のデータの補間に...
おすすめ情報