平凡な会社員です。データ集計のために統計の入門書を読んでいるのですが、
リストからの無作為抽出で解らない箇所があり困っています。
手持ちの入門書に、だいたいこういうことが書かれています。
Excel などに保存されたデータはだいたい整序されているので、
①行をかき混ぜる(分析ツール-乱数発生 -> 列追加: 発生させた乱数についてRANQ.EQ)
②「①」の結果に対して無作為抽出(RANDBETWEEN関数)
個人的には、「整序されていても②だけでいいのではないか?」と思い、
かき混ぜ前後のデータをサンプル数複数パターンで比較しました。
その結果、基本統計量もほぼ同じに見えるし、
F検定で差は無く、等分散を仮定したt検定でも差は無いと判定されるようです。
また、ネット検索もしばらくしましたが、①を先行させる記事は見つけられませんでした。
①は必須なのか、「行をかき混ぜる」という HOW TO の紹介なのか、
詳しい方からご意見を伺えれば幸いです。
よろしくお願いいたします。
No.4ベストアンサー
- 回答日時:
お礼に書いて頂いた件について、
> この入門書の手順では ① のほうを要らないと考えてよさそうでしょうか。
はい。そうなります。
> ①については、入門書も、とにかくまずは定石を実行したと考えればいいでしょうか。
はい。著者の意図は分かりませんが、結果として、まずはシャッフルを行ったという結果をもたらしています。②が同等の結果を与えますので不要な行為ですが・・・。
なぜ、こんな面倒なことを行うのか、ご質問者様と同じ疑問を抱きました。
たびたびお返事いただき、本当にありがとうございます。
詳しい方がそうおっしゃって下さって安心しました。
>なぜ、こんな面倒なことを行うのか、ご質問者様と同じ疑問を抱きました。
改めて入門書の問題個所付近を読み直してみたところ、
この入門書に限った話ですみませんが、
序章に「Excel ならではの実践的な機能を多く紹介していく」とあり、
その箇所には盛り込みすぎて不統一感が出てしまったものかもしれないと
考えるしかなさそうなあたりに至りました。
ともあれ、本当にありがとうございました。
No.3
- 回答日時:
No.1です。
ちなみに、Rなどの統計ソフトでは、1~10まで並んだ数字から、5個ランダムサンプリングするよう指示すると、下記のように抽出順もランダム化してくれます。
> sample(1:10, 5)
[1] 5 4 6 2 7
選ばれた5個が昇順に並ぶようなことはありません。
このように並び順もランダム化されるのが「無作為抽出」です。
ですから①は必須の操作だと言えます。
おまけ:
10個並んだ数値から、10個ランダムサンプリングすると、並び順が変わった10個の数値が出力されます。
> sample(1:10, 10)
[1] 4 5 8 7 2 9 10 3 6 1
②のみでこれをやろうとすると、RANDBETWEEN(1, 10) にて整数乱数を10個分与えて並び替えをやれば良いですが、結局、それは①と同じことなのです。
ですから①は必須で②は邪道だということです。
>>kamiyasiro 様
私のリアル生活圏では接点の無い専門家の方からたびたび助言をいただけ、
本当に助かります。ありがたいかぎりです。
素人で理解が追い付かないのですが(汗)、とりあえず書かせていただきます。
>RANDBETWEEN(1,10)で、……ところが、これは「先頭からの抽出」になります。
入門書がそういう風にしてくれていれば私にも理解しやすかったのですが、
最初の投稿が舌足らずだったので改めて説明させて下さい。
前提:例のリストは売上 1 万行。複数店舗が提出したものをマージした感じです。
入門書による無作為抽出手順:
①元のリストをかき混ぜる
・1 万行に対して Excel 「分析ツール」-「乱数発生」
・発生した乱数を引き数とする RANK.EQ 関数によって順位付け
②「①」の結果に対して無作為抽出(復元抽出)
・(先頭等に限らず)全 1 万行に対して 10 回試行
・サンプルサイズは 20 個
・1 試行 = 1 行 20 セルに INDEX 関数と RANDBETWEEN(1, 10000) を入力して
かきまぜ後のリストを参照。
同じようにして全 10 試行 = 全 10 行を作成。
つまり、
>②のみでこれをやろうとすると、RANDBETWEEN(1, 10) にて
>整数乱数を10個分与えて並び替えをやれば良いですが、
>結局、それは①と同じことなのです。
とおっしゃったとおり ①② は同じようなことをしていて、
この入門書の手順では ① のほうを要らないと考えてよさそうでしょうか。
>整序サンプルはまずはランダマイズ、という定石があります
①については、入門書もとにかくまずは定石を実行した……
と考えればいいでしょうか。
No.2
- 回答日時:
No.1です。
ちょっと、回りくどい書き方でした。
つまり、
AAAAAAAAAABBBBBBBBBB
というサンプルに、②で1,2を付与して半分にランダムサンプリングしても、
AAAABBBBBB
となって、並び順は変わらないということです。
BABBABAABB
のようになって欲しいのです。
No.1
- 回答日時:
RANDBETWEEN(1,10)で、1~10の整数値を付与されます。
1が付与されたものを抽出すれば、10分の1のサンプリングできます。
ところが、これは「先頭からの抽出」になります。
ここで、たとえば強度シミュレーションなどの入力値として、実測された応力値を使用するケースがあるとします。数が多いので全体からランダム抽出して使用します。
解析時間が掛かるので、未だ抽出サンプル全体の解析が出来ていなくても状況判断したいとき、応力値が整序されていると、低い応力値から処理しているので、高い応力値がどうなのか、結果の予想がつきません。
上司「お前、ランダムにやれよ」
あるいは、化学反応の実験をするために、供試品をランダムサンプリングして実験したい場合があるとします。
供試サンプルが整序されていると、A社品が午前の実験室で、B社品は午後の実験室で処理されることになります。でも、ある疑念が残ります。
上司「A社品とB社品との差が出ても、実験室環境の差かもしれないだろう」
以上の理由から、整序サンプルはまずはランダマイズ、という定石があります。
①は必須で、②は邪道です。
①でシャッフルすれば、先頭から必要な個数だけ抽出すれば良いです。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 確率統計の問題です。 3 2022/04/07 04:39
- 大学・短大 大学 統計学 1 2022/09/14 11:27
- 統計学 統計学が分かりません!詳しい解説と回答を教えてくださる方お願いいします! 5 2022/08/23 03:10
- Excel(エクセル) Excelマクロ 差分抽出の方法が知りたいです。 2 2023/03/07 13:25
- 一戸建て アスベスト物件解体に必要なこと 2 2023/07/12 07:10
- 統計学 統計学に詳しい方、一元配置分散分析について教えてください 3 2023/11/14 23:42
- 統計学 最近統計学について独学で勉強している者です。 mとnは二つの母集団から無作為抽出した際の標本のサイズ 2 2023/02/07 12:35
- 統計学 不偏分散について 3 2022/03/29 15:57
- 統計学 統計学の質問【帰無仮説】 高校の新学習指導要領では、統計的仮説検定の基本的な考え方が必修単元となった 5 2023/05/23 21:00
- 統計学 どの統計を使えばいいのか教えてください(EZ-Rを使用) 5 2022/10/11 13:28
このQ&Aを見た人はこんなQ&Aも見ています
-
新NISA制度は今までと何が変わる?非課税枠の拡大や投資対象の変更などを解説!
少額から投資を行う人のための非課税制度であるNISAが、2024年に改正される。おすすめの銘柄や投資額の目安について教えてもらった。
-
変な計算方法(笑)
数学
-
確率の問題 数学と実生活と
数学
-
理系の高校生です。大学で情報系に進み、アルゴリズムを学ぼうと思った場合、 ①実際にプログラミングをす
計算機科学
-
-
4
標準偏差について
統計学
-
5
フルスケール誤差の値の範囲について
統計学
-
6
「地球と月と太陽を結ぶ面」は、なにか意味をもっているのですか?
宇宙科学・天文学・天気
-
7
実験で得た傾きの値と理論値に0.09%の誤差があるのですが、許容範囲であると断定するにはどうしたらい
統計学
-
8
対数変換のついて
統計学
-
9
『3ℓと5ℓで8ℓ』
数学
-
10
計算ソフトでの計算精度について
計算機科学
-
11
ピタゴラスの定理は辺の長さが虚数でも成り立ちますか
数学
-
12
データサイエンティストになるにあたって、統計検定2級というのはアピールにはなりませんか? その程度は
統計学
-
13
統計学の単位を統計検定2級で代替できる大学があるというのは本当ですか? 逆に言うと、統計検定2級って
統計学
-
14
エクセルでランダム関数で乱数を作ったのですが、グラフにしてみたら正規分布になりません。
統計学
-
15
統計初心者です。ANCOVAに関する質問です。
統計学
-
16
統計学に詳しい方助けてください
統計学
-
17
統計検定二級を取っても、大学一二年の教養レベルの統計の知識理解があるとしか見なされませんか? 大学院
統計学
-
18
下の画像の中の三角形は正方形だ、と友達が言っていたのですが、その根拠のようなものはありますか? 二等
数学
-
19
ランダム出力の数値をコントロールし期待値50%、期待値200%になるロジックを作れません
統計学
-
20
離散変数と連続値変数を別の言葉で何と言いますか?
統計学
おすすめ情報
このQ&Aを見た人がよく見るQ&A
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
EXCELにてローパスフィルタを作...
-
統計学の基本的なことについて...
-
心理機能診断をしたのですが、...
-
サンプル数の異なる2群間にお...
-
【統計】有意に「高い」?「低...
-
対数グラフ用紙に収まらない場...
-
心理学の統計について
-
検量線の決定係数について
-
下の対数表示のグラフから低域...
-
エクセルのグラフから半値幅を...
-
理科のグラフで、直線と曲線の...
-
分配関数
-
溶解度の問題 理科
-
母比率の差の検定の英語名
-
検定統計量の値がマイナス
-
片対数グラフの傾きについて
-
v-xグラフのようなものは描けま...
-
この問題を教えてください 1000...
-
データ点を線で結ぶ場合と結ば...
-
統計のp値の書き方が分かりませ...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
EXCELにてローパスフィルタを作...
-
サンプル数の異なる2群間にお...
-
心理機能診断をしたのですが、...
-
エクセルでランダム関数で乱数...
-
ブラック・ショールズ方程式を...
-
複数の集団の全体平均が0より有...
-
検量線の決定係数について
-
ポアソン回帰でのカウントデー...
-
青い下線部分はなぜそうなるの...
-
統計学の問題でわからないので...
-
[Excel] リストからの無作為抽出
-
x^2+y^2はどのような分布をする?
-
エクセルのグラフから半値幅を...
-
統計について
-
極値をもつ時と持たない時、単...
-
エクセルで正規分布かどうかを...
-
パイロットサンプルって何ですか?
-
データが正規分布しているか判...
-
回帰分析の回帰係数のt検定
-
正規分布について
おすすめ情報
すみません、もちろん RAN K .EQ です。