調査研究をはじめて試みています。統計処理の段階でどこまでを「有効回答」として扱うべきか迷っています。設問の半数が無回答の調査票も若干あるのですが無効としていいものか。「有効回答」の定義みたいなものがあったら教えて下さい。

このQ&Aに関連する最新のQ&A

A 回答 (2件)

目的によると思います。


ですから、一概に、「設問の内、1問でも未回答があったら無効回答にする」かどうかは難しいですね。
設問が20あったとして、8割以上に回答が記入してあれば「良し」とするか、1問でも重要なものが抜けていたらボツにするかは、その調査の目的と設問によるのではないでしょうか?
例えば、回答してもらった人の業種によって回答を振り分けるような処理をするのに、「業種」が書いてない場合は「無効」ですよね。
それから、「外れ値」にも気をつけなければならないですね。
これらは統計の前処理の基本になります。
「貴方の家の時価」を大都市の人に聞いているのに、「北海道の原野にある実家の時価」などを書かれても平均を下げてしまいます。
すると主成分が変わってしまいます。
どんな統計処理をするのかにも係わりますね。
答えになっていなくて、すみません。m(__)m
    • good
    • 0
この回答へのお礼

ありがとうございました。目的をもう一度見直してみたいと思います。このような内容の事柄は統計の書籍などにもズバリ書いていないので(多分素人すぎてだとおもうのですが・・・(^^ゞ)大変助かりました。頑張ります!

お礼日時:2001/11/18 21:07

 こんばんは。



 No.1の方と同意見です。ただ、わざわざ調査に回答していただいた方々の時間と労力を考えると、調査の目的に反しない限り出来るだけ有効回答にするように心掛けています。
    • good
    • 0
この回答へのお礼

やはり「目的」が重要なのですね。ありがとうございました。私個人としては、なるべく有効回答として行きたいのですが・・・。統計分析って難しいですね。調査も簡単なようで大変だということを実感しています。

お礼日時:2001/11/18 21:12

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aと関連する良く見られている質問

Q回帰線からの外れ値の検定

お世話になります。

分析方法(A法とB法)の比較をしています。
測定濃度が異なる10サンプルを両分析法で分析し,
その結果をプロット(横軸A法,縦軸B法)したところ,
9点はY=Xの直線上に分布するのですが,
(A法での測定値がB法の測定値と非常に近い)
1点のみがY=Xから外れており,
これを加えると信頼区間を含めてY=Xとはなりません。

A法とB法は系統的に異なることのない分析方法であると証明したい
と思っており,この異常値を棄却する根拠が欲しいと思っています。

異常値を棄却する手法でこの1点を外れ値としたいのですが,どのような手法を用いればよいのでしょうか?

お分かりになる方がいらしたら,
教えていただきたくお願いします。

Aベストアンサー

私もだいぶ前に少しかじっただけなのでうろおぼえなのですが
統計的にはそのような外れ値を除く手法が存在します。

参考URLの下のほうにある四分位点を用いるものや「箱ひげ図」
を使ったものがこれに当たります。
基本原理としては回帰曲線に対して標準偏差の任意倍(2とか3とか)
を足し引きした線を描き(ボリンジャーバンド?)、この間から外れた値は外れ値として除去
その後残りのデータで再び回帰分析をするというようなものです。

詳しくは数学系のカテゴリーで再質問することをお勧めします。
あまり力になれず申し訳ない。

参考URL:http://phi.ypu.jp/statlib/l4-2003.pdf

Q統計学的に信頼のあ有効率は、全体の何%あればよいか

こんにちは。

表題の件ですが、自分が知りたいのは
例えば、100人に「ゲームのマリオが好きかどうか」のアンケートを取り
その中の有る一定の割合(例えば30%とか)でサンプルデータとして無作為に抜き出して
その結果を全体の結果として結論付けたい場合
一定の信用度がある状態というのは、抜き出す割合が何%程度あれば
満たせるのでしょうか。

上記の例ですと、例えばデータの信頼度を80%とするには
抜き出すデータを30%が必要、など。

もちろん、アンケートの対象者によって
ゲームについての質問の場合、
・小学生男子に聞いたケース
・お年寄りも含めて聞いたケース
では、意味も信頼度も変わってくるでしょうが、
「一般的に」という意味で構いませんので、
全体の何割があると信頼がおけるのか、というのを知りたいと思います。

もしお教えいただけるのであれば
できればその事例の根拠や事例など、併せて教えてもらえると助かります。

よろしくお願いいたします。

Aベストアンサー

「一般的に」という意味で語るのは、
小学生男子に聞いたケースでも、お年寄りも含めて聞いたケースでも、
他のどんなケースでも、全ての場合で共通に成立つようにしなければ
一般性があるとは言えませんから、少しハードルが高いかもしれません。

Q外れ値の求め方は?

外れ値を求めたいのですが、自分で計算式をくんでやってみると、外れ値だと思える値が正常値と判断されてしまい、質問させていただきました。

現在とあるサイトを運営していて、このサイトのコンテンツに対して、アクセス数を元にしたランキング機能を実装しようと考えました。
アクセス数は日毎に記録しています。

しかしながら、アクセス数を見てみると、BOTかなにかの影響である日のアクセス数だけ、異常に高いのが複数のコンテンツにあり、ランキングがめちゃくちゃになってしまいました。

そこで、このような外れ値を除外するプログラムを書こうと考えました。
このプログラムは、
平均値±(3×標準偏差)
の範囲外(以上ではない)だと、外れ値だと検出します。

このプログラムをテストするために、
[29,6,1,5,4,10,1,10,10000]
という9つの値を渡しました。
私は10000がプログラムによって検出される事を期待しました。

しかしながらこのプログラムは、外れ値を検出しませんでした。
そこで計算をみてみると、

平均値=1118
標準偏差=3330
外れ値= 1118 + 3*3330 = 11110

よって10000は外れ値ではないと、検出されていました。

私はどこを間違っていますか?
またどうすれば外れ値を検出することができますか?

外れ値を求めたいのですが、自分で計算式をくんでやってみると、外れ値だと思える値が正常値と判断されてしまい、質問させていただきました。

現在とあるサイトを運営していて、このサイトのコンテンツに対して、アクセス数を元にしたランキング機能を実装しようと考えました。
アクセス数は日毎に記録しています。

しかしながら、アクセス数を見てみると、BOTかなにかの影響である日のアクセス数だけ、異常に高いのが複数のコンテンツにあり、ランキングがめちゃくちゃになってしまいました。

そこで、このよ...続きを読む

Aベストアンサー

そのやり方は検出力が弱いので推奨されない。

もっと良いやり方はいくつかあるが,簡単なのは箱ひげ図を使うやり方です。

まず,データの第1四分位点Q1,第3四分位点Q3を求めてIQR=Q3-Q1を求める。
次にQ1-3*IQRからQ1+3*IQRの範囲から外れているものを極端な外れ値とする。
また,極端な外れ値ではなくてもQ1-1.5*IQRからQ1+1.5*IQRの範囲から外れているものを軽度な外れ値とする。

http://ja.wikipedia.org/wiki/%E7%AE%B1%E3%81%B2%E3%81%92%E5%9B%B3

Q【天才の定義とは】テレビで「天才」として登場した天才少年。 目の前の芸人を知らずに「産まれた時からテ

【天才の定義とは】テレビで「天才」として登場した天才少年。

目の前の芸人を知らずに「産まれた時からテレビを見ていないので」と言ったので、

芸人がツッコミで「明石家さんまも知らないの?タモリさんも?」と聞くと、、、

天才少年は「知りません」と答えた。


明石家さんまもタモリさんも知らない人は天才と言えるのでしょうか?


私はこの子は「数学の天才」じゃなくて「数学馬鹿」だと思った。

Aベストアンサー

>明石家さんまもタモリさんも知らない人は天才と言えるのでしょうか?

これだけが質問ですよね。

明石家さんまもタモリも、天才を見抜けるのでしょうか?

見抜ける? ほんとに?

QExcelの近似曲線で外れ値(異常値)を除外したい

Excelの近似曲線についての質問です。実験データーを基にしたある散布図についての近似曲線を作りたいのですが、散布図の点の中に明らかに近似曲線に用いるのに不適な外れ値(異常値)があります。このような外れ値(異常値)を除外して他の値のみを用いた近似曲線を作る方法があれば教えてください。よろしくお願いします!

Aベストアンサー

>外れ値(異常値)を除外して
外れ値を別のデータ系列にして、他の値のみの系列を用いた近似曲線を描く
散布図のプロットの色を2つの系列とも同じにする。

Q「収束」を定義すれば、位相も定義できる?

位相空間では、点列の収束という概念が定義されていると思います。手元に適当な本がないので、不確かな記憶ですが、
位相空間Xの点列(a_n)がαに収束する
⇔αを含む任意の開集合Oについて、あるNが存在して、n≧Nならばa_n∈Oである
という雰囲気の定義だったと思います。(nは自然数のような離散的な値ではなくてもよいはずですが、自然数と考えて問題ありません)

さて、ある空間X上の点列(a_n)に対して「収束(極限)」の概念を定義したとしたとします。
この時、空間Xに適当な位相構造を入れてやる事で、位相空間Xにおける収束と、ここで定義した収束が一致するようにする事は可能でしょうか?(もし、必要なら、Xはベクトル空間としても構いません)
そもそも何を「収束」と呼ぶべきかすら分からないですが、一般的な定義あるのであればその定義と考えて差し支えありません。(ないのであれば、困ってしまうのですが、きっとあるでしょう)

具体的な例としては、ヒルベルト空間の線型演算子には、「弱収束」や「強収束」と言った概念がありますよね。これらの意味の収束を与える位相は存在するのか、という事です。(具体的にどう構成するのかは知りませんが、「弱位相」とか「強位相」と呼ばれる位相があったと思います)

位相空間では、点列の収束という概念が定義されていると思います。手元に適当な本がないので、不確かな記憶ですが、
位相空間Xの点列(a_n)がαに収束する
⇔αを含む任意の開集合Oについて、あるNが存在して、n≧Nならばa_n∈Oである
という雰囲気の定義だったと思います。(nは自然数のような離散的な値ではなくてもよいはずですが、自然数と考えて問題ありません)

さて、ある空間X上の点列(a_n)に対して「収束(極限)」の概念を定義したとしたとします。
この時、空間Xに適当な位相構造を入れてやる事...続きを読む

Aベストアンサー

ヒルベルト空間上の線形作用素にいろいろ位相は導入できます。それらはすべて局所凸位相と呼ばれるもので一般にあるセミノルム族が与えられたときにそれらから定義される開近傍系を基に作られる位相です。ここら辺の話は関数解析の本に載っていると思いますが詳しく知りたいのなら一般的な関数解析よりも作用素環論、作用素論の本の最初の部分などを参照すると良いと思います。
回答に戻りますが参考になるかどうかかなり怪しいですが一応質問者さんの言いたいことを踏まえたつもりになると。。ヒルベルト空間上線形作用素の場合に絞りますがその場合上で述べたセミノルムというものが定義されていますよね?すなわちA→|<ψ|A|φ>|という写像です。
これはある意味各Aに対して距離(もしくはノルム)みたいな数値が決められていて点列{A_n}がAに(この尺度で)収束するということを
|<ψ|A-a_n|φ>|→0で定義しているわけです。
これは自然に次の開集合系(開近傍系とも呼ばれる)を誘導します:
V(B: ψ,φ:ε)={B: |<ψ|A-B|φ>| < ε}
これらの形の集合の有限個の共通部分、任意和からなる集合を開集合と定義します。するとこれはもとの意味での収束と同じ収束を意味しています。近づくという感覚はε>0という任意の正数を導入したところにあります。若干ここで注意すべきところは「この位相でA_nがAに近づくということは高々有限個の上の形の開集合(B=A)が存在してある番号以上のすべてのnに対してA_nがその有限個の集合に含まれている」ということです。無限個の共通部分ではないということですね。このような話は位相の基本ですがweak-topology,weak operator-topology(wo-topology), strong-topology(norm-topology), strong operator-topology(so-topology), weak*-topologyなどいろいろ導入されていて面白い作用素環論の本が個人的にはお勧めです。すでに知ってらっしゃるかもしれませんが蛇足ながらフォンノイマン環の話はこれらの位相のひとつで閉じているある部分空間は代数的に特徴付けられる(Double commutantと呼ばれるもの)という基本定理から始まっていてなかなか興味深いものです。

ヒルベルト空間上の線形作用素にいろいろ位相は導入できます。それらはすべて局所凸位相と呼ばれるもので一般にあるセミノルム族が与えられたときにそれらから定義される開近傍系を基に作られる位相です。ここら辺の話は関数解析の本に載っていると思いますが詳しく知りたいのなら一般的な関数解析よりも作用素環論、作用素論の本の最初の部分などを参照すると良いと思います。
回答に戻りますが参考になるかどうかかなり怪しいですが一応質問者さんの言いたいことを踏まえたつもりになると。。ヒルベルト空間上...続きを読む

Q統計学の外れ値について

4つの予備校の数学テストの結果で、それぞれにMean,Median,Max,Minの値が与えられているとします。
(Maxはどの予備校も100点)
4つの予備校のいずれかで満点が外れ値だと分かっているとき、どの予備校であるかを推定するためにはヒストグラムを書く以外に、さらにどのような統計量を算出して検討すればよいですか?

Aベストアンサー

Mean,Median,Max,Minしか使えないとすれば、
満点が外れ値であるためには、
集団が100点より下方にありますので、
平均点が低いところです。
#例外はいくらでもあるでしょうが。

分散が分かるなら、
偏差値を求めるのがより確実です。

Q上極限、下極限の定義を極限の定義と類似の形ですることができることを示す定理

「微分積分学I」(三村征雄 著、岩波全書、1980年度版)のP56 定理25 の証明が分かりません。

この定理25 は上極限、下極限の定義を極限の定義と類似の形ですることができることを示すものです。

定理25 lim sup a(n), n→+∞、=α∈Rであるためには、ε>0が任意に与えられたとき、

殆どすべてのnに対し、 a(n)<α+ε (8)
無限に多くのnに対し、αーε<a(n) (9)

となることが、必要十分である。 (以下省略)

注記: a(n)はa にインデックスのn がついたものです。

というところなのですが、P57の証明では次のようになっています。

lim sup a(n)=α、すなわちlim a(n)バー(aの頭に横棒)
=αとすれば、ε>0が与えられたとき、
殆どすべてのn に対し、αーε<a(n)(aの頭に横棒)<α+ε
となる。a(n)≦a(n)バー であるから、まず(8)が成り立
つ。

ここまでは分かるのですが、

つぎからはさっぱりです。(『・・・』に包んでおきます。)

『つぎに、αーε<a(n) バー=sup{a(m); m≧n}であることか
ら、αーε<a(m(n))∈{a(m); m≧n}であるようなm(n)が存在し、
これらのm(n)のなかには重複するものがあるかもしれないが、
m(n)≧nであるから、重複するものを除いても、無限に多くの
ものが残る。すなわち(9)が成り立つ。』

注記: a(m(n))はa にインデックスm がつき、そのmにさらにインデックスnがついたものです。

あれこれ考えているうちに、次のような証明を思いつきました。
<<・・・>>で包んでおきます。

<<数列a(n)を作っている数の集合をA と表す。
もし、αーε<a(n) を満たすAの要素a(n)が有限個し
かないと仮定する。そのようなa(n)のインデックスnには
最大値が存在する.それをNとすると、
αーε<a(N) 、a(N+1)≦αーε、a(N+2)≦αーε、・・・となる。
よって、A(N)={a(N), a(N+1), ...}, A(N+1)={a(N+1),
a(N+2), ...}, ・・・・・とすると、
(これは上極限、下極限を定義するときの表現と同じです)
これらのどの要素もインデックスが N+1かそれより大きいので、
A(N+1)、A(N+2)、...のどの要素もαーεより大きくなることは
ないのでsupの定義とa(n)バー が単調減少数列になることから、
・・・≦a(N+2)バー ≦a(N+1)バー ≦αーε
これはα≦a(n)バー と矛盾する。故に(9)が成り立つ。>>

以上よりお願いが二つあります。

1.『・・・』について、理解のヒントを教えてもらえるとありがたいです。
2. <<・・・>>について、私の証明を検証してもらえるとありがたいです。

勝手ながらよろしくお願いいたします。

「微分積分学I」(三村征雄 著、岩波全書、1980年度版)のP56 定理25 の証明が分かりません。

この定理25 は上極限、下極限の定義を極限の定義と類似の形ですることができることを示すものです。

定理25 lim sup a(n), n→+∞、=α∈Rであるためには、ε>0が任意に与えられたとき、

殆どすべてのnに対し、 a(n)<α+ε (8)
無限に多くのnに対し、αーε<a(n) (9)

となることが、必要十分である。 (以下省略)

注記: a(n)はa にインデックスのn が...続きを読む

Aベストアンサー

>『つぎに、αーε<a(n) バー=sup{a(m); m≧n}であることか
ら、αーε<a(m(n))∈{a(m); m≧n}であるようなm(n)が存在し、
ーーーーーーーーーーーーーーー
基本事項です。
αーεは、{a(m); m≧n}の上界ではないということです。

Q外れ値だと判断するためには

物理学実験で可変抵抗、コンデンサー、発振器をつなげた回路をつくり、可変抵抗の値Rを変えていったときのそれぞれの半減期Tを測定しました。Tを縦軸、Rを横軸とし、グラフにプロットし、直線をひきました。そのときに、ある1点を除くときれいな直線になるのでその1点を外れ値としたいのですが、「明らかに外れてるから・・・」ではだめで、何らかの根拠をもって考察としないといけません。
何を計算すればいいのか、どう根拠づけたらいいのか 分かる方いらっしゃいましたら至急教えてください!!

Aベストアンサー

標準化残差を求める方法があります。
残差を回帰分析で得られる標準偏差で割り、その絶対値がある値以上(2~3)であったら、外れ値として除くかどうか検討します。
「標準化残差」で検索してみてください。

参考URL:http://www.aoni.waseda.jp/abek/document/regression-2.html

Q1+1=2、2×3=6の証明のための、3変数関数fでの定義と帰納的定義は同値?

過去の質問「1+1=2の証明って?」
http://oshiete1.goo.ne.jp/kotaeru.php3?q=217225
を精読しました。
過去の質問では、小さい自然数の定義した上で、プラスの定義を3変数関数fを使って、

●f(n,m,m)=n
●m≠kのとき、f(n,m,k) = f(s(n),m,s(k))
そして
●+(n,m)=f(n,m,0)

とされていました。

ここでは少し違って考えます。
まず、自然数(ここでは0も含める)の定義ですが、Peano's Axioms
http://mathworld.wolfram.com/PeanosAxioms.html
をみていただくとして、
自然数 a の 後者を suc(a) と書くことにします。
小さい自然数では、
0 := {}
1 := suc(0)
2 := suc(1)
3 := suc(2)
などとします。

次に+の定義ですが、帰納的に、
a+0:=a
a+suc(b):=suc(a+b)
で定義します。

すると、
1+1=1+suc(0)=suc(1+0)=suc(1)=2
と証明できたことになります。

×の定義を、帰納的に、
a×0:=0
a×suc(b):=(a×b)+a
で定義します。

すると、
2×3=2×suc(2)
=(2×2)+2
=(2×suc(1))+2
=((2×1)+2)+2
=((2×suc(0))+2)+2
=(((2×0)+2)+2)+2
=((0+2)+2)+2
=((0+suc(1))+2)+2
=((suc(0+1))+2)+2
=((suc(0+suc(0)))+2)+2
=((suc(suc(0+0)))+2)+2
=((suc(suc(0)))+2)+2
=((suc(1))+2)+2
=(2+2)+2
=(2+suc(1))+2
=(suc(2+1))+2
=(suc(2+suc(0)))+2
=(suc(suc(2+0)))+2
=(suc(suc(2)))+2
=suc(3)+2
=4+2
=4+suc(1)
=suc(4+1)
=suc(4+suc(0))
=suc(suc(4+0))
=suc(suc(4))
=suc(5)
=6
と証明できたことになります。

上記のプラスの3変数関数fでの定義と、今回のプラスやカケルの帰納的定義は同値ですか?
違いがあるとしたらそれは何ですか?

ちなみに、s(n)=suc(n)です。

過去の質問「1+1=2の証明って?」
http://oshiete1.goo.ne.jp/kotaeru.php3?q=217225
を精読しました。
過去の質問では、小さい自然数の定義した上で、プラスの定義を3変数関数fを使って、

●f(n,m,m)=n
●m≠kのとき、f(n,m,k) = f(s(n),m,s(k))
そして
●+(n,m)=f(n,m,0)

とされていました。

ここでは少し違って考えます。
まず、自然数(ここでは0も含める)の定義ですが、Peano's Axioms
http://mathworld.wolfram.com/PeanosAxioms.html
をみていただくとして、
自然数 a の 後者を su...続きを読む

Aベストアンサー

No.1へのコメントについてです。

> 3変数関数fでの定義は、数え上げ、かつ、記述が複雑な傾向がありそうです。
> 再帰的定義は、数え下げ、かつ、記述が簡易な傾向がありそうです。

 手続き型のプログラミングに慣れていると、再帰的な定義は分かりにくくて困るようです。手順に沿って順番にやっていくループによる操作の方がイメージしやすい。これはひとつには、「この関数は結局何をやってるのか」を知っているかどうかの違いだと思います。実際、fjfsghさんの+が足し算を意味していると分かっていて定義を見るのと、予備知識なしに意味を知るために定義を読むのとでは難しさが全く違います。 後者の場合、再帰が複数箇所に現れるともっと大変で、例えば、Ackermann関数
 A(0,n) = n+1 (n≧0のとき)
 A(m,0) = A(m-1,1) (m≧1のとき)
 A(m,n) = A(m-1,A(m,n-1)) (m≧1, n≧1のとき)
が何をやるものか、定義だけ見てもなかなか分からないでしょう。
 手続き型であるfの方は、補助変数が沢山あるので、操作に従ってナニがどう変わって行くか、ナニが変化しないかが見つけやすく、意味を(直感による帰納を使って)推測しやすいのだろうと思います。
 ですから、過去の質問「1+1=2の証明って?」において、「どういう演算を表しているか」を先に言わずに、しかも分かりやすく説明する、という目的には、fの方が適していた訳です。
 しかし、数学の対象として扱う場合には、fは冗長な補助変数を抱えているのが邪魔ですし、定義が長いので大変。再帰的な定義は数学的帰納法に素直に乗る(数学的帰納法と再帰的定義は表裏一体なのだから当たり前)。だから、再帰的定義の方が大抵便利です。

 計算可能性(計算不可能な関数とはどんなものか。真偽を決定できない命題はあるか)を論じるために、算術を手続き型のプロセスとして構築し直したのがアラン・チューリング、再帰的な関数(原始帰納関数、帰納関数)として構築し直したのがクルト・ゲーデルでしょう。
 結局、両者の方法は同等であることが示されました。これらは情報工学の基礎理論である「計算の理論(計算論、アルゴリズム理論)」と呼ばれる分野の話であり、同時に、ヒルベルトの形式主義(数学を記号の操作とみなすことによって、あらゆる定理を自動的に導く方法を構築できないか?)の(否定的な)研究、という意味を持っていて、20世紀の数学の重要な流れのひとつと言えます。
 なお、チューリングの考えた「チューリングマシン」は、あるプログラムの出力を別のブログラムに入力として与える、というやり方で複雑な計算を構成します。ゲーデルの帰納関数では、同じ事をやるのに、関数の変数に別の関数を代入する、というやり方で実現します。それぞれ手続き型のプログラミング言語と再帰型のプログラミング言語(LISP, PROLOGなど。もちろんC言語でも再帰は書けますが)の基礎になっています。

No.1へのコメントについてです。

> 3変数関数fでの定義は、数え上げ、かつ、記述が複雑な傾向がありそうです。
> 再帰的定義は、数え下げ、かつ、記述が簡易な傾向がありそうです。

 手続き型のプログラミングに慣れていると、再帰的な定義は分かりにくくて困るようです。手順に沿って順番にやっていくループによる操作の方がイメージしやすい。これはひとつには、「この関数は結局何をやってるのか」を知っているかどうかの違いだと思います。実際、fjfsghさんの+が足し算を意味していると分かっていて定...続きを読む


人気Q&Aランキング