アプリ版:「スタンプのみでお礼する」機能のリリースについて

ヒトゲノム中(30億bp)でランダム配列と仮定した場合、ある特定の配列(長さn塩基)が2度出現する確率が100分の1以下になるには

n≧□塩基

このようなほぼ確率の問題なのですが、nが何塩基以上でこの確率の条件を満たすのか求める問題です。

式などを含めた求め方が、わかる方がいましたら教えてください。

(ちなみに答えは16or17塩基程度になるそうです)

A 回答 (2件)

”ある特定の配列”がポイントですが、適当に選んだ任意の配列という意味で考えてみましょう。


 
 確率=4^(-n)=pとして, 試行回数=3.0x10^9=N (厳密には、1塩基づつずらしていくと、n-1だけ短くなりますが、nは高々2桁程度の数値なので無視しましょう)とします。
 この条件で、ある特定の配列が、Nの試行で2回(丁度2回ですよ)出てくる確率Pは、
  P=NC2*p^2*(1-p)^(N-2) になります。
ただし、NC2はNこから2個とる組合せの数(NC2=N(N-1)/2)です。
つまり、N本のくじから、2本があたりで、残りN-2本がはずれである確率を求めるわけです。
これで、計算してごらんなさい。

この回答への補足

回答ありがとうございます。
このように計算するとn=17~18くらいで1/100以下になります。
やはりこのような場合は、帰納的に順番にnを代入して計算していくのが妥当なのでしょうか?

補足日時:2005/11/26 14:27
    • good
    • 0

確率をどのように計算するのかによるのだと思いますが、


計算方法についての指示は無いのでしょうか。

プライマーの設計などでは、単純に4^nで計算して、
N=16で4.3*10^9
N=17で1.7*10^10
ゲノムDNAが3*10^9なのでゲノムを1~4回カバーできる位なので1/100の確立にはなりません。

この計算法だと
N=19の時に2.7*10^11でゲノムサイズの92倍にあたります。

この回答への補足

回答ありがとうございます。
一応、1ヶ所にATGCの4塩基のどれかが入ると考え、ヒトゲノム中に長さn塩基の配列が1度は必ず出るので確率を1とし、2度目に同じ配列が現れる確率を1/100として考えて

(1/4^n)*{3*10^9-(n-1)}≦101/100

このように式を立てる方法もあるらしいのですが、なぜこうなるかがよくわかりません(本当に正しいかわかりません)。この他に具体的に値がn≧16.・・・と求めれるような、もっと簡単な求め方がなどがありましたら教えてください。

補足日時:2005/11/23 00:40
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!