プロが教えるわが家の防犯対策術!

本にAUGがDNAのコピーの開始点で、UAA,UAG,UGAは終端記号の意味をしているとありました。でも、実際にDNAを見ていると、AUGがなく、終端ばかりのものや、先端と終端に囲まれていない部分とか、終端記号だけの部分とかあります。どうしてなのでしょう。必ず対になっているのではないのですか?

A 回答 (8件)

1.です。



生物の仕組みを、DNA、RNA、蛋白質といった分子的なレベルに
基づいて理解しようと言う学問が「分子生物学」です。
一方、生物(主に分子生物学)にかかわる情報を、コンピューターの
力を利用して解析し、意味を見出す、または、分子生物学の
実験を進めるための助けにしようというのが、
「バイオインフォマティクス」といわれる学問です。

従って、ゲノム配列情報を扱う技術そのものは、
バイオインフォマティクスですが、扱っているものの
意味を理解するためには、分子生物学の素養は必須でしょう。

分子生物学の教科書としては、「細胞の分子生物学」(教育社)
がお勧めです。ただし、非常にボリュームもありますが。
現在、原書(Molecular Biology of the Cell)の4版が
でていますが、日本語版は、ちょうど3版が品切れに
なっているようなので、間もなく4版がでることでしょう。
そのほかには、類書として、「分子細胞生物学」(東京化学同人)
もいいかもしれません。
ちょっととっつきがたい、と言う場合は、細胞の分子生物学の
初心者向けバージョンである、「Essential細胞生物学」(南江堂)
もいいかもしれません。
いずれにせよ、細胞の成りたちと遺伝子発現の仕組みに
ついてきちんと理解しておくことは、一般教養として
以上にこの分野に関わるのであれば必須なことでしょう。

バイオインフォマティクスについては、本当にたくさんの
入門書がでていますので、どれがいいとは一概には言い切れません。
が、とりあえずのとっかかりとしては、
「初心者でも分かる!バイオインフォマティクス」(羊土社)
あたりを読まれてみてもいいのでは無いかと思います。
また、配列解析の仕組みから勉強したいのであれば、
「バイオインフォマティクス ゲノム配列から機能解析へ」
(メディカル・サイエンス・インターナショナル)
が、分厚くて高いですが、お勧めです。

一度、amazon.co.jp辺りで「分子生物学」「バイオインフォマティクス」
で検索してみることもお勧めします。
    • good
    • 0

1.です。


新しい質問の方に回答しておきました。
    • good
    • 0

1.です。



答え忘れてました。

>それから、GCATの文字列から検索して、アミノ酸、酵素、細胞や遺伝子とその機能の説明などを特定できる「一覧」は本であるのでしょうか。NCBIで調べることができますか?

NCBIのサイトで、BLASTという相同性検索ソフト(Webベース)
を使うと、その配列と同じ又は類似の遺伝子の一覧が
表示され、また、その遺伝子に関わるデータベース、
へのリンクも表示されますので、そこから更にたどることにより、
機能や、関連文献などについての情報も得られます。

参考URL:http://www.ncbi.nlm.nih.gov/BLAST/

この回答への補足

ありがとうございます。前回のご指摘で大腸菌operonというのをやってみました。驚くほど長い塩基がマッチングしました。しかし、コロナや他と明らかに優位性があるマッチングが出ました。いったいどういうことでしょうか?

補足日時:2003/05/09 17:49
    • good
    • 0

1.です。



>約100万分の1の確率となるとこういう分子生物学では「当たり前」なレベルでしょうか。100万分の1という時点でそれなりに固有と考えたくもなりますが。

ヒトゲノムのサイズは約3,000,000,000bpですから、
偶然でも3,000カ所にヒットしてもおかしくありません。

ただし、ウイルスのゲノムは、たかだか数百kb(数十万)程度
ですので、ウイルスに当たるとすると、それなりに
意味があるかもしれません。
(例えばウイルスに特異的な反応を担う酵素の遺伝子
などであれば、10塩基程度連続的に一致することも
十分あり得そうです。)

>12桁ならどうでしょうか?4の12乗=約1670万通り

これでも、ヒトゲノムには偶然に出現する可能性が高いです。

しかし、ウイルスのゲノム中に偶然に出てくる可能性は
かなり低くなります。

>ヒトコロナ:約120パターン
>マールブルグ:約22パターン
>クラミジア:約18パターン
>SIV:約16パターン

ヒトコロナについては、意味がありそうですね。
ほかのものについては、いくつの候補配列について
試した結果かによって有意かどうかあやしいかもしれませんね。
試しに、全く関係ないと考えられる、大腸菌Escherichia coli
のゲノムなどから、ウイルスゲノムと同程度の大きさの領域を
取り出して、それに対して同じ操作をしてみれば、偶然で
どれだけヒットするかの目安になるかもしれません。

ちなみに、先に書いた相同性検索をかけてみたところ、
塩基レベルで相同性が見られるのは、やはり主に、
コロナウイルスや近縁のウイルスでした。
また、6つの読み枠でアミノ酸配列に翻訳して、アミノ酸
配列のデータベースに対して検索する方法では、様々な
近縁のウイルス由来の蛋白質にヒットしました。

なお、上記の相同性検索は、置換や欠失などがある場合も、
有意に似ている配列を発見できるような様々な工夫が
なされたものです。
gcatさんが試みていらっしゃる方法は、このような、相同性検索
の方法のプロトタイプと言えるようなものだと思います。
それを、同じような考え方をした研究者達が、長年かけて改良
してきた成果が、今日使われている相同性検索という方法で
あるとも言えるでしょう。

このような方法について考えることに興味を持たれたなら、
バイオインフォマティクスについて勉強してみられては
いかがでしょうか?

この回答への補足

面白くて奥が深いですね。自分でも最新の発見ができそうな領域です。ところで、本ですが「分子生物学」が正式な学問領域の名称ですか?バイオバイオ、DNAとかで言ってしまうのでわかりづらいですが、先生の説明の基本認識が得られる本をご紹介頂けると幸いです。今私が参考にしているのは日本実業出版社の入門ビジュアルサイエンスシリーズの「生命のしくみ」「ヒトゲノムのしくみ」「遺伝性技術とクローン」「教養の生命科学」浅倉書店、もっと知りたいのですがあれば教えてください。学校で工学の化学はやったので有機化学まではなんとかわかります。それから、GCATの文字列から検索して、アミノ酸、酵素、細胞や遺伝子とその機能の説明などを特定できる「一覧」は本であるのでしょうか。NCBIで調べることができますか?

補足日時:2003/05/08 20:44
    • good
    • 0

1.です。



>これは偶然でしょうか?彼のやり方はいい加減でしょうか。

元の人の話を聞かなければ、どういう意図でどういう
操作をしたのかが定かではないので、何とも言えませんが、
DNAの塩基の種類は4種類ですから、任意の10塩基の並び方は、
4の10乗=1048576
塩基につき1回の確率で偶然にも現れます。

ということを考えると、偶然でもヒトゲノム中に無数に出てきて
不思議はないですね。

あと、googleなどは、厳密な意味で全文検索というわけでは
ないので、このような用途に使うのは不適切だと思います。
塩基配列同士の類似度を、偶然かどうかの確率を含めて
検索
するソフトがありますので、それを用いるのが正しいでしょう。

この回答への補足

ありがとうございます。約100万分の1の確率となるとこういう分子生物学では「当たり前」なレベルでしょうか。100万分の1という時点でそれなりに固有と考えたくもなりますが。なお、次のようにしてみました。

12桁ならどうでしょうか?4の12乗=約1670万通り

1.SARSウィルスシーケンスデータを「taa」などの終端ごとに1行として分離。特定の機能セクションごとにわけたと考えます。
2.この行ごとにデータにおいて12桁ごとで1文字ずつずれる検索をかけるワードを作成し、同様に終端ごとに分離したヒトコロナウィルスのデータに走査して比較をしてみました。頭からしっぽまで12桁で一致する部分を探し出せます。

疑わしいとされる他のウィルスともやってみました。結果は
ヒトコロナ:約120パターン
マールブルグ:約22パターン
クラミジア:約18パターン
SIV:約16パターン

これらは偶然の一致程度と思っていいのでしょうか。

補足日時:2003/05/08 16:24
    • good
    • 0

1.です。



> すると「ATG(GTG)ではじまり、TAA/TAG/TGAで終る」それに該当しない部分は「無用」「意味なし」と考えてよいのですか。

とは言い切れません。
蛋白質の情報を格納している部分の前の部分の配列が、
その蛋白質をいつ、どれだけ作ればいいのかというような
情報を担っていますし、また、そのほかの部分も、何らかの
機能を持っていたりすることが多いからです。
(ヒトなどの高等動物では、一見無意味な配列の繰り返しが、
全ゲノムDNAの大半を占めています。この部分の機能については、
まだ分かっていないことが多いようです。)

>DNAは必ず「GCAT」の記号の組み合わせでできる「3文字が一つの単位」(アミノ酸)であると

これは、蛋白質の配列に直す場合の決まり事です。
したがって、蛋白質の情報を格納していない場合には、
当然あてはまりません。
また、3文字ずつ区切る場合にも、きちんと先頭から始まって
いると分かっている場合を除き、区切り方は3通り考えられます。
1:最初から3つずつ
2:1文字目は前のコドンの最後の文字で、2番目から3つずつ
3:1、2文字目は前のコドンで、3文字目から

また、方向についても考える必要があります。
DNAは2本鎖ですので、塩基配列の情報が得られた場合、
実際に蛋白質の情報が格納されているのは、相補的な逆鎖の
可能性もあります。その場合にも、3通りの読み枠が考え
られますから、方向が正しいと言う情報が無い限り、合計
6通りの読み枠で考える必要があります。

>あるウィルスの塩基構造が別のウィルスにも含まれているかを見ようと探す場合、無理して3つずつシーケンスデータを頭から区切らず検索してとにかくマッチングが見られれば近似している、その機能を含んでいると考えてもよいのでしょうか。

塩基のレベルで比較するなら、3つずつにこだわるよりは、
区切らずにただ単に配列同士に似ている部分があるかどうか
を比較すればいいでしょう。
もし、コードしている蛋白質のレベルで比較したいなら、
それぞれの配列を、6つの読み枠で無理矢理アミノ酸配列に
変換してやり、それらを6*6の組合せで比較してやる
ことになります。

二つの配列の一致度を比べることは「相同性検索」と言われる
手法ですが、既存のソフトウェアで可能です。
市販のパッケージソフトもありますが、フリーウェアや、
web上で実行可能なものもあります。

このあたりは、バイオインフォマティクスの入門書に
詳しく書いてあります。

amazonなどで、「バイオインフォマティクス」で検索すると
たくさんの書籍が当たると思います。

この回答への補足

ありがとうございます。
CDCが発表したSARSウィルスのシーケンスデータを自分で分析してみているのですが、アメリカである人が「あの」10桁ずつ区切って並んでいるgcatのコードを単純に統計とると、最高2つ繰り返されるパターンがあり、これをgoogleでテキスト検索するとひっかかるよ。と書いていました。冗談だろうと思って8つを私は検索してみたら、一定の方向性で合致するのです。それは「クラミジア、SIV、マールブルグウィルス、パピロマウィルス、肉腫ウィルス、ヒトゲノム、Oryza sativa(中国の稲)、日本米、それからアメリカのハウスマウス、理化学研究所のクローンマウスなど。」
これは偶然でしょうか?彼のやり方はいい加減でしょうか。
例)
(1)GTCTTGTTTG
(2)TGTTCCTTTT
(3)GGTGACGGCA
(4)TGCCAAGAAA
(5)TGTTGTCTGT
(6)TTAGAGTAGA
(7)TTACTGGTTA
(8)CTTGGTATTA
ちなみにかずさDNA研究所の人は「そんなやり方もあるんですかねぇ」と妙に納得していましたけど。

それから、コロナウィルスは確かに先頭から3文字、不特定での文字でもかなりヒットするので確かにコロナウィルスが多いという印象はあるのですが、クラミジアも多いのです。どういうことでしょうか?それになんでSIVやマールブルグウィルスのようなアフリカの病気が入っているのですか?

補足日時:2003/05/08 13:44
    • good
    • 0

DNAの塩基は、A、G、C、T


RNAの塩基は、A、G、C、U

>AUGがDNAのコピーの開始点で、

 メッセンジャーRNA側の配列で説明して
あるんですね。
    • good
    • 0
この回答へのお礼

そうです。市販の本はRNAで説明しているのが多いです。

お礼日時:2003/05/08 11:54

AUGは、mRNAのアミノ酸への翻訳の開始点です。


DNAでは、ATGに対応します。同様にUAA等もU->Tとすると、
DNA配列上で対応します。
(開始点は、まれに、GUG(GTG)のこともあります。)

さて、DNA配列が、何かの蛋白質の情報を格納している
部分の全長(+終止コドン)を表している場合には、
おっしゃるように、ATGからはじまり、いずれかの終端記号で
終る形に書かれていると思います。
しかし、なかには、全長ではなくて、遺伝子の一部分のみしか
含まない配列や、蛋白質の情報を全く格納していない部分を
書くこともありますので、その場合には、終端記号ばかり出て来てしまうこともあります。

また、読み枠の問題というのもあって、一つの配列でも、
3種類(相補鎖も含めれば6種類)の読み方ができてしまいます
ので、これがずれていると、終端記号がたくさん出て来て
しまうこともあります。

したがって、
「遺伝子の、蛋白質の情報を格納している部分の配列は、
ATG(GTG)ではじまり、TAA/TAG/TGAで終る。
しかし、DNAには、蛋白質を格納していない部分もあるので
そのような領域では、終端記号ばかりが出て来ることもある。
さらには、一部分だけを抜きだして書くこともある。」
というのが、質問に対する答えになります。

このあたりは、分子生物学の基礎ですので、入門書を
じっくり読まれることをお勧めします。
(とてもここで分かりやすく説明することは出来ませんので。)

この回答への補足

ありがとうございます。すると「ATG(GTG)ではじまり、TAA/TAG/TGAで終る」それに該当しない部分は「無用」「意味なし」と考えてよいのですか。

それから、DNAは必ず「GCAT」の記号の組み合わせでできる「3文字が一つの単位」(アミノ酸)であるとありますが、実際はDNAの塩基配列は必ず3文字で一単位ではないようです。その場合、あるウィルスの塩基構造が別のウィルスにも含まれているかを見ようと探す場合、無理して3つずつシーケンスデータを頭から区切らず検索してとにかくマッチングが見られれば近似している、その機能を含んでいると考えてもよいのでしょうか。

補足日時:2003/05/08 11:50
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!