重要なことなので、再記(復習)から始めよう。
 DNAの最小単位はヌクレオチドで、これは「リン酸」・「五炭」・「塩基」の三つで成り、「リン酸」を<のり>のような接着体として上下(または左右)のヌクレオチドとつながる。「塩基」は、別のDNA分体(別の一本の「鎖」糸)の「塩基」(「相補塩基」)と結合して「塩基対」になる。この塩基対が、<縄ばしご>の足を乗せる<踏み板(縄)>だ。
 「塩基」には4種があり(A,T,G,C)、各塩基は一つの種類しか持たない。「塩基対」になる別の塩基の種類は、最初の塩基の種類に応じて、特定のものに決まっている。すなわち、A-T、G-C(T-A、C-G)の組合せしかない。
 ヌクレオチドが上下(左右)につながって、「塩基配列」ができる。2個つながると2個の「塩基配列」、3個つながると3個の「塩基配列」だ。
 「塩基配列」の並び方によって、特定の種類の「アミノ酸」の作成(・生成)が指示される。
 アミノ酸には、20種類がある。3個の「塩基配列」によって、アミノ酸の種類が特定できる。2個だけだと、(塩基の)4種×4種で、16種(のアミノ酸)しか特定できないからだ。3個だと、4種×4種×4種で、64種のアミノ酸を特定することができる。一定の配列の3個の塩基の組合せを、「コドン」と言う。
 「コドン」が上下(左右)に多数つながって、多様なアミノ酸の複雑な結合体としての一定の「タンパク質」の作成(・生成)が指示される。
 指示をする(仕様書・設計図を書く)、多数のコドン(>ヌクレオチド)の始まりと終わりは決まっている(始まりはA-T-G、終わりはT-A-A、T-A-G、T-G-Aのいずれか)。コドンの数は多様で、特定されていない。
 一定のタンパク質の生成を指示する(または「タンパク質をコードする」)、多数のコドンから成る一つの単位を「遺伝子」と称してよい。但し、この「遺伝子」という概念には、多数のコドンを形成する塩基に対応する、それの「相補塩基」も含められる、と見られる。2本めの「鎖」糸の「塩基」(相補塩基)は、もともとの「塩基」の<予備>だと考えられている。「鎖」糸が2本あってこそ、<縄ばしご>の左右の、手で握る部分ができる。
 なお、一つの「塩基」とその「相補塩基」、ひいては二本の「鎖」糸について、一方は父親由来、片方は母親由来と<堂々と活字に>している情報がネット上にあるが、誤り。父親と母親由来をそれぞれについて語ってよいのは、一つの「染色体」とその「相同染色体」だ。
 --------
 「コドン」は塩基(配列)に着目しているので、厳密には、「リン酸」、「五炭糖」という、塩基を支えて保護するヌクレオチドのその他の要素を含まない。
 2本の「鎖」糸(ビーズがつながった糸)の中には多数のヌクレオチド全体が含まれており、それは「ヒストン」と称されるタンパク質の周りに、左回りの<らせん状に>巻きついている。1.7回〜2回巻きついた一つの単位を「ヌクレオソーム」と言う。正確に言うと、いわば接着剤である「リン酸」は含まれないようだ。
 --------
 DNAとは、大まかには、上の「ヌクレオソーム」の総体だと言える。したがって、「コドン」、多数の塩基(塩基対)を含んでいる。(これは、細胞「分裂」時には、「染色体」として顕現する。)
 しかし、「遺伝子」をあくまで(これが現在も支配的だが)一定の「タンパク質をコードする」情報をもつものと理解すると、DNA=「遺伝子」の総体、ではない。
 それどころか、2000年代以降、DNAの98パーセント(ときに98.5%)は「遺伝子」たる情報を持たない、とされている。「非コードDNA(領域)」とも言われる。より正確にはつぎのとおり。
 DNAの約80パーセントは「遺伝子」を含まない領域が占める。「遺伝子」の「外」または「間」がある。
 さらに、いちおうは「遺伝子」たる情報を含む領域であっても、「タンパク質をコード」している部分とそうでない部分とがある。前者を「エクソン」(構造配列)、後者を「イントロン」(介在配列)と呼ぶ。イントロンの存在は1980年以降に明らかになった、とされる。これは、遺伝子の「内部」にある、<タンパク質非コード領域>だ。全生物ではないが、ほとんどの生物、「核」を持つ全ての生物の「遺伝子」に、この部分がある。
 「エクソン」部分に限ると、これはDNA全体の2パーセント(あるいは1.5%)を占めるにすぎない。
 なお、「遺伝子」につき、以下の叙述がある。「機能発現」の「調節」・「制御」にすでに論及があるが、代表的だろうと思うので、引用する。
 「遺伝子とは、一つの機能を持った遺伝情報の単位である、と定義することができる。
 ここに言う一つの機能とは、一般的にタンパク質またはRNAの構造を決めることである。
 遺伝子はエクソンとイントロンとから成り立っている…。
 この他に遺伝子の転写や翻訳の機能発現を調節する制御配列が、エクソンの上流(転写のスタートする位置)、下流(転写が終了する位置)、またはイントロンの中に存在する。
 制御配列は、この遺伝子が、いつどこで発現されるべきかについて、他の遺伝子からの指令を伝える調節物質が認識する領域である。〔一文、略〕
 このような制御配列、エクソンおよびイントロンを含めて、一つの遺伝情報の単位、すなわち遺伝子が作られているのである。」
 本庶佑・ゲノムが語る生命像—現代人のための最新·生命科学入門(2013)
 --------
 <DNA→(転写)→mRNA→(翻訳)→タンパク質>が「セントラル·ドグマ」と称されるのは、ヒトあるいは哺乳類あるいは脊椎動物等の多くの生物に共通する「遺伝」情報の伝搬方法だからではない。「細菌」(バクテリア)を含む「原核細胞」あるいは「単細胞」生物にも共通する、生命体の「中心原理」であるからだ。ヒトも細菌も本質的には変わりがない、とも言える。どちらも「生命」だからだ。
 「真核生物」と細菌等の「原核細胞」が異なるのは、「核」あるいは「核膜」の有無、DNAの形状等だ。
 ヒトが持つとされる38兆個(または60兆個)の全細胞に「核」があって、上のシステムが配備されている。その「核」内にそれぞれ、約2万1000個〜2万4000個の「遺伝子」がある。その各「遺伝子」が含む塩基配列・塩基対の数は、…。これらの掛け算の結果=一個体・人体内での総数を計算してみる気にもなれない。
 さて、DNAが持つ情報等の全てがmRNAに「転写」(transcription)されるのだろうか。かつてはほとんど全てがコピーされるのだろうと推測されていた。つまり、DNAのほとんどは直接に「タンパク質」形成に関与しているのだろうと見られていた。
 2003年のヒトゲノム計画終了後には、ごく簡単には、つぎのように考えられているようだ。
 「転写」されるのは、まずは、エクソンの他にイントロン部分も含む、「遺伝子」領域だけだ。これによって生まれるものを「mRNA前駆体」(pre-mRNA)と呼ぶ。
 ついで、「mRNA前駆体」が核内から細胞質に出ていく過程で、「タンパク質になるのに無関係な」イントロン部分が除去され、エクソンのみの純粋な「mRNA」になる。これが、細胞質内にある「リボソーム」によって「翻訳」(translation)されることになる。これは、塩基配列という「暗号」の「解読」によって行われる、一定のタンパク質の生成のことだ。
 上にいう、イントロン部分の除去のことを、「スプライシング」(splicing)と言う。これによって、内部で「分断」されていた一つの遺伝子は一つづきになる。「分断」されていたエクソンが「連結」される、とも言い得る。このような過程は、全ての真核生物で生じる、ともされている。
 「遺伝」にとって必要な部分だけの、無駄のないかつ「正確」なコピーを目的としていることは明らかだろう。もっとも、いくつかの例外等の留意点に関する付言が必要であるようなのだが、立ち入らない。
 --------
 さらに、なぜ、「必要」ではない部分をDNAは抱え込んでいるのか、も不思議なことだ。この点についての回答は、上に引用した本庶の叙述の中にある。すなわち、「遺伝子の転写や翻訳の機能発現を調節する制御配列」が、エクソンの末端部分以外に、イントロンの中にもある。これは、遺伝子が「いつどこで」発現すべきかを「調節」する機能を持つ。
 このような機能は、決して「不必要」でも「無駄」でもない。むしろ決定的に重要だとも言える。エクソンが示すのは「設計図」・「仕様書」あるいは「レシピ」なので、実際にいつどのように「実行する」かの指令は別に必要だと考えられるからだ。
 もう一つ、エクソン部分以外の領域の意味を「遺伝子」の「外」・「間」の(DNAの約80%を占めるという)部分も含めて考えると、つぎの可能性があるだろう。
 すなわち、現在はあるいはホモ・サピエンス誕生の時点ですでに「無駄」になっている、生物の<進化>の「名残り」または「痕跡」が、現在でもあるいはホモ・サピエンスになって以降も、DNAの中にとどめられている。
 ————