第1章: 基礎概念

1. 基礎概念

1.0 この章の役割

第0章では、本書の対象読者、できること / できないこと、責任境界を確認しました。第1章ではそれを前提に、IT 技術者が以降の解析章を読むために必要な生命科学・実験・データ形式の最小知識へ集中します。

この章で学ぶこと

  • DNA / RNA / タンパク質、遺伝子、転写産物、variant / 変異、発現、表現型の関係
  • WGS / WES / targeted panel、RNA-seq、single-cell、spatial omics などの実験が、どのような入力データと成果物につながるか
  • 実験由来のバイアス、サンプル品質、アノテーションの版が、IT 側のデータ品質・再現性・来歴管理へ影響する理由
  • ヒト参照ゲノムを GRCh38、T2T-CHM13、pangenome / パンゲノムの3層で捉える考え方

この章で扱わないこと

  • ウェット実験手順の実施方法
  • 個別患者の診断・治療・投薬判断
  • 法規制、倫理審査、同意取得、商用利用可否の個別判断

臨床ゲノム、個人情報、AIモデルの利用条件は後続章で扱います。この章では、解析対象が何を測定したデータなのか、どの参照・注釈・前処理に依存するのかを説明できる状態を目標にします。

1.0.1 生命科学の基礎知識

プログラミング経験はあるが生物学の背景が不足している読者のために、バイオインフォマティクスの理解に必要な生命科学の基礎概念を解説します。

細胞の構造と機能

真核細胞と原核細胞

  • 真核細胞: 核膜に囲まれた細胞核を持つ(動物、植物、菌類)
  • 原核細胞: 核膜を持たない(細菌、古細菌)

細胞の主要構成要素:

  • 細胞核: 遺伝情報(DNA)を格納
  • リボソーム: タンパク質合成の場
  • ミトコンドリア: エネルギー産生(ATP合成)
  • 小胞体: タンパク質の輸送・修飾

DNA・RNA・タンパク質の基本構造

DNA(デオキシリボ核酸) 🧪 概念例(実行不可: DNA構造と役割の要点整理)

構造: 二重らせん構造
塩基: A(アデニン)、T(チミン)、G(グアニン)、C(シトシン)
塩基対: A-T、G-C(水素結合)
機能: 遺伝情報の保存・伝達

RNA(リボ核酸) 🧪 概念例(実行不可: RNA構造と種類の要点整理)

構造: 通常一本鎖
塩基: A、U(ウラシル)、G、C
種類:
- mRNA(伝令RNA): 遺伝情報をリボソームに伝達
- tRNA(転移RNA): アミノ酸をリボソームに運搬
- rRNA(リボソームRNA): リボソームの構成成分

タンパク質 🧪 概念例(実行不可: タンパク質構造階層の要点整理)

構成: 20種類のアミノ酸が結合
構造階層:
- 一次構造: アミノ酸配列
- 二次構造: αヘリックス、βシート
- 三次構造: 立体的な折りたたみ
- 四次構造: 複数のポリペプチド鎖の組み合わせ

遺伝子発現の仕組み(セントラルドグマ)

DNA 遺伝情報の保存 二重らせん構造 RNA 情報の伝達 一本鎖構造 タンパク質 機能の実現 立体構造重要 転写 Transcription 翻訳 Translation 逆転写 Reverse Transcription 転写の詳細 • プロモーター: 転写開始部位 • RNAポリメラーゼ: 転写酵素 • mRNA加工: スプライシング • 5'キャップ、3'ポリA鎖付加 翻訳の詳細 • リボソーム: 翻訳装置 • tRNA: アミノ酸運搬 • コドン: 3塩基=1アミノ酸 • 開始コドン(AUG)、終止コドン 遺伝子発現の仕組み(セントラルドグマ)
図 1-0: 遺伝子発現の仕組み(セントラルドグマ)。転写・翻訳・逆転写と関連要素の要点を整理。

遺伝暗号(コドン表)

  • 開始コドン: AUG(メチオニン)
  • 終止コドン: UAA、UAG、UGA
  • 遺伝暗号の特徴: 3つ組、退化性(同義コドン)、普遍性

1.0.2 ヒト参照ゲノムを3層で理解する

ヒトゲノム解析では、「参照ゲノム」は単一の固定ファイル名ではなく、解析目的、データ種類、互換性、アノテーション、集団多様性の扱いを決める基盤です。2026年版の本書では、以降の章で出てくる参照選択を次の3層で整理します。

代表例 位置づけ IT 技術者が確認すべき点
既存の座標安定性を重視する参照 GRCh38 / GRCh38.p14 多くのツール、DB、注釈、臨床・研究データで広く使われる線形参照。GRC は GRCh38 を現行の human reference assembly とし、GRCh38.p14 を第14パッチリリースとして公開している(確認日: 2026-04-28)。 参照FASTA、contig名、patch/alt loci、GTF/GFF、VCF、BAM/CRAM、annotation version の整合
より完全な単一アセンブリ T2T-CHM13v2.0 テロメアからテロメアまでの完全性を重視した CHM13 由来アセンブリ。NCBI では GCA_009914755.4 / GCF_009914755.1 として確認できる(確認日: 2026-04-28)。 GRCh38 座標との互換性、既存DB・臨床注釈との対応、解析ツールが想定する座標系
多様性を表現する参照集合・グラフ HPRC Data Release 2 などの pangenome / パンゲノム 複数個人の高品質アセンブリやグラフ表現で、単一線形参照では表しにくい多様性を扱う。HPRC Release 2 は 2025-05-12 発表の pre-publication release で、232 individuals 由来のアセンブリを含むと説明されている(確認日: 2026-04-28)。 graph-based alignment、reference bias、利用条件、参加者保護、集団記述、既存パイプラインとの互換性

GRCh38 は既存の座標・注釈資産と互換性が高い一方で、単一線形参照であるため、個人や集団の多様性をすべて表せるわけではありません。T2T-CHM13 は反復配列やギャップ領域の理解に有用ですが、既存の GRCh38 ベースのDBや臨床注釈とそのまま同一座標で接続できるとは限りません。pangenome / パンゲノムは reference bias の低減や構造多様性の表現に有望ですが、ツール、データ形式、評価方法、利用条件はまだ発展中です。

本書の実行例では、互換性と再現性を優先して GRCh38 または題材ごとの指定参照を使う場合があります。ただし、これは「ヒト参照ゲノム = GRCh38のみ」という意味ではありません。第3章ではグラフやインデックス、第4章では variant calling と参照選択、第9章では ancestry や population structure、第14章ではケーススタディとして再度扱います。

参考資料(確認日: 2026-04-28)

1.0.3 実験とデータ形式を対応づける

IT 技術者が最初に確認すべきことは、「どの実験から、どの形式のデータが生成され、どの解析単位へ変換されるか」です。次の表は代表例であり、実際の形式、メタデータ、品質指標は測定プラットフォーム、研究計画、施設の標準手順によって変わります。

実験・測定 主な入力・中間形式 解析でよく使う成果物 IT 側の確認観点
WGS / WES / targeted panel FASTQ、参照FASTA、BAM/CRAM、BED VCF、coverage summary、QC report 参照ゲノム、ターゲット領域、read length、coverage、重複率、contig名
RNA-seq FASTQ、BAM/CRAM、transcript annotation gene / transcript count matrix、差次的発現結果 strandedness、annotation version、batch、正規化単位
single-cell / 単一細胞解析 FASTQ、cell barcode、UMI、feature-barcode matrix count matrix、AnnData / h5ad、cluster annotation barcode品質、doublet、低品質細胞、サンプル混入、クラスタ過解釈
spatial omics / 空間オミクス 画像、座標、FASTQ または count matrix 発現行列、spatial metadata、可視化画像 位置情報、組織切片品質、画像座標と発現行列の対応
proteomics / metabolomics 質量分析データ、ピークリスト、同定テーブル タンパク質・代謝物の定量表、QC report 欠測、バッチ、同定信頼度、データベース版、単位

この対応を押さえると、後続章で扱う workflow / ワークフローを「コマンド列」ではなく、入力、参照、注釈、品質管理、出力、来歴の連鎖として理解できます。実験由来のバイアスは、ファイル形式を変換しても消えません。したがって、解析ログと同じ粒度でサンプル属性、実験条件、参照データ、注釈バージョンを記録することが、再現性と解釈可能性の前提になります。

基本的な実験手法

PCR(ポリメラーゼ連鎖反応) 🧪 概念例(実行不可: PCRの原理・用途の要点整理)

目的: 特定のDNA配列を増幅
原理:
1. 変性(94℃): DNA二重鎖を一本鎖に分離
2. アニーリング(50-60℃): プライマーが結合
3. 伸長(72℃): DNAポリメラーゼが伸長

応用: 遺伝子クローニング、SNP検出、定量PCR

電気泳動 🧪 概念例(実行不可: 電気泳動の原理・用途の要点整理)

目的: DNA/RNA/タンパク質の分離・精製
原理: 電場中での荷電分子の移動
- アガロースゲル: DNA/RNAの分離
- ポリアクリルアミドゲル: 高解像度分離
- SDS-PAGE: タンパク質の分離

クローニング 🧪 概念例(実行不可: クローニング手順の概念整理)

目的: 特定のDNA配列を大量に複製
手順:
1. 目的遺伝子の単離
2. ベクター(プラスミド)への挿入
3. 宿主細胞(大腸菌等)への導入
4. 形質転換体の選択・培養

DNA配列決定法 🧪 概念例(実行不可: DNA配列決定法の比較整理)

Sanger法(第1世代):
- ddNTP(ジデオキシヌクレオチド)を使用
- 連鎖停止法による配列読み取り
- 高精度だが低スループット

次世代シークエンサー(NGS):
- 大量並列処理による高スループット
- Illumina、PacBio、Oxford Nanopore等
- コスト低下により、個人ゲノム解析が可能に

遺伝子組換え技術 🧪 概念例(実行不可: 遺伝子組換え要素の概念整理)

制限酵素: 特定配列でDNAを切断
リガーゼ: DNA断片を結合
形質転換: 外来DNAを細胞に導入

応用:
- 組換えタンパク質の生産
- 遺伝子治療
- 遺伝子改変生物(GMO)

バイオインフォマティクスとの関連

これらの生物学的基礎知識は、以下のような形でバイオインフォマティクス解析に直結します。

配列解析

  • DNA/RNA配列の類似性検索(BLAST)
  • コドン使用頻度解析
  • オープンリーディングフレーム(ORF)の予測

構造解析

  • タンパク質の二次・三次構造予測
  • ドメイン・モチーフの同定
  • 機能部位の予測

発現解析

  • RNA-seqによる遺伝子発現量測定
  • 差次的発現遺伝子の検出
  • パスウェイ解析

進化・系統解析

  • 分子進化速度の推定
  • 系統樹の構築
  • 正の選択・負の選択の検出

1.1 歴史的背景と発展経緯

IT 技術者が第1章で押さえるべき歴史は、年表の暗記ではなく、データ生成量、標準化、共有、計算資源の要求がどのように増えたかです。詳細な科学史は本書の主目的ではないため、以降の章を読むための転換点に絞ります。

時期 転換点 以降の解析章での意味
分子生物学の基盤形成 DNA、RNA、タンパク質、遺伝暗号、配列決定法の理解が進み、配列を文字列データとして扱えるようになった。 第3章の配列比較、第4章のリード処理、第5章の発現解析で、配列・遺伝子・転写産物をデータ構造として扱う前提になる。
ヒトゲノムプロジェクト 大規模な国際協調、標準化、公開DB、参照配列、アノテーションの運用が重要になった。 第10章のDB/API、付録Jの accession、provenance / 来歴、参照バージョン管理に接続する。
NGS とオミクスの普及 データ生成コストが下がり、FASTQ、BAM/CRAM、VCF、count matrix などを大量に扱う必要が生じた。 第2章の計算基盤、第4章第8章の workflow / ワークフロー、QC、ストレージ、再現性管理に接続する。
pangenome / AI / 臨床・ELSI の拡大 単一参照ゲノムだけでは扱いにくい多様性、AIモデルの利用条件、臨床・個人情報の責任境界が重要になった。 第7章第9章第11章第12章第14章で、予測モデル、reference bias、法務・倫理・専門家レビューを扱う。

この流れから分かるように、バイオインフォマティクスの実務課題は「計算を速くする」だけではありません。入力データの由来、参照・注釈の版、処理履歴、利用条件、結果の解釈範囲を管理することが、IT 側の主要な責務になります。

1.2 ヒトゲノムプロジェクトの背景

ゲノムは、生物が持つDNA配列の総体です。ヒトのハプロイドゲノム長は約30億塩基(nucleotides。一般に「約30億塩基対」と表現)です(最終確認日: 2026-02-18)。1

IT 技術者にとって重要なのは、ヒトゲノムプロジェクトそのものの年表ではなく、次の実務上の前提です。

  • 参照配列は解析の座標系であり、参照FASTA、GTF/GFF、VCF、BAM/CRAM、DB注釈の版をそろえる必要がある。
  • 公開DBや accession は再現性の入口であり、取得日、version、checksum、利用条件を記録する必要がある。
  • WGS / WES / targeted panel などの測定方法により、観測できる領域、バイアス、ファイルサイズ、計算資源が変わる。
  • 研究用途の解析結果を、診断・治療・投薬判断へそのまま転用してはいけない。臨床利用には施設の品質管理、規制、専門家レビューが必要である。

基本データ特性

  • データタイプ: A, T, G, C の4文字アルファベット配列
  • データサイズ: テキスト換算では約3GBが目安。ただし FASTQ、BAM/CRAM、VCF、注釈ファイル、インデックス、ログを含めると解析単位の保存量は大きくなる。
  • 個体差: 個体間差は全ゲノムに対して相対的には小さいが、variant / 変異、構造多様性、注釈の違いは解析結果に大きく影響し得る。

1.3 計算生物学とバイオインフォマティクスの関係

計算生物学は、生物学的な問いを数理モデル、統計、シミュレーション、アルゴリズムで扱う分野です。バイオインフォマティクスは、配列、発現、構造、表現型、DBなどの生命科学データを取得・整理・解析・共有する実務も含みます。両者は重なりますが、本書では IT 技術者が実務で確認すべき次の観点を重視します。

観点 IT 技術者が確認すること 主な参照章
問いの定式化 何を入力し、どの出力を妥当とみなすか。研究仮説、対象サンプル、比較条件が明確か。 第4章第9章第13章
データ構造 配列、アラインメント、variant / 変異、count matrix、注釈、メタデータの単位と形式。 第3章第5章第8章第10章
統計・AI バッチ、交絡、分割方法、leakage、外部検証、再現性。 第7章第13章
運用 workflow / ワークフロー、ログ、バージョン、ライセンス、provenance / 来歴。 第2章第10章第13章
責任境界 研究・教育用途と臨床判断の違い、個人情報、専門家レビュー。 第11章第12章

この節では用語とデータの見取り図に留め、アルゴリズムの詳細は第3章、AI・統計の注意点は第7章第13章で扱います。

1.4 バイオインフォマティクスの技術領域

バイオインフォマティクスの技術領域は、解析手法の名前よりも、入力、処理、出力、確認事項で整理すると実務に接続しやすくなります。

技術領域 代表的な入力 代表的な処理 主な出力 注意点
配列解析 FASTA、FASTQ、BAM/CRAM QC、アラインメント、相同性検索、アセンブリ QCレポート、SAM/BAM、アラインメント、FASTA 参照配列、品質スコア、重複、マッピング率
variant / 変異解析 BAM/CRAM、VCF、参照FASTA variant calling、フィルタリング、注釈 VCF、annotation table、要約レポート 参照座標、フィルタ条件、臨床利用可否
発現・オミクス解析 count matrix、メタデータ、注釈 正規化、差次的発現、クラスタリング、パスウェイ解析 統計表、図、遺伝子集合、解釈メモ 実験設計、バッチ、サンプル品質、FDR
DB/API連携 accession、API応答、DB dump 取得、ID mapping、cache、retry、保存 ローカルDB、取得ログ、監査可能な処理記録 version、rate limit、利用条件、checksum
AI・統計モデル 特徴量表、ラベル、学習データ 学習、評価、説明、外部検証 モデル、評価指標、model card leakage、偏り、再現性、利用条件

以降の章では、各領域を単独のコマンド列ではなく、入力データの由来、処理履歴、出力の限界、専門家へ渡す説明資料まで含めて扱います。

1.5 オミクス階層と統合解析の考え方

オミクス解析では、同じ個体・組織・細胞を複数の測定層から見ることがあります。IT 技術者にとって重要なのは、各層の名称を覚えることよりも、何を測ったデータか、単位は何か、どのバイアスを持つか、どの章で詳しく扱うかを対応づけることです。

🧪 概念例(実行不可: オミクス階層の概念図)

DNA → RNA → タンパク質 → 代謝物 → 表現型
 |      |        |          |        |
ゲノム トランスク プロテ    メタボ   フェノ
       リプトーム オーム    ローム   ーム
主な測定対象 代表的なデータ 主な参照章 IT 側の確認事項
ゲノミクス DNA配列、variant / 変異、構造多様性 FASTQ、BAM/CRAM、VCF、参照FASTA 第4章第9章 参照配列、座標系、観測できる領域、variant calling の条件
トランスクリプトミクス 遺伝子・転写産物の発現 count matrix、GTF/GFF、発現量表 第5章第8章 実験設計、batch、annotation version、正規化、細胞種・組織差
プロテオミクス / メタボロミクス タンパク質、翻訳後修飾、代謝物 peak table、spectra、同定結果、定量表 第6章 測定感度、同定条件、欠測、サンプル処理、ID mapping
表現型・臨床メタデータ 疾患、症状、検査値、薬剤応答、環境要因 phenotype table、clinical metadata、画像特徴量 第11章第12章第13章 定義、同意、匿名化/仮名化、交絡、責任境界

複数の層を組み合わせる統合解析は、仮説生成、候補遺伝子や経路の優先順位づけ、データ間の整合性確認に役立ちます。一方で、統合しただけで因果関係、バイオマーカーの妥当性、臨床的有用性が確立するわけではありません。研究・教育用途の解析結果を医療判断へ接続するには、別途、実験的検証、統計的検証、専門家レビュー、施設の品質管理、規制対応が必要です。

第1章ではここまでを概念整理に留めます。実際のデータ形式、workflow / ワークフロー、QC、統計、AI、臨床・倫理上の注意点は、各参照章で扱います。

最小入出力(期待成果物/期待ログ)

  • 入力: 本章の用語と表(セントラルドグマ、オミクス階層、測定対象とデータ形式)
  • 出力(期待成果物): 用語の要点メモ(例: 遺伝子/転写/翻訳/変異)と、オミクス別の確認事項表(測定対象・データ形式・バイアス・参照章)
  • 期待ログ(例): なし(概念整理が中心)

前へ: 第0章 バイオインフォマティクス入門 目次 次へ: 第2章 計算インフラストラクチャ
  1. NHGRI, Genome (Genetics Glossary)(参照日: 2026-02-18)