第I部: 基礎編

1. 基礎概念

1.0 本書の範囲と目的

本書では、ヒトゲノム解析を中心としたバイオインフォマティクスと、その基盤となる計算生物学を扱う。具体的には以下の領域をカバーする。

中核となる技術領域

ゲノム配列解析とその計算手法
大規模ゲノムデータの処理・管理技術
機械学習による疾患リスク予測と精密医療への応用
ゲノムプライバシー保護技術

対象読者と前提知識

計算機科学の基礎知識を持つ技術者・研究者
プログラミング経験（Python/R）がある方
生物学の専門知識は必須ではないが、基礎的な理解があることが望ましい

本書で扱わない内容

分子生物学実験手法の詳細
臨床医学の専門的内容
構造生物学の実験的手法

本書は、理論的基盤から実装技術まで体系的に解説することで、読者が実際のゲノムデータ解析プロジェクトに参画できる実践的スキルの習得を目指している。

1.0.1 生命科学の基礎知識

プログラミング経験はあるが生物学の背景が不足している読者のために、バイオインフォマティクスの理解に必要な生命科学の基礎概念を解説します。

細胞の構造と機能

真核細胞と原核細胞

真核細胞: 核膜に囲まれた細胞核を持つ（動物、植物、菌類）
原核細胞: 核膜を持たない（細菌、古細菌）

細胞の主要構成要素:

細胞核: 遺伝情報（DNA）を格納
リボソーム: タンパク質合成の場
ミトコンドリア: エネルギー産生（ATP合成）
小胞体: タンパク質の輸送・修飾

DNA・RNA・タンパク質の基本構造

DNA（デオキシリボ核酸）

構造: 二重らせん構造
塩基: A（アデニン）、T（チミン）、G（グアニン）、C（シトシン）
塩基対: A-T、G-C（水素結合）
機能: 遺伝情報の保存・伝達

RNA（リボ核酸）

構造: 通常一本鎖
塩基: A、U（ウラシル）、G、C
種類:
- mRNA（伝令RNA）: 遺伝情報をリボソームに伝達
- tRNA（転移RNA）: アミノ酸をリボソームに運搬
- rRNA（リボソームRNA）: リボソームの構成成分

タンパク質

構成: 20種類のアミノ酸が結合
構造階層:
- 一次構造: アミノ酸配列
- 二次構造: αヘリックス、βシート
- 三次構造: 立体的な折りたたみ
- 四次構造: 複数のポリペプチド鎖の組み合わせ

遺伝子発現の仕組み（セントラルドグマ）

図 1-0: 遺伝子発現の仕組み（セントラルドグマ）。転写・翻訳・逆転写と関連要素の要点を整理。

遺伝暗号（コドン表）

開始コドン: AUG（メチオニン）
終止コドン: UAA、UAG、UGA
遺伝暗号の特徴: 3つ組、退化性（同義コドン）、普遍性

基本的な実験手法

PCR（ポリメラーゼ連鎖反応）

目的: 特定のDNA配列を増幅
原理:
1. 変性（94℃）: DNA二重鎖を一本鎖に分離
2. アニーリング（50-60℃）: プライマーが結合
3. 伸長（72℃）: DNAポリメラーゼが伸長

応用: 遺伝子クローニング、SNP検出、定量PCR

電気泳動

目的: DNA/RNA/タンパク質の分離・精製
原理: 電場中での荷電分子の移動
- アガロースゲル: DNA/RNAの分離
- ポリアクリルアミドゲル: 高解像度分離
- SDS-PAGE: タンパク質の分離

クローニング

目的: 特定のDNA配列を大量に複製
手順:
1. 目的遺伝子の単離
2. ベクター（プラスミド）への挿入
3. 宿主細胞（大腸菌等）への導入
4. 形質転換体の選択・培養

DNA配列決定法

Sanger法（第1世代）:
- ddNTP（ジデオキシヌクレオチド）を使用
- 連鎖停止法による配列読み取り
- 高精度だが低スループット

次世代シークエンサー（NGS）:
- 大量並列処理による高スループット
- Illumina、PacBio、Oxford Nanopore等
- コスト低下により、個人ゲノム解析が可能に

遺伝子組換え技術

制限酵素: 特定配列でDNAを切断
リガーゼ: DNA断片を結合
形質転換: 外来DNAを細胞に導入

応用:
- 組換えタンパク質の生産
- 遺伝子治療
- 遺伝子改変生物（GMO）

バイオインフォマティクスとの関連

これらの生物学的基礎知識は、以下のような形でバイオインフォマティクス解析に直結します。

配列解析

DNA/RNA配列の類似性検索（BLAST）
コドン使用頻度解析
オープンリーディングフレーム（ORF）の予測

構造解析

タンパク質の二次・三次構造予測
ドメイン・モチーフの同定
機能部位の予測

発現解析

RNA-seqによる遺伝子発現量測定
差次的発現遺伝子の検出
パスウェイ解析

進化・系統解析

分子進化速度の推定
系統樹の構築
正の選択・負の選択の検出

1.1 歴史的背景と発展経緯

図 1-1: バイオインフォマティクスの歴史的発展。分子生物学基盤 → ヒトゲノムプロジェクト → ポストゲノム・個人ゲノム時代の3期を軸に、主要イベントと技術のインパクトを俯瞰する。

図 1-2: シーケンスコストと計算技術の関係。コスト低下に伴いデータ規模が指数関数的に増大し、計算・ストレージ・アルゴリズム最適化の重要性が高まる。

1950〜1980年代: 分子生物学の基盤形成

1953年: DNA二重らせん構造の発見（Watson & Crick）
1977年: DNA配列決定法の開発（Sanger法、Maxam-Gilbert法）
1980年代: PCR技術の発明、自動DNA配列決定装置の開発

1990〜2003年: ヒトゲノムプロジェクト時代

1990年: 国際ヒトゲノムプロジェクト開始（15年計画、30億ドル）
1998年: Celera Genomics社による競合プロジェクト開始
2001年: ヒトゲノムドラフト配列の公開
2003年: ヒトゲノム解読完了宣言

2003年以降: ポストゲノム・個人ゲノム時代

2005年: 次世代シークエンサー（NGS）の実用化
2007年: 初の個人ゲノム解読（James Watson）
2014年: $1,000ゲノム時代の到来
2020年代: ロングリードシークエンシングによる完全ヒトゲノム

技術発展とムーアの法則の比較 ゲノム解読コストは年率で低下傾向にあり、ムーアの法則で想定される計算能力向上と比較されることが多い。具体的には次のとおりである。

2001年: $1億/ゲノム
2014年: $1,000/ゲノム
2023年: $200/ゲノム

この急速な技術進歩により、研究用途から臨床診断、さらには個人向けサービスまで応用範囲が拡大した。

1.2 ヒトゲノムプロジェクトの背景

ゲノム: 生物が持つDNA配列の総体。ヒトの場合、約32億塩基対から構成される。

基本データ特性:

データサイズ: テキストベースで約3GB（1個体分）
データタイプ: A, T, G, Cの4文字アルファベット配列
変異頻度: 個体間で約0.1%程度（目安）

なぜ重要か: ゲノム情報は個人の疾患リスク、薬剤応答性、体質特性を決定する根本的情報である。この理解により、従来の「平均的患者」を対象とした医療から、「個人最適化医療」への転換が可能となる。経済効果として、副作用回避による医療費削減や新薬開発期間短縮が期待される（規模や期間は条件に依存）。

1.3 計算生物学の定義

生物学的問題を数理・情報科学的手法で解決する学際分野。

理論的基盤:

情報理論: DNA配列をシンボル列として扱い、エントロピー・相互情報量により配列の複雑性を定量化
統計学: ベイズ統計、隠れマルコフモデル、統計的機械学習による不確実性のモデル化
グラフ理論: 生物学的ネットワークの数学的表現と解析
最適化理論: 多目的最適化、制約充足問題による生物学システムの設計

数学的前提と実装例:

配列類似性の数理モデル:
- 編集距離: d(s,t) = min{挿入、削除、置換操作数}
- カルバック・ライブラー発散: D_KL(P||Q) = Σ P(x)log(P(x)/Q(x))
- 隠れマルコフモデル: P(O|λ) = Σ P(O,S|λ) （観測配列Oと状態系列S）

# 編集距離（レーベンシュタイン距離）の実装
# 実行環境の構築については付録A参照
def edit_distance(s, t):
    """
    動的計画法による編集距離の計算
    
    Args:
        s: 配列1
        t: 配列2
    
    Returns:
        int: 編集距離
    """
    m, n = len(s), len(t)
    dp = [[0] * (n + 1) for _ in range(m + 1)]
    
    # 初期化
    for i in range(m + 1):
        dp[i][0] = i
    for j in range(n + 1):
        dp[0][j] = j
    
    # 動的計画法
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if s[i-1] == t[j-1]:
                dp[i][j] = dp[i-1][j-1]
            else:
                dp[i][j] = 1 + min(dp[i-1][j],     # 削除
                                    dp[i][j-1],     # 挿入
                                    dp[i-1][j-1])   # 置換
    
    return dp[m][n]

主要アプローチ:

配列解析: DNA/タンパク質配列の比較・検索
構造解析: 3次元分子構造の予測・解析
ネットワーク解析: 遺伝子・タンパク質相互作用の解析
進化解析: 配列進化の数理モデル化

関連分野との接点:

物理学: 統計力学による分子動力学シミュレーション
化学: 量子化学計算による分子相互作用の予測
数学: 組合せ論、確率論、代数的位相幾何学
コンピュータサイエンス: アルゴリズム理論、機械学習、データベース技術

実用的価値: 実験による網羅的解析は時間的・経済的に不可能（例：全タンパク質の立体構造決定に数百年を要する）。計算手法により仮説生成・実験対象の絞り込みが可能となり、研究開発の効率が10〜100倍向上する。製薬業界では、計算創薬により新薬候補化合物の評価期間を数年から数ヶ月に短縮できる。

1.4 バイオインフォマティクスの技術領域

計算複雑性理論の観点:

P問題: 配列アライメント（動的プログラミング、O(nm)）
NP困難問題: 多重配列アライメント、タンパク質折り畳み予測
PSPACE完全問題: RNA二次構造の最適化問題
近似アルゴリズム: 生物学的制約下での実用解の探索

データ処理の理論的基盤:

情報理論: ゲノム配列の圧縮可能性とランダム性
信号処理: 配列中の周期性・隠れパターンの検出
統計学習理論: 汎化誤差の上界とサンプル複雑性
計算学習理論: PAC学習可能性とVC次元

データ処理:

大規模配列データの効率的格納・検索
ノイズ除去・品質管理
データ統合・標準化

解析手法:

パターンマッチング
統計学的推論
機械学習
グラフ理論

実装上の制約と最適化:

メモリ階層: キャッシュ効率を考慮したデータ構造設計
並列化: データ並列・タスク並列・パイプライン並列の適用
数値精度: 浮動小数点演算の精度とオーバーフロー対策
I/O最適化: ディスクアクセスパターンの最適化

品質管理とベンチマーキング: 生物学データは本質的にノイズを含み、測定誤差・サンプリングバイアスが存在する。統計的品質管理により、偽陽性率（Type I error）と偽陰性率（Type II error）のバランスを調整し、実用的な精度を確保する。ROC曲線、精度-再現率曲線による性能評価が標準的である。

技術的課題と解決価値: 生物学データは増加傾向にある。効率的なデータ処理技術なしには、データ生成コストは下がってもデータ解析がボトルネックとなる。適切な技術選択により、解析時間をO(n²)からO(n log n)に改善し、解析時間を短縮できる場合がある。これにより研究スループットが向上し、発見から応用までの期間短縮につながる。

1.5 オミクス階層と統合解析の概念

セントラルドグマとオミクス階層:

DNA → RNA → タンパク質 → 代謝物 → 表現型
 |      |        |          |        |
ゲノム トランスク プロテ    メタボ   フェノ
       リプトーム オーム    ローム   ーム

各オミクス層の特徴:

ゲノミクス: 静的、個体で基本的に不変
トランスクリプトミクス: 動的、組織・時間特異的
プロテオミクス: 機能的、翻訳後修飾を含む
メタボロミクス: 表現型に最も近い、環境応答的

マルチオミクス統合の意義: 単一のオミクス層だけでは生命現象の全体像を捉えることは困難である。統合解析により、次のことが可能になる。

因果関係の推定
パスウェイレベルでの理解
バイオマーカーの発見
個別化医療の実現

図 1-3: セントラルドグマに基づくオミクス階層。ゲノム→トランスクリプトーム→プロテオーム→メタボローム→表現型の流れと、各層のデータ特性・統合解析の視点を整理。

前へ: 第0章入門

次へ: 第2章計算インフラストラクチャ