付録J: 実在アクセッション一覧(最終確認日付き)

目的

本文では、再現に使う題材を 2 系列に絞ります。 本付録は、章横断で参照するアクセッション / プロジェクト ID、想定章、注意点をまとめた入口です。

本書で使う共通題材

  • 題材A: SARS-CoV-2 公開データ
    • 最小の QC / マッピング / 変異検出と、監視系設計の例に使う
  • 題材B: TCGA-LUAD 研究用ミニケース
    • 発現行列・変異情報・臨床メタデータを統合し、研究支援から臨床連携へ渡す境界を確認する

最終確認日

  • 2026-05-12(JST)
  • 確認日以降に削除・移動・アクセス制限の変更が起きる可能性があります。

実在アクセッション / プロジェクト ID 一覧

題材 データベース アクセッション / プロジェクト ID 想定章 主な入力 / 成果物 最終確認日 注意点
SARS-CoV-2 変異追跡 NCBI SRA SRR11140744 第4章 / 第10章 / 第14章 FASTQ → BAM / VCF / QC レポート 2026-05-12 小規模公開データとして最小パイプラインの確認に使う
SARS-CoV-2 参照配列 NCBI Nucleotide / GenBank MN908947.3 第4章 / 第14章 参照 FASTA 2026-05-12 参照配列 ID、version、配列 checksum をログへ必ず残す
研究用がんコホート GDC / TCGA TCGA-LUAD 第7章 / 第10章 / 第12章 / 第14章 発現行列、変異情報、臨床メタデータ 2026-05-12 研究用途の公開データ。診断・治療判断には直接用いない

2026-05-12 の確認結果

ID 公式確認先 確認内容 取得時に記録する checksum / manifest
SRR11140744 NCBI SRA、NCBI E-utilities(db=sra Run accession として取得可能。E-utilities の確認では SRX7777166 / SRP250294 に紐づく SARS-CoV-2 の WGS read run(503,344 spots、226,957,916 bases)として確認した。 FASTQ への展開方法、SRA Toolkit 設定、取得日、出力 FASTQ の checksum を manifest に残す。SRA は Normalized / Lite など取得形式で出力が変わり得るため、accession だけを checksum の代替にしない。
MN908947.3 NCBI Nucleotide、NCBI E-utilities(db=nuccore Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome、長さ 29,903 nt として確認した。 EFetch FASTA を正規化し、ヘッダと改行を除いた配列本体から算出した MD5 は 105c82802b67521950854a851fc6eefd(2026-05-12取得)。これは NCBI が提示する固定 checksum ではない。ファイル checksum は取得方法と改行で変わるため、実行 manifest にも残す。
TCGA-LUAD GDC PortalGDC API projects endpoint GDC API で project_id=TCGA-LUADname=Lung Adenocarcinomastate=openreleased=true、585 cases、36,224 files として確認した。 解析対象ファイルを選んだ時点の GDC manifest を保存する。GDC の download manifest は UUID、MD5 checksum、file size、file name を含み、GDC は各ファイルに md5sum を持つ。

章ごとの使い分け

題材 見るべきポイント 出力の例
第4章 SRR11140744 + MN908947.3 QC、マッピング、変異検出、ログの残し方 BAM、VCF、QC レポート
第7章 TCGA-LUAD 特徴量設計、データ分割、評価指標、リーク回避 比較表、評価指標、用途制約メモ
第10章 SRR11140744 / TCGA-LUAD スキーマ、索引、由来情報、権限制御 テーブル設計、クエリ計測結果
第12章 TCGA-LUAD 研究用途と臨床用途の境界、レポート候補、監査可能性 所見サマリ、責任境界メモ
第14章 両題材 ケース比較、目的と制約の切り分け ケース比較表、導入判断メモ

運用ルール

  • 参照不可になった場合は、同じ用途を満たす公開データへ差し替え、確認日と差し替え理由を更新します。
  • 実データを扱う際は、サンプル ID、参照配列 ID、ツール版、実行日を一緒に記録します。
  • ファイル単位の checksum、file size、download URL は、取得時に作成する manifest / provenance 記録へ残します。固定の表に転記する場合も、取得コマンド、取得日、圧縮・改行・展開条件を併記します。
  • GDC のように公式 manifest が MD5 checksum を返すデータは、その manifest を保存します。NCBI EFetch FASTA や SRA Toolkit で生成する FASTQ は、取得方法に依存するため、実行時に生成したファイルの checksum を保存します。
  • 付録Jには、章横断で参照する ID、用途、確認日、公式確認先、checksum 記録方針を集約します。
  • TCGA-LUAD は研究用途の retrospective review として扱い、診療判断の根拠としては用いません。

← 付録I へ 目次に戻る 次へ: 付録K →