付録J: 実在アクセッション一覧(最終確認日付き)
目的
本文では、再現に使う題材を 2 系列に絞ります。
本付録は、章横断で参照するアクセッション / プロジェクト ID、想定章、注意点をまとめた入口です。
本書で使う共通題材
- 題材A: SARS-CoV-2 公開データ
- 最小の QC / マッピング / 変異検出と、監視系設計の例に使う
- 題材B: TCGA-LUAD 研究用ミニケース
- 発現行列・変異情報・臨床メタデータを統合し、研究支援から臨床連携へ渡す境界を確認する
最終確認日
- 2026-05-12(JST)
- 確認日以降に削除・移動・アクセス制限の変更が起きる可能性があります。
実在アクセッション / プロジェクト ID 一覧
| 題材 |
データベース |
アクセッション / プロジェクト ID |
想定章 |
主な入力 / 成果物 |
最終確認日 |
注意点 |
| SARS-CoV-2 変異追跡 |
NCBI SRA |
SRR11140744 |
第4章 / 第10章 / 第14章 |
FASTQ → BAM / VCF / QC レポート |
2026-05-12 |
小規模公開データとして最小パイプラインの確認に使う |
| SARS-CoV-2 参照配列 |
NCBI Nucleotide / GenBank |
MN908947.3 |
第4章 / 第14章 |
参照 FASTA |
2026-05-12 |
参照配列 ID、version、配列 checksum をログへ必ず残す |
| 研究用がんコホート |
GDC / TCGA |
TCGA-LUAD |
第7章 / 第10章 / 第12章 / 第14章 |
発現行列、変異情報、臨床メタデータ |
2026-05-12 |
研究用途の公開データ。診断・治療判断には直接用いない |
2026-05-12 の確認結果
| ID |
公式確認先 |
確認内容 |
取得時に記録する checksum / manifest |
SRR11140744 |
NCBI SRA、NCBI E-utilities(db=sra) |
Run accession として取得可能。E-utilities の確認では SRX7777166 / SRP250294 に紐づく SARS-CoV-2 の WGS read run(503,344 spots、226,957,916 bases)として確認した。 |
FASTQ への展開方法、SRA Toolkit 設定、取得日、出力 FASTQ の checksum を manifest に残す。SRA は Normalized / Lite など取得形式で出力が変わり得るため、accession だけを checksum の代替にしない。 |
MN908947.3 |
NCBI Nucleotide、NCBI E-utilities(db=nuccore) |
Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome、長さ 29,903 nt として確認した。 |
EFetch FASTA を正規化し、ヘッダと改行を除いた配列本体から算出した MD5 は 105c82802b67521950854a851fc6eefd(2026-05-12取得)。これは NCBI が提示する固定 checksum ではない。ファイル checksum は取得方法と改行で変わるため、実行 manifest にも残す。 |
TCGA-LUAD |
GDC Portal、GDC API projects endpoint |
GDC API で project_id=TCGA-LUAD、name=Lung Adenocarcinoma、state=open、released=true、585 cases、36,224 files として確認した。 |
解析対象ファイルを選んだ時点の GDC manifest を保存する。GDC の download manifest は UUID、MD5 checksum、file size、file name を含み、GDC は各ファイルに md5sum を持つ。 |
章ごとの使い分け
| 章 |
題材 |
見るべきポイント |
出力の例 |
| 第4章 |
SRR11140744 + MN908947.3 |
QC、マッピング、変異検出、ログの残し方 |
BAM、VCF、QC レポート |
| 第7章 |
TCGA-LUAD |
特徴量設計、データ分割、評価指標、リーク回避 |
比較表、評価指標、用途制約メモ |
| 第10章 |
SRR11140744 / TCGA-LUAD |
スキーマ、索引、由来情報、権限制御 |
テーブル設計、クエリ計測結果 |
| 第12章 |
TCGA-LUAD |
研究用途と臨床用途の境界、レポート候補、監査可能性 |
所見サマリ、責任境界メモ |
| 第14章 |
両題材 |
ケース比較、目的と制約の切り分け |
ケース比較表、導入判断メモ |
運用ルール
- 参照不可になった場合は、同じ用途を満たす公開データへ差し替え、確認日と差し替え理由を更新します。
- 実データを扱う際は、サンプル ID、参照配列 ID、ツール版、実行日を一緒に記録します。
- ファイル単位の checksum、file size、download URL は、取得時に作成する manifest / provenance 記録へ残します。固定の表に転記する場合も、取得コマンド、取得日、圧縮・改行・展開条件を併記します。
- GDC のように公式 manifest が MD5 checksum を返すデータは、その manifest を保存します。NCBI EFetch FASTA や SRA Toolkit で生成する FASTQ は、取得方法に依存するため、実行時に生成したファイルの checksum を保存します。
- 付録Jには、章横断で参照する ID、用途、確認日、公式確認先、checksum 記録方針を集約します。
TCGA-LUAD は研究用途の retrospective review として扱い、診療判断の根拠としては用いません。