付録K: 用語集

使い方

この付録は、本書を読み進める際に頻出する用語の最小定義をまとめたものです。詳細な試験観点の語彙は付録G、データベースやツールの一覧は付録Hを参照してください。似た用語は、用途、対象データ、責任境界が異なるため、本文では文脈とセットで確認してください。

データと成果物

read / リード: シーケンサーから得られる短いまたは長い配列断片。FASTQでは塩基配列と品質スコアを持つ。
contig / コンティグ: read を組み立てて得られる連続配列。未解決のギャップを含まない連続領域として扱う。
scaffold / スキャフォールド: contig の順序や向きを推定してつないだ構造。ギャップや不確実な距離を含む場合がある。
assembly / アセンブリ: ゲノムや転写産物などを組み立てた配列集合。accession、version、作成方法を合わせて記録する。
FASTQ: 塩基配列と品質スコアを持つリードデータ形式。
BAM / CRAM: BAM は SAM をバイナリ化したアライメント形式、CRAM は参照配列を使って圧縮効率を高める形式。ランダムアクセスには、フォーマット本体とは別に作成する .bai / .csi / .crai などの索引ファイルを併用する。CRAM は参照配列への依存が強いため、参照FASTAと checksum を記録する。
VCF: variant / 変異情報を表す標準形式。位置、参照塩基、代替塩基、genotype、注釈などを持つ。
参照配列: アライメントや注釈の基準に使う配列。accession、version、build、checksum を必ず記録する。
アクセッション / プロジェクト ID: 公開データを一意に識別する ID。SRA ラン、NCBI Nucleotide、TCGA プロジェクトなどを指す。
checksum / チェックサム: ファイルや配列内容の同一性を確認するための値。取得時の manifest / provenance 記録とセットで使う。

配列・遺伝子・変異

variant / 変異: 参照配列や比較対象と異なる配列状態を指す広い語。研究・臨床・集団解析で意味が変わるため、対象、座標系、検出条件を明記する。
mutation / 変異: 文脈によっては新規に生じた変化や疾患関連の変化を指す。本文では原則として中立的な variant / 変異 を使い、病的意義は別途根拠を示す。
gene / 遺伝子: 機能産物や調節単位として定義されるゲノム領域。annotation release により範囲や ID が変わることがある。
transcript / 転写産物: 遺伝子から転写される RNA の単位。isoform と対応する場合があるが、DBや annotation 体系で扱いが異なる。
isoform / アイソフォーム: スプライシングや開始・終結位置の違いで生じる転写産物またはタンパク質のバリアント。
germline / 生殖細胞系列: 親から子へ受け継がれ得る系列の variant。疾患文脈、家系情報、同意、専門家レビューが重要になる。
somatic / 体細胞: 体細胞で後天的に生じる variant。がんゲノム解析では腫瘍・正常ペア、腫瘍含有率、検出限界を確認する。
pathogenic / 病的: 特定の分類体系と根拠に基づく評価語。分類体系、対象疾患、版、根拠コードなしに単独で使わない。

解析と機械学習

アライメント: read や配列を参照配列へ対応付ける処理。
アノテーション: variant、遺伝子、転写産物に機能情報や既知知見を付与すること。
特徴量: 機械学習モデルへ入力する数値やカテゴリ変数。由来、前処理、リーク有無を記録する。
データリーク: 学習時に評価用情報や将来情報が混入し、性能を過大評価する状態。
AUROC: 2値分類モデルの識別性能を表す代表指標。class imbalance が強い場合は precision-recall も併せて確認する。
foundation model / 基盤モデル: 大規模データで事前学習され、下流タスクに転用されるモデル。利用条件、入力制約、評価対象外の用途を確認する。
model card / dataset card: モデルやデータセットの用途、制限、評価、ライセンス、既知の偏りを説明する記録。

参照ゲノムと集団差

reference genome / 参照ゲノム: 解析座標や annotation の基準になる配列集合。GRCh38、T2T-CHM13、pangenome は互換性や用途が異なる。
pangenome / パンゲノム: 複数個体や集団の多様性を表現する参照体系。reference bias の低減に有用だが、ツール、評価、座標変換、DB連携の前提を確認する。
reference bias / 参照バイアス: 参照配列に近い配列が有利に扱われ、他の集団や構造多様性を見落とす可能性がある偏り。
population structure / 集団構造: 集団間の祖先背景やサンプリング差に由来する構造。GWASやPRSでは交絡や一般化可能性に影響する。

システムと運用

schema / スキーマ: データの構造定義。テーブル、列、関係、制約を含む。
provenance / 来歴: どの入力、取得元、ツール版、パラメータ、実行者から結果が作られたかを示す情報。
manifest / マニフェスト: 取得ファイル、URL、file size、checksum、取得日、利用条件を一覧化した記録。
監査ログ: 誰がいつ何を実行・変更したかを追跡する記録。秘密情報を保存せず、検証に必要なメタデータを残す。
reproducibility / 再現性: 同じ入力・条件・版で同じ結果を再取得できる性質。結論の妥当性や臨床有用性とは別に確認する。
責任境界: 自動化できる処理、専門家レビューへ渡す判断、法務・倫理・臨床運用で扱う判断を分ける線引き。

プライバシー・法務・倫理

anonymization / 匿名化: 個人を識別できないように加工する考え方。再識別リスクをゼロと断定せず、データ種別と攻撃モデルを確認する。
pseudonymization / 仮名化: 直接識別子を置き換え、対応表などを分離管理する処理。再結合可能性が残るため、アクセス制御や監査が必要になる。
consent / 同意: データ利用目的、共有範囲、二次利用、撤回などに関する合意。研究・臨床・商用利用で必要な確認が異なる。
data access committee / DAC: 制限公開データなどへのアクセス申請を審査する組織または仕組み。

臨床連携で頻出する語

clinical validation / 臨床的妥当性確認: 検査やモデルが臨床上の状態・転帰・判断対象とどの程度関連するかを確認すること。
analytical validation / 分析的妥当性確認: 検査・解析手順が対象 variant や値を正確・再現可能に測定できるかを確認すること。
clinical utility / 臨床的有用性: その検査や情報が実際の医療上の意思決定や転帰改善に役立つかという観点。
TMB (Tumor Mutational Burden): 一定領域あたりの体細胞変異数。分母、panel、閾値、適応、検査法をセットで確認する。
MSI / microsatellite instability: microsatellite の反復長変化。検査法や判定基準に依存し、単独で治療判断を確定しない。
HRD / homologous recombination deficiency: 相同組換え修復の欠損を示す概念。BRCA 変異や genomic instability score など、測定法と適応条件を確認する。
病的変異候補: 疾患との関連が強く疑われる variant。証拠水準、分類体系、専門家レビューを別途確認する必要がある。
retrospective review: 既存データを後ろ向きに見直す研究用途の検討。診療判断と同義ではない。
clinical report / 臨床報告書: 臨床運用の承認済み手順、検査妥当性、専門家レビュー、監査証跡に基づく文書。本書の概念例が生成するサマリとは区別する。

バイオインフォマティクス実践ガイド

付録K: 用語集

使い方

データと成果物

配列・遺伝子・変異

解析と機械学習

参照ゲノムと集団差

システムと運用

プライバシー・法務・倫理

臨床連携で頻出する語

関連資料