付録K: 用語集

使い方

この付録は、本書を読み進める際に頻出する用語の最小定義をまとめたものです。 詳細な試験観点の語彙は付録G、データベースやツールの一覧は付録Hを参照してください。

データと成果物

  • FASTQ: 塩基配列と品質スコアを持つリードデータ形式。
  • BAM: SAM をバイナリ化したアライメント形式。索引と組み合わせてランダムアクセスしやすい。
  • VCF: 変異情報を表す標準形式。変異位置、参照塩基、代替塩基、注釈などを持つ。
  • 参照配列: アライメントや注釈の基準に使う配列。版や ID を必ず記録する。
  • アクセッション / プロジェクト ID: 公開データを一意に識別する ID。SRA ランや TCGA プロジェクトなどを指す。

解析と機械学習

  • アライメント: リードや配列を参照配列へ対応付ける処理。
  • アノテーション: 変異や遺伝子に機能情報・既知知見を付与すること。
  • 特徴量: 機械学習モデルへ入力する数値やカテゴリ変数。
  • データリーク: 学習時に評価用情報が混入し、過大評価を招く状態。
  • AUROC: 2 値分類モデルの識別性能を表す代表指標。
  • 再現性: 同じ入力・条件・版で同じ結果を再取得できる性質。

システムと運用

  • スキーマ: データの構造定義。テーブル、列、関係、制約を含む。
  • 由来情報(provenance): どの入力、ツール版、パラメータ、実行者から結果が作られたかを示す情報。
  • 監査ログ: 誰がいつ何を実行・変更したかを追跡する記録。
  • 匿名化 / 仮名化: 個人識別性を下げる処理。用途と規制に応じた管理が必要。
  • 責任分界: どの判断を自動化し、どの判断を専門家レビューへ渡すかを明確にすること。

臨床連携で頻出する語

  • TMB (Tumor Mutational Burden): 一定領域あたりの体細胞変異数。分母と数え方の定義が重要。
  • 病的変異候補: 疾患との関連が強く疑われる変異。証拠水準を別途確認する必要がある。
  • retrospective review: 既存データを後ろ向きに見直す研究用途の検討。診療判断と同義ではない。

関連資料


← 付録J へ 目次に戻る