付録G: バイオインフォマティクス技術者認定試験対策

概要

この付録は、日本バイオインフォマティクス学会(JSBi)が主催する「バイオインフォマティクス技術者認定試験」への対策を支援するために作成されました。本書の内容と認定試験の出題範囲を体系的に対応づけ、効率的な学習を支援します。

認定試験の基本情報

  • 実施団体: 日本バイオインフォマティクス学会(JSBi)
  • 試験方式: CBT(Computer-Based Testing)
  • 実施回数: 年2回(7-8月、11-12月)
  • 問題数: 60問(四肢択一式)
  • 試験時間: 120分
  • 受験料: 6,000円(税込)
  • 合格基準: 約55-60%(相対評価)

G.1 出題範囲と本書の対応表

生命科学分野

認定試験キーワード 本書対応章節 重要度 学習ポイント
分子生物学      
セントラルドグマ 第1章 1.3節 ★★★ DNA→RNA→タンパク質の基本流れ
遺伝子構造(コドン、ORF、スプライシング) 第1章 1.3節, 第4章 4.2節 ★★★ 真核生物と原核生物の違い
プロモーター 第5章 5.1節 ★★ 転写開始に関わる制御領域
ウイルス 第1章 1.2節 巨大ウイルスの存在も含む
遺伝子組換え 第1章 1.2節 基本的な実験手法
ゲノミクス・オミクス技術      
次世代シークエンサ(NGS) 第4章 4.1節 ★★★ 技術原理と特徴
ショットガン法 第4章 4.1節 ★★ ゲノムアセンブリ手法
de novoアセンブリ 第4章 4.3節 ★★ リファレンスフリーな配列決定
マイクロアレイ 第5章 5.1節 発現解析の従来技術
質量分析 第6章 6.3節 プロテオミクス・メタボロミクス
X線結晶構造解析、NMR 第10章 10.2節 構造解析手法

情報科学分野

認定試験キーワード 本書対応章節 重要度 学習ポイント
コンピュータシステム      
2進数、論理演算 第2章 2.1節 ★★ 基本的な情報表現
浮動小数点数、誤差 第2章 2.1節 ★★ 数値計算の注意点
プログラミング言語(Python、R) 第3章 3.1節 ★★★ 実践的なプログラミング能力
ネットワーク(OSI参照モデル、IPアドレス) 第2章 2.2節 基本的なネットワーク知識
マークアップ言語(HTML、XML) 第10章 10.1節 データ記述形式
アルゴリズムとデータ構造      
スタック、キュー、木構造 第3章 3.2節 ★★ 基本的なデータ構造
探索(二分探索、ハッシュ) 第3章 3.2節 ★★ 効率的な検索手法
ソーティング 第3章 3.2節 基本的なアルゴリズム
時間計算量、空間計算量 第3章 3.3節 ★★ アルゴリズムの効率性評価
データベース技術      
データモデル(リレーショナル型) 第10章 10.1節 ★★ データベースの基本概念
SQL 第10章 10.1節 ★★ データベース操作言語
確率・統計      
確率分布、ベイズの定理 第3章 3.4節 ★★★ 統計解析の基礎
平均、分散、相関、回帰 第3章 3.4節 ★★★ 記述統計・推測統計
仮説検定(有意水準、p値) 第3章 3.4節 ★★★ 統計的推論の基本
機械学習      
決定木、k-NN、ニューラルネットワーク、SVM 第7章 7.1-7.3節 ★★ 基本的な機械学習手法
感度、特異度、交差検証 第7章 7.4節 ★★ モデル評価手法
クラスタリング(K-means、SOM) 第7章 7.2節 ★★ 教師なし学習

バイオインフォマティクス分野

認定試験キーワード 本書対応章節 重要度 学習ポイント
データベース      
文献DB(PubMed) 第10章 10.3節 ★★ 文献検索データベース
ゲノムDB(NCBI) 第10章 10.3節 ★★★ 主要なゲノムデータベース
塩基配列DB(GenBank/DDBJ) 第10章 10.3節 ★★★ 配列データの標準データベース
アミノ酸配列DB(UniProt) 第10章 10.3節 ★★★ タンパク質配列・機能データベース
立体構造DB(PDB) 第10章 10.3節 ★★ タンパク質構造データベース
パスウェイDB(KEGG) 第10章 10.3節 ★★ 代謝経路データベース
遺伝子オントロジー(GO) 第10章 10.3節 ★★ 遺伝子機能分類体系
配列解析      
配列アライメント(動的計画法) 第4章 4.2節 ★★★ 基本的な配列比較手法
相同性検索(BLAST、ハッシング) 第4章 4.2節 ★★★ 最重要な解析ツール
スコアリング行列(PAM、BLOSUM) 第4章 4.2節 ★★ 配列比較の評価基準
隠れマルコフモデル(HMM) 第4章 4.4節 ★★ 確率的配列解析手法
モチーフ解析(正規表現) 第4章 4.4節 ★★ 保存配列の検出
遺伝子発見、比較ゲノミクス 第4章 4.3節 ★★ ゲノム解析の応用
構造バイオインフォマティクス      
構造表現(ラマチャンドランプロット) 第6章 6.2節 タンパク質構造の評価
構造比較(RMSD) 第6章 6.2節 構造類似性の定量評価
二次・三次構造予測 第6章 6.2節 配列からの構造予測
ホモロジーモデリング、スレッディング 第6章 6.2節 構造予測手法
遺伝・進化      
ゲノムワイド関連解析(GWAS) 第9章 9.1節 ★★ 疾患関連遺伝子の同定
ハプロタイプ、SNP、CNV 第9章 9.1節 ★★ 遺伝的変異の種類
分子系統解析 第9章 9.3節 ★★ 進化関係の推定
システム生物学・オミクス解析      
遺伝子発現クラスタリング 第5章 5.2節 ★★ 発現パターンの分類
ネットワーク解析(スケールフリー、ハブ) 第6章 6.4節 ★★ 生物学的ネットワークの特徴
パスウェイ解析 第6章 6.4節 ★★ 代謝経路の解析
メタボローム解析 第6章 6.3節 代謝物質の網羅的解析

重要度の説明:

  • ★★★: 頻出・重要(必須習得)
  • ★★: 標準レベル(理解推奨)
  • ★: 基礎レベル(概要把握)

G.2 頻出プログラム・ツール一覧表

分野 プログラム/ツール名 主な機能 入力形式 出力形式 関連章 試験での出題頻度
配列解析            
BLAST 配列類似性検索 FASTA テキスト/XML 第4章 ★★★  
BWA ショートリード配列マッピング FASTQ SAM/BAM 第4章 ★★  
Bowtie2 高速配列マッピング FASTQ SAM 第4章 ★★  
HMMER HMMによる配列解析 FASTA テキスト 第4章 ★★  
ClustalW/Clustal Omega 多重配列アライメント FASTA アライメント形式 第4章 ★★  
ゲノム解析            
SAMtools SAM/BAMファイル操作 SAM/BAM 各種形式 第4章 ★★  
GATK 変異検出・品質管理 BAM VCF 第4章 ★★  
VCFtools VCFファイル操作 VCF 統計情報 第4章  
IGV ゲノムビューア 各種形式 可視化 第4章  
アセンブリ            
SPAdes ゲノムアセンブリ FASTQ FASTA 第4章 ★★  
Velvet ショートリードアセンブリ FASTQ FASTA 第4章  
Canu ロングリードアセンブリ FASTQ FASTA 第4章  
RNA-seq解析            
TopHat/HISAT2 RNA-seqマッピング FASTQ SAM/BAM 第5章 ★★  
Cufflinks 転写産物アセンブリ BAM GTF 第5章  
STAR 高速RNAマッピング FASTQ SAM/BAM 第5章 ★★  
DESeq2 発現差分解析 カウントデータ 統計結果 第5章 ★★  
edgeR 発現差分解析 カウントデータ 統計結果 第5章 ★★  
系統解析            
MEGA 系統解析統合環境 配列データ 系統樹 第9章 ★★  
PHYLIP 系統解析パッケージ 配列データ 系統樹 第9章  
RAxML 最尤法系統解析 配列データ 系統樹 第9章  
構造解析            
PyMOL 分子構造可視化 PDB 画像 第6章  
ChimeraX 分子構造解析 PDB 画像/解析結果 第6章  
SWISS-MODEL ホモロジーモデリング 配列 PDB 第6章  

出題頻度の説明:

  • ★★★: 毎回出題される可能性が高い
  • ★★: 定期的に出題される
  • ★: 時々出題される

G.3 主要データベース利用ガイド

NCBI(National Center for Biotechnology Information)

URL: https://www.ncbi.nlm.nih.gov/

主要データベース:

  • GenBank: 塩基配列データベース
  • RefSeq: 高品質な参照配列
  • PubMed: 生物医学文献データベース
  • SRA: 次世代シーケンシングデータ
  • dbSNP: 遺伝的変異データベース

基本的な使い方:

  1. トップページから目的のデータベースを選択
  2. 検索ボックスにキーワードや配列を入力
  3. 検索結果を絞り込み、目的のエントリを選択
  4. 必要に応じてデータをダウンロード

試験対策ポイント:

  • 各データベースの特徴と用途を理解する
  • アクセッション番号の体系を知る
  • BLAST検索の使い方を覚える

UniProt(Universal Protein Resource)

URL: https://www.uniprot.org/

主要データベース:

  • UniProtKB/Swiss-Prot: 手動キュレーション済みタンパク質データ
  • UniProtKB/TrEMBL: 自動アノテーション済みタンパク質データ

基本的な使い方:

  1. トップページの検索ボックスにタンパク質名や遺伝子名を入力
  2. 検索結果からエントリを選択
  3. 機能、構造、相互作用などの情報を確認
  4. 必要に応じて配列をダウンロード

試験対策ポイント:

  • Swiss-ProtとTrEMBLの違いを理解する
  • タンパク質の機能分類(GO terms)を知る
  • 配列の特徴(ドメイン、モチーフ)の見方を覚える

PDB(Protein Data Bank)

URL: https://www.rcsb.org/

概要: タンパク質、核酸、複合体の三次元構造データベース

基本的な使い方:

  1. PDB IDまたはタンパク質名で検索
  2. 構造エントリの詳細情報を確認
  3. 構造ビューアで立体構造を表示
  4. 構造データをダウンロード

試験対策ポイント:

  • X線結晶構造解析、NMR、クライオ電子顕微鏡の違い
  • 分解能の意味と構造の品質指標
  • 立体構造の表現方法(リボン図、空間充填模型など)

KEGG(Kyoto Encyclopedia of Genes and Genomes)

URL: https://www.kegg.jp/

主要データベース:

  • PATHWAY: 代謝経路、シグナル伝達経路
  • GENES: 遺伝子カタログ
  • COMPOUND: 化合物データベース

基本的な使い方:

  1. 目的の生物種や経路名で検索
  2. パスウェイマップを表示
  3. 遺伝子や化合物の詳細情報を確認
  4. 関連する経路を探索

試験対策ポイント:

  • 主要な代謝経路(解糖系、TCA回路など)の理解
  • パスウェイ解析の基本概念
  • KEGG identifierの体系

G.4 重要用語集

生物学・情報科学・バイオインフォマティクス

【A】

  • アライメント(Alignment): 配列の対応関係を示す配列比較結果
  • アノテーション(Annotation): ゲノムや配列に機能情報を付与すること
  • アセンブリ(Assembly): 短い配列断片から長い配列を再構築すること

【B】

  • BLAST: 配列類似性検索の標準ツール
  • BLOSUM: アミノ酸置換行列の一種
  • bit score: BLASTでの配列類似性スコア

【C】

  • CNV(Copy Number Variation): 遺伝子のコピー数変異
  • クラスタリング: データを類似性に基づいてグループ分けする手法
  • CBT: Computer-Based Testing(コンピュータ試験)

【D】

  • de novoアセンブリ: 参照配列を使わないゲノム組み立て
  • 動的計画法: アライメント作成に用いられるアルゴリズム

【E】

  • E-value: BLASTでの統計的有意性を示す値
  • エピゲノム: DNA配列以外の遺伝情報

【F】

  • FASTA: 配列データの標準形式
  • FASTQ: 品質スコア付き配列データ形式

【G】

  • GWAS: ゲノムワイド関連解析
  • GO(Gene Ontology): 遺伝子機能の標準分類体系

【H】

  • ハプロタイプ: 染色体上の連鎖した遺伝的変異のセット
  • HMM: 隠れマルコフモデル

【N】

  • NGS: 次世代シークエンサー
  • ニューラルネットワーク: 脳の神経回路を模した機械学習手法

【O】

  • ORF(Open Reading Frame): 開始コドンから終止コドンまでの領域
  • オミクス: 生体分子の網羅的解析

【P】

  • PAM: アミノ酸進化距離を表す置換行列
  • p値: 統計的仮説検定での有意確率
  • PCR: ポリメラーゼ連鎖反応

【R】

  • RNA-seq: RNAの網羅的配列解析
  • RMSD: 構造間の原子座標のずれを表す指標

【S】

  • SNP(Single Nucleotide Polymorphism): 一塩基多型
  • セントラルドグマ: DNA→RNA→タンパク質の情報の流れ
  • SVM(Support Vector Machine): サポートベクターマシン

G.5 模擬問題集(60問形式)

【生命科学分野】(20問)

問1. セントラルドグマに関する記述として最も適切なものはどれか。

A) DNA→RNA→タンパク質の情報の流れは一方向性である B) 逆転写酵素の発見により、RNA→DNAの情報の流れも明らかになった
C) プリオンはタンパク質のみで遺伝情報を伝達する D) 上記のすべてが正しい

正解: D 解説: セントラルドグマは基本的に一方向性だが、逆転写酵素やプリオンなど例外も存在する。

問2. 次世代シークエンサー(NGS)の特徴として正しくないものはどれか。

A) 大量並列処理により高いスループットを実現 B) Sanger法と比較して1リードあたりの配列長が短い C) 1塩基あたりのコストが従来法より大幅に安価 D) エラー率は従来のSanger法より低い

正解: D 解説: NGSは一般的にSanger法よりもエラー率が高い。

【情報科学分野】(20問)

問21. 動的計画法を用いる配列アライメントアルゴリズムとして最も適切なものはどれか。

A) Needleman-Wunsch法とSmith-Waterman法 B) BLAST検索とFASTA検索 C) k-means法とSOM法 D) 決定木とランダムフォレスト

正解: A 解説: Needleman-Wunsch法(グローバルアライメント)とSmith-Waterman法(ローカルアライメント)は動的計画法を使用。

問22. 統計的仮説検定において、第一種の過誤(α エラー)とは何か。

A) 帰無仮説が真であるのに、これを棄却してしまう過誤 B) 帰無仮説が偽であるのに、これを採択してしまう過誤 C) サンプルサイズが小さいことによる過誤 D) 測定誤差による過誤

正解: A 解説: 第一種の過誤は「偽陽性」とも呼ばれ、有意水準αで制御される。

【バイオインフォマティクス分野】(20問)

問41. BLASTでのE-valueの解釈として最も適切なものはどれか。

A) E-valueが小さいほど配列の類似性が高い B) E-valueが大きいほど統計的に有意である C) E-valueは常に0から1の間の値をとる D) E-valueはデータベースサイズに依存しない

正解: A 解説: E-valueが小さいほど偶然による一致の可能性が低く、類似性が高いことを示す。

問42. UniProtデータベースに関する記述として正しいものはどれか。

A) Swiss-Protは自動アノテーションによるデータベースである B) TrEMBLは手動キュレーション済みのデータベースである C) Swiss-Protの方がTrEMBLよりも信頼性が高い D) UniProtは核酸配列のみを扱うデータベースである

正解: C 解説: Swiss-Protは手動キュレーション、TrEMBLは自動アノテーションによるタンパク質データベース。

学習方法とスケジュール

推奨学習期間: 3-6ヶ月

第1段階(1-2ヶ月): 基礎固め

  • 本書第1章で分野全体の概要を把握
  • 公式教科書「バイオインフォマティクス入門」を通読
  • 基本用語と概念の理解

第2段階(2-3ヶ月): 知識の深化

  • 本書の関連章を詳細に学習
  • 過去問題を解いて弱点を特定
  • 不足分野の補強学習

第3段階(1ヶ月): 試験対策

  • 模擬問題での最終確認
  • 重要用語の暗記
  • 試験形式に慣れる練習

効果的な学習法

  1. 体系的学習: キーワードリストに基づいた体系的な学習
  2. 実践的理解: ツールやデータベースの実際の使用経験
  3. 反復学習: 重要概念の繰り返し確認
  4. 問題演習: 過去問題と模擬問題での実戦練習

関連リソース

公式リソース

推奨図書

  • 「バイオインフォマティクス入門 第2版」(公式教科書)
  • 「新しいゲノムの教科書」
  • 「よくわかるバイオインフォマティクス入門」

オンライン学習リソース

  • NCBI Education(英語)
  • EBI Training(英語)
  • 各種オンライン講座やMOOCs

この付録が、バイオインフォマティクス技術者認定試験の合格と、さらなる専門性向上の一助となることを願っています。

← 付録F へ 目次に戻る → 付録H へ