付録H: バイオインフォマティクス プログラム・ツール・データベース 総合リファレンス

概要

本付録は、バイオインフォマティクス研究で使用される主要なプログラム、ツール、データベースを体系的に整理した総合リファレンスです。認定試験対策はもちろん、日常的な研究活動における実践的なガイドとしても活用できます。

H.1 配列解析ツール

H.1.1 配列類似性検索

ツール名 開発元 主な機能 入力形式 出力形式 URL 認定試験重要度
BLAST NCBI 配列類似性検索 FASTA XML/テキスト https://blast.ncbi.nlm.nih.gov/ ★★★
BLAST+ NCBI BLASTのコマンドライン版 FASTA 各種形式 https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=Download ★★★
DIAMOND Buchfink et al. 高速タンパク質類似性検索 FASTA BLAST形式 https://github.com/bbuchfink/diamond ★★
USEARCH Edgar 高速配列検索・クラスタリング FASTA 各種形式 https://drive5.com/usearch/ ★★
HMMER Eddy Lab HMMベース配列検索 FASTA テキスト http://hmmer.org/ ★★
PSI-BLAST NCBI 反復的プロファイル検索 FASTA XML/テキスト NCBIサイト内 ★★
FASTA Pearson 配列類似性検索の元祖 FASTA テキスト https://fasta.bioch.virginia.edu/

H.1.2 配列アライメント

ツール名 開発元 主な機能 適用範囲 アルゴリズム 認定試験重要度
ClustalW Thompson et al. 多重配列アライメント DNA/タンパク質 プログレッシブ法 ★★★
ClustalX Thompson et al. ClustalWのGUI版 DNA/タンパク質 プログレッシブ法 ★★
Clustal Omega Sievers et al. 高速多重配列アライメント DNA/タンパク質 HMM + guide tree ★★★
MUSCLE Edgar 高精度多重配列アライメント DNA/タンパク質 Progressive + refinement ★★
MAFFT Katoh et al. 高速多重配列アライメント DNA/タンパク質 FFT-based ★★
T-Coffee Notredame et al. 一貫性ベースアライメント DNA/タンパク質 Consistency-based
Needleman-Wunsch - グローバルアライメント ペア配列 動的計画法 ★★★
Smith-Waterman - ローカルアライメント ペア配列 動的計画法 ★★★

H.1.3 配列マッピング・アライメント

ツール名 開発元 主な機能 特徴 適用データ 認定試験重要度
BWA Li & Durbin ショートリードマッピング 高精度 Illumina reads ★★★
BWA-MEM Li 長いショートリードマッピング BWAの改良版 >70bp reads ★★★
Bowtie2 Langmead & Salzberg 高速リードマッピング メモリ効率 Paired-end reads ★★★
HISAT2 Kim et al. スプライシング対応マッピング RNA-seq特化 RNA-seq reads ★★★
STAR Dobin et al. 高速RNAマッピング 2-pass mode RNA-seq reads ★★★
TopHat2 Kim et al. スプライシング検出マッピング 非推奨 RNA-seq reads
minimap2 Li 長いリードマッピング PacBio/ONT対応 Long reads ★★

H.2 ゲノム解析ツール

H.2.1 ファイル操作・品質管理

ツール名 開発元 主な機能 対象ファイル 主要コマンド例 認定試験重要度
SAMtools Li et al. SAM/BAMファイル操作 SAM/BAM/CRAM view, sort, index ★★★
BCFtools SAMtools team VCFファイル操作 VCF/BCF call, view, stats ★★
VCFtools Danecek et al. VCF解析・操作 VCF –freq, –het ★★
BEDTools Quinlan & Hall ゲノム領域操作 BED/GTF/GFF intersect, merge ★★
FASTQC Babraham Inst. FASTQ品質評価 FASTQ - ★★
Trimmomatic Bolger et al. リード品質フィルタリング FASTQ - ★★
Picard Broad Institute SAM/BAM操作ツール集 SAM/BAM MarkDuplicates ★★

H.2.2 変異検出・解析

ツール名 開発元 主な機能 変異タイプ 特徴 認定試験重要度
GATK Broad Institute 変異検出統合環境 SNV/Indel ベストプラクティス ★★★
HaplotypeCaller Broad Institute GATK変異検出エンジン SNV/Indel Local assembly ★★★
Mutect2 Broad Institute 体細胞変異検出 Somatic mutation がん研究 ★★
VarScan Koboldt et al. 変異・CNV検出 SNV/Indel/CNV 統計ベース ★★
FreeBayes Garrison & Marth ベイジアン変異検出 SNV/Indel Population-based ★★
Strelka2 Illumina 高精度変異検出 SNV/Indel Somatic/Germline

H.2.3 ゲノムアセンブリ

ツール名 開発元 主な機能 対象リード アルゴリズム 認定試験重要度
SPAdes Bankevich et al. ゲノムアセンブリ Illumina de Bruijn graph ★★★
Velvet Zerbino & Birney ショートリードアセンブリ Illumina de Bruijn graph ★★
ABySS Simpson et al. 大規模ゲノムアセンブリ Illumina Parallel assembly ★★
Canu Koren et al. 長いリードアセンブリ PacBio/ONT OLC approach ★★
Flye Kolmogorov et al. 長いリードアセンブリ PacBio/ONT Repeat resolution
Trinity Grabherr et al. RNA-seqアセンブリ RNA-seq de novo transcriptome ★★

H.3 RNA-seq解析ツール

H.3.1 発現量定量

ツール名 開発元 主な機能 定量単位 特徴 認定試験重要度
featureCounts Liao et al. 遺伝子発現カウント Raw counts 高速・軽量 ★★★
HTSeq Anders et al. 発現量カウント Raw counts Python実装 ★★
Cufflinks Trapnell et al. 転写産物定量 FPKM/RPKM 非推奨 ★★
StringTie Pertea et al. 転写産物アセンブリ・定量 TPM/FPKM Reference-guided ★★
Salmon Patro et al. 高速転写産物定量 TPM k-mer based ★★★
Kallisto Bray et al. 超高速転写産物定量 TPM Pseudoalignment ★★★
RSEM Li & Dewey 転写産物定量 FPKM/TPM EM algorithm ★★

H.3.2 発現差分解析

ツール名 開発元 主な機能 統計手法 実装言語 認定試験重要度
DESeq2 Love et al. 発現差分解析 Negative binomial R/Bioconductor ★★★
edgeR Robinson et al. 発現差分解析 Negative binomial R/Bioconductor ★★★
limma Ritchie et al. 線形モデル解析 Linear modeling R/Bioconductor ★★
NOISeq Tarazona et al. ノンパラメトリック解析 Non-parametric R/Bioconductor
ballgown Frazee et al. 転写産物レベル解析 Linear modeling R

H.4 系統解析・進化解析ツール

H.4.1 系統樹構築

ツール名 開発元 主な機能 手法 プラットフォーム 認定試験重要度
MEGA Kumar et al. 統合系統解析環境 NJ/ML/MP Windows/Mac/Linux ★★★
PHYLIP Felsenstein 系統解析パッケージ 多様な手法 Command line ★★
RAxML Stamatakis 最尤法系統解析 Maximum likelihood Command line ★★
IQ-TREE Nguyen et al. 高速最尤法解析 Maximum likelihood Command line ★★
FastTree Price et al. 高速近似最尤法 Approximate ML Command line
MrBayes Ronquist et al. ベイジアン系統解析 Bayesian MCMC Command line ★★
BEAST Drummond et al. 分子時計解析 Bayesian MCMC GUI/Command line

H.4.2 集団遺伝学解析

ツール名 開発元 主な機能 解析対象 特徴 認定試験重要度
PLINK Purcell et al. GWAS・集団解析 SNP data 大規模データ対応 ★★★
EIGENSOFT Patterson et al. 主成分分析 Population structure PCA-based ★★
ADMIXTURE Alexander et al. 集団構造解析 Ancestry Model-based clustering ★★
STRUCTURE Pritchard et al. 集団構造解析 Population structure Bayesian clustering ★★
Fst Various 集団分化指数 Population differentiation 統計指標 ★★

H.5 構造生物学ツール

H.5.1 構造予測・解析

ツール名 開発元 主な機能 手法 アクセス方法 認定試験重要度
AlphaFold DeepMind タンパク質構造予測 Deep learning Web/API ★★★
ColabFold Mirdita et al. 高速構造予測 AlphaFold2-based Google Colab ★★
SWISS-MODEL Biozentrum ホモロジーモデリング Template-based Web server ★★
Modeller Webb & Sali ホモロジーモデリング Comparative modeling Python package ★★
I-TASSER Zhang Lab 構造・機能予測 Threading + ab initio Web server ★★
ChimeraX UCSF 分子可視化・解析 Interactive visualization Desktop app ★★
PyMOL Schrödinger 分子可視化 3D visualization Desktop app ★★

H.5.2 構造解析・評価

ツール名 開発元 主な機能 評価指標 特徴 認定試験重要度
RMSD計算 Various 構造類似度評価 RMSD 基本的構造比較 ★★★
ラマチャンドランプロット Various 立体構造妥当性 φ-ψ angles 構造品質評価 ★★★
MolProbity Richardson Lab 構造検証 多様な指標 包括的構造評価 ★★
ProSA Sippl 構造品質評価 Z-score エネルギープロファイル

H.6 主要データベース

H.6.1 配列データベース

データベース名 運営機関 主な内容 アクセッション形式 URL 認定試験重要度
GenBank NCBI 塩基配列データベース GB_***** https://www.ncbi.nlm.nih.gov/genbank/ ★★★
EMBL EMBL-EBI 欧州塩基配列DB EM_***** https://www.ebi.ac.uk/embl/ ★★
DDBJ NIG 日本DNA配列DB DB_***** https://www.ddbj.nig.ac.jp/ ★★★
RefSeq NCBI 参照配列DB NM_, NP_ etc. https://www.ncbi.nlm.nih.gov/refseq/ ★★★
UniProt UniProt Consortium タンパク質配列DB P**, Q** https://www.uniprot.org/ ★★★
Swiss-Prot SIB キュレーション済み蛋白質DB P**, Q** UniProt内 ★★★
TrEMBL EMBL-EBI 自動注釈蛋白質DB A*****, etc. UniProt内 ★★

H.6.2 ゲノムデータベース

データベース名 運営機関 主な内容 特徴 URL 認定試験重要度
Ensembl EMBL-EBI ゲノムブラウザ・注釈 包括的ゲノム情報 https://www.ensembl.org/ ★★★
UCSC Genome Browser UCSC ゲノムブラウザ 豊富なトラック https://genome.ucsc.edu/ ★★★
NCBI Genome NCBI ゲノム配列・注釈 RefSeq基準 https://www.ncbi.nlm.nih.gov/genome/ ★★★
1000 Genomes 国際コンソーシアム ヒト遺伝的変異 集団ゲノミクス https://www.internationalgenome.org/ ★★
gnomAD Broad Institute ヒト遺伝的変異頻度 大規模変異DB https://gnomad.broadinstitute.org/ ★★

H.6.3 機能・パスウェイデータベース

データベース名 運営機関 主な内容 特徴 URL 認定試験重要度
KEGG Kanehisa Labs 代謝経路・遺伝子機能 パスウェイマップ https://www.kegg.jp/ ★★★
Gene Ontology GO Consortium 遺伝子機能分類 階層的オントロジー http://geneontology.org/ ★★★
BioCyc SRI International 代謝経路DB 詳細な生化学情報 https://biocyc.org/ ★★
Reactome OICR/EBI パスウェイ注釈 反応レベル詳細 https://reactome.org/ ★★
WikiPathways Community パスウェイ情報 コミュニティ主導 https://www.wikipathways.org/

H.6.4 構造データベース

データベース名 運営機関 主な内容 ファイル形式 URL 認定試験重要度
PDB wwPDB タンパク質立体構造 PDB/mmCIF https://www.rcsb.org/ ★★★
PDBe EMBL-EBI 欧州PDBサイト PDB/mmCIF https://www.ebi.ac.uk/pdbe/ ★★
PDBj Osaka Univ. 日本PDBサイト PDB/mmCIF https://pdbj.org/ ★★
AlphaFold DB DeepMind/EMBL-EBI AI予測構造 PDB/mmCIF https://alphafold.ebi.ac.uk/ ★★★
SCOP MRC-LMB 構造分類 階層分類 http://scop.mrc-lmb.cam.ac.uk/
CATH UCL 構造分類 階層分類 https://www.cathdb.info/

H.6.5 文献・情報データベース

データベース名 運営機関 主な内容 検索機能 URL 認定試験重要度
PubMed NCBI 生物医学文献 高度検索 https://pubmed.ncbi.nlm.nih.gov/ ★★★
PMC NCBI オープンアクセス文献 全文検索 https://www.ncbi.nlm.nih.gov/pmc/ ★★
Europe PMC EMBL-EBI 欧州文献DB 統合検索 https://europepmc.org/ ★★
Google Scholar Google 学術文献検索 引用情報 https://scholar.google.com/ ★★

H.7 統計・機械学習ツール

H.7.1 統計解析環境

ツール名 開発元 主な機能 特徴 学習コスト 認定試験重要度
R R Foundation 統計解析・可視化 オープンソース ★★★
RStudio RStudio R統合開発環境 GUI環境 ★★★
Bioconductor Bioconductor Team バイオ統計パッケージ R専用パッケージ群 ★★★
Python Python Foundation 汎用プログラミング 豊富なライブラリ ★★★
NumPy NumPy team 数値計算 Python基盤ライブラリ ★★
SciPy SciPy team 科学計算 Python統計ライブラリ ★★
pandas pandas team データ操作 データフレーム操作 ★★

H.7.2 機械学習ライブラリ

ツール名 開発元 主な機能 対応アルゴリズム プラットフォーム 認定試験重要度
scikit-learn scikit-learn team 機械学習 分類・回帰・クラスタリング Python ★★★
TensorFlow Google 深層学習 ニューラルネットワーク Python/多言語 ★★
PyTorch Meta 深層学習 ニューラルネットワーク Python ★★
Keras Keras team 深層学習 高レベルNN API Python ★★
XGBoost XGBoost team 勾配ブースティング 決定木アンサンブル 多言語対応 ★★
Random Forest Various ランダムフォレスト 決定木アンサンブル R/Python ★★

H.8 ワークフロー管理・再現性ツール

H.8.1 ワークフロー管理

ツール名 開発元 主な機能 記述言語 特徴 認定試験重要度
Nextflow Seqera Labs ワークフロー管理 Groovy-based DSL 可搬性・拡張性 ★★
Snakemake Köster et al. ワークフロー管理 Python-based Make風文法 ★★
WDL Broad Institute ワークフロー記述言語 WDL Cromwell実行エンジン ★★
CWL Common Workflow Language 標準ワークフロー言語 YAML/JSON ツール間互換性
Galaxy Galaxy Team Web-based分析環境 GUI 非プログラマ向け ★★

H.8.2 コンテナ・仮想化

ツール名 開発元 主な機能 特徴 用途 認定試験重要度
Docker Docker Inc. コンテナ化 軽量仮想化 環境再現 ★★
Singularity Sylabs HPCコンテナ HPC特化 クラスタ環境 ★★
Conda Anaconda Inc. パッケージ管理 環境管理 Python/R環境 ★★
Bioconda Bioconda team バイオツール管理 Conda特化チャンネル バイオツール配布 ★★

H.9 クラウド・分散処理ツール

H.9.1 クラウドプラットフォーム

プラットフォーム名 提供企業 主なサービス バイオ特化機能 料金体系 認定試験重要度
AWS Amazon EC2, S3, Lambda等 AWS Batch, HealthLake 従量課金 ★★
Google Cloud Google Compute Engine, Cloud Storage等 Life Sciences API 従量課金 ★★
Microsoft Azure Microsoft Virtual Machines, Blob Storage等 Genomics Service 従量課金
Terra Broad Institute ゲノム解析プラットフォーム FireCloud後継 使用量ベース

H.9.2 分散処理フレームワーク

ツール名 開発元 主な機能 適用分野 特徴 認定試験重要度
Apache Spark Apache Foundation 大規模データ処理 ビッグデータ解析 インメモリ処理
Hadoop Apache Foundation 分散ストレージ・処理 ビッグデータ MapReduce
Dask Dask team Python並列処理 科学計算 pandas/NumPy互換

H.10 品質管理・可視化ツール

H.10.1 品質評価

ツール名 開発元 主な機能 対象データ 出力形式 認定試験重要度
FastQC Babraham Institute FASTQ品質評価 配列データ HTML報告書 ★★★
MultiQC Ewels et al. 統合品質報告書 各種QCツール出力 HTML報告書 ★★
Qualimap García-Alcalde et al. マッピング品質評価 BAMファイル HTML/PDF報告書 ★★
RSeQC Wang et al. RNA-seq品質評価 RNA-seq data テキスト/図 ★★

H.10.2 可視化ツール

ツール名 開発元 主な機能 可視化対象 プラットフォーム 認定試験重要度
IGV Broad Institute ゲノムブラウザ ゲノムデータ Java application ★★★
UCSC Genome Browser UCSC ゲノムブラウザ ゲノムデータ Web browser ★★★
ggplot2 Wickham R可視化パッケージ 統計グラフ R ★★★
matplotlib Hunter Python可視化 科学グラフ Python ★★
Circos Krzywinski et al. 円形ゲノム図 ゲノム比較 Perl ★★
Cytoscape Cytoscape Consortium ネットワーク可視化 生物学的ネットワーク Java application ★★

H.11 ファイル形式リファレンス

H.11.1 配列データ形式

形式名 拡張子 主な用途 特徴 認定試験重要度
FASTA .fa, .fasta, .fas 配列保存 シンプルなテキスト形式 >header\nATCG ★★★
FASTQ .fq, .fastq 品質スコア付き配列 シークエンシングraw data @header\nATCG\n+\n#### ★★★
SAM .sam アライメント結果 テキスト形式 Header + alignment records ★★★
BAM .bam アライメント結果 SAMのバイナリ版 圧縮されたSAM ★★★
CRAM .cram 高圧縮アライメント 参照配列ベース圧縮 BAMの高圧縮版 ★★

H.11.2 変異・注釈データ形式

形式名 拡張子 主な用途 特徴 使用ツール例 認定試験重要度
VCF .vcf 変異データ Variant Call Format GATK, bcftools ★★★
BCF .bcf 変異データ VCFのバイナリ版 BCFtools ★★
BED .bed ゲノム領域 座標ベース領域指定 BEDtools ★★★
GTF .gtf 遺伝子注釈 Gene Transfer Format RNA-seq解析 ★★★
GFF .gff 遺伝子注釈 General Feature Format ゲノム注釈 ★★

H.11.3 構造データ形式

形式名 拡張子 主な用途 特徴 対応ソフト 認定試験重要度
PDB .pdb タンパク質構造 Protein Data Bank形式 PyMOL, ChimeraX ★★★
mmCIF .cif タンパク質構造 PDBの後継形式 構造解析ソフト ★★
MOL .mol 化学構造 MDL Molfile 化学ソフト
SDF .sdf 化学構造データベース Structure Data File 化学DB

学習・活用ガイド

認定試験対策での活用法

  1. 重要度★★★のツール: 必ず名前と基本機能を覚える
  2. 重要度★★のツール: 概要と使い分けを理解する
  3. 重要度★のツール: 存在を知っておく程度

実践研究での活用法

  1. 目的別ツール選択: 解析目的に応じた最適ツールの選択
  2. ワークフロー設計: 複数ツールを組み合わせた解析パイプライン構築
  3. 品質管理: 各ステップでの品質評価とトラブルシューティング

継続学習のポイント

  1. 公式ドキュメント: 各ツールの公式ドキュメントを参照
  2. コミュニティ: バイオインフォマティクスコミュニティでの情報交換
  3. アップデート: ツールの新版リリース情報を定期チェック

このリファレンスは、バイオインフォマティクス分野の急速な発展に合わせて定期的に更新される予定です。最新情報については、各ツール・データベースの公式サイトを確認してください。

← 付録G へ 目次に戻る → 付録I へ