11. プライバシー保護技術

11.1 暗号学的手法

準同型暗号:

暗号化状態でのデータ演算が可能
加法準同型: E(a) + E(b) = E(a+b)
乗法準同型: E(a) × E(b) = E(a×b)
応用: 暗号化ゲノムデータの統計解析

秘密分散:

データを複数の断片に分割
閾値秘密分散: k個の断片で復元可能（k < n）
応用: 複数機関間でのデータ共有

準同型暗号の実用例（Microsoft SEAL使用）:

# 注：実際の使用にはMicrosoft SEALのPythonバインディングが必要
# pip install seal-python

class HomomorphicGenomeAnalysis:
    """準同型暗号を使用したゲノム解析"""
    
    def __init__(self):
        """SEALコンテキストの初期化"""
        # 仮想的な実装（実際にはSEALライブラリを使用）
        self.context = self._setup_seal_context()
        
    def _setup_seal_context(self):
        """暗号パラメータの設定"""
        # 実際のSEAL実装の例
        """
        import seal
        
        parms = seal.EncryptionParameters(seal.scheme_type.ckks)
        poly_modulus_degree = 8192
        parms.set_poly_modulus_degree(poly_modulus_degree)
        parms.set_coeff_modulus(seal.CoeffModulus.Create(
            poly_modulus_degree, [60, 40, 40, 60]))
        
        scale = 2.0**40
        
        context = seal.SEALContext(parms)
        return context
        """
        return None  # デモ用
    
    def encrypt_genotype(self, genotype_vector):
        """
        ジェノタイプデータの暗号化
        
        Args:
            genotype_vector: SNPデータ（0,1,2の配列）
        
        Returns:
            暗号化されたデータ
        """
        # 実際の暗号化処理
        # encrypted = []
        # for value in genotype_vector:
        #     ciphertext = self.encryptor.encrypt(self.encoder.encode(value))
        #     encrypted.append(ciphertext)
        
        # デモ用の仮想実装
        return {'encrypted': True, 'size': len(genotype_vector)}
    
    def compute_risk_score_encrypted(self, encrypted_genotype, weights):
        """
        暗号化状態でのリスクスコア計算
        
        Args:
            encrypted_genotype: 暗号化されたジェノタイプ
            weights: 各SNPの重み（平文）
        
        Returns:
            暗号化されたリスクスコア
        """
        # 準同型演算の例
        # risk_score = sum(encrypted_g * w for encrypted_g, w in zip(encrypted_genotype, weights))
        
        return {'encrypted_score': True, 'computation': 'homomorphic'}

データ活用とプライバシーの両立: ゲノムデータは究極の個人情報であり、適切な保護なしには研究利用が困難である。準同型暗号により、データを暗号化したまま統計解析が可能となり、プライバシーを保護しつつ医学研究を推進できる。国際共同研究では、各国の規制に対応しつつデータ共有を実現する技術として不可欠である。適切な実装により、セキュリティと研究効率の両立が可能となる。

11.2 差分プライバシー

定義: ε-差分プライバシー: 1個のレコード追加/削除による出力分布の変化をε以下に制限

実装手法:

ラプラス機構: 数値クエリにノイズ付加
指数機構: 非数値クエリの確率的選択
応用: 集団ゲノム統計の公開

実用的な差分プライバシー実装:

import numpy as np
from scipy import stats

class DifferentialPrivacyGenomics:
    """ゲノムデータの差分プライバシー保護"""
    
    def __init__(self, epsilon=1.0):
        """
        Args:
            epsilon: プライバシーパラメータ（小さいほど強い保護）
        """
        self.epsilon = epsilon
        
    def laplace_mechanism(self, true_value, sensitivity):
        """
        ラプラス機構によるノイズ付加
        
        Args:
            true_value: 真の値
            sensitivity: 感度（1レコード変更の最大影響）
        
        Returns:
            ノイズ付加された値
        """
        scale = sensitivity / self.epsilon
        noise = np.random.laplace(0, scale)
        return true_value + noise
    
    def private_allele_frequency(self, genotypes):
        """
        差分プライバシーを保証したアレル頻度の計算
        
        Args:
            genotypes: ジェノタイプデータ（0,1,2）
        
        Returns:
            プライベートなアレル頻度
        """
        # アレル数のカウント
        allele_count = np.sum(genotypes)
        total_alleles = len(genotypes) * 2
        
        # 感度：1人の変更で最大2アレル変化
        sensitivity = 2.0 / total_alleles
        
        # 真の頻度
        true_frequency = allele_count / total_alleles
        
        # ノイズ付加
        private_frequency = self.laplace_mechanism(true_frequency, sensitivity)
        
        # [0,1]の範囲にクリップ
        return np.clip(private_frequency, 0, 1)

科学的厳密性の確保: 差分プライバシーは、プライバシー保護の数学的保証を提供する。従来の匿名化手法は攻撃に対して脆弱であったが、差分プライバシーにより理論的に安全なデータ公開が可能となる。研究結果の再現性と信頼性を保ちつつ、個人のプライバシーを確実に保護できる。公衆衛生政策の立案や疫学研究において、信頼できるデータ基盤を提供する。

11.3 匿名化技術

k-匿名性:

同一の準識別子を持つレコードをk個以上確保
問題: 同質性攻撃、背景知識攻撃

l-多様性:

各等価クラス内でセンシティブ属性をl種類以上確保

t-近似性:

等価クラス内外でのセンシティブ属性分布の類似性を保証

実用的データ活用の基盤: 医療データの二次利用には、個人識別リスクの最小化が必要である。段階的な匿名化技術により、データの有用性を保ちつつリスクを制御できる。臨床データベースの研究利用、保険データの分析、公衆衛生サーベイランスにおいて、適切な匿名化により社会的価値を創出しながらプライバシーを保護する。技術の組み合わせにより、様々な攻撃モデルに対応可能である。

前へ: データベース技術

次へ: 臨床応用システム