付録E：用語集と更新確認ノート

第3章で扱う評価指標やモデル比較は、変化の速い領域である。本付録では、頻出用語の最小整理と、ベンダー情報を確認するときの手順をまとめる。

E.1 頻出用語の最小用語集

MMLU

複数分野にまたがる知識理解を測る代表的なベンチマーク。汎用知識の比較には役立つが、実務タスクの適合性をそのまま保証するものではない。

HellaSwag

常識推論や文脈理解を測るベンチマーク。対話の自然さを見る参考にはなるが、業務ルールや組織文脈の理解までは保証しない。

HumanEval

コード生成の正確性を測る代表的なベンチマーク。実務では、テスト通過率だけでなく保守性やセキュリティも追加で確認する必要がある。

コンテキストウィンドウ

モデルが一度に参照できる入力範囲。長い資料を扱う場合は、要約・分割・検索連携を前提に設計する。

Temperature

出力のばらつきを制御するパラメータ。創造性が必要な場面では高め、正確性や一貫性を重視する場面では低めに設定する。

RAG

Retrieval-Augmented Generation。外部文書や検索結果を参照しながら生成する手法。最新情報や社内文書を使いたい場合に有効である。

Function Calling

モデルが外部ツールや API を呼び出す前提で応答を構造化する方式。操作対象、引数、失敗時の扱いを事前に定義して使う。

ガードレール

モデルの入出力やツール実行を制御するための制約。禁止事項、承認ゲート、出力形式、エスカレーション条件を含む。

ハルシネーション

もっともらしいが事実ではない出力。一次情報確認、根拠提示、レビュー工程で抑制する。

E.2 モデル名・料金・機能の確認手順

モデル比較や料金比較を更新するときは、本文を書き換える前に次の順で確認する。

ベンダーの公式ドキュメントで、対象モデルの正式名称と提供状態を確認する。
料金ページで、入力単価・出力単価・従量課金単位・最低利用条件を記録する。
モデルカードや評価ページで、ベンチマークの測定条件を確認する。
自組織の評価観点に照らして、必要な項目だけ比較表に反映する。
更新日と確認元 URL を残し、社内の採用判断と混同しないようにする。

E.3 実務で使う確認メモ

確認日:
確認対象ベンダー:
公式ドキュメント:
料金ページ:
モデルカード/評価ページ:

確認した項目:
- モデル名:
- 提供形態:
- 入力単価:
- 出力単価:
- 制限事項:
- ガードレール/監査機能:

自組織で追加確認する項目:
- セキュリティ要件:
- データ保持ポリシー:
- レイテンシ要件:
- レビュー工数:

E.4 読み方の目安

まず第1章と付録Aで、実際に使う依頼テンプレートを試す。
第3章を読むときに用語で迷ったら、本付録の E.1 に戻る。
モデル比較や予算議論が必要な場合は、本付録の E.2 と E.3 を使って一次情報を確認する。