01モデルの階層 ── 大・中・小を分けて考える
まず、いま使える AI モデルを、ざっくり三つの層に分けて捉えます。厳密な区分ではありませんが、道具を選ぶときの地図になります。層が上がるほど賢く、そのぶん費用と待ち時間が増える、と覚えてください。
大きいモデル (フラッグシップ)
複雑な推論、長い文書の読解、言葉の細かな含みの読み取りが得意。そのぶん一回あたりの費用が高く、応答も遅め。難所だけに使う。
中くらいのモデル (バランス型)
要約・分類・下書きなど、多くの実務をこなせる。費用と精度の釣り合いがよく、システムの主力になりやすい層。
小さいモデル (軽量・高速)
定型的な抽出、フォーマット変換、簡単な仕分けが得意。とにかく速く安い。大量に回す前処理に向く。
大事なのは、「一番賢いモデルを常に使えばよい」わけではないという点です。フォーマットを整えるだけの作業に最上位モデルを充てるのは、封筒に宛名を書くのに専門家を雇うようなものです。タスクの難しさに、モデルの層を合わせる。この当たり前の見合わせが、コスト最適化の出発点です。
02精度とコストのトレードオフ ── 何を測って選ぶか
モデルを選ぶとき、比べるべき軸は一つではありません。次の四つを並べて見ると、判断が具体的になります。どれか一つだけを見て決めると、あとで痛い目を見ます。
| 比べる軸 | 何を意味するか | 見落とすと起きること |
|---|---|---|
| 精度 | タスクを正しくこなせる度合い | 安さだけで選ぶと、誤りの後始末に人手がかかる |
| 費用 | 入力・出力の分量(=トークン)あたりの単価 | 賢さだけで選ぶと、規模を広げた瞬間に予算が破綻する |
| 速度 (レイテンシ) | 問い合わせてから答えが返るまでの時間 | 対話用途では、遅さがそのまま使われない理由になる |
| 安定性 | 同じ入力で結果がぶれない度合い | 審査・記録が要る業務で、再現できないと検証に困る |
費用は、多くのモデルで 「入力トークン」と「出力トークン」に分けて課金されるのが基本です。トークンとは、文章を細かく区切った単位で、日本語ならおおむね一文字が一〜二トークンにあたります。長い資料をそのまま読ませれば入力側が、長い答えを求めれば出力側が膨らみます。単価はモデル各社の公式価格表に明記されているので、選ぶ前に必ず一次情報で確かめてください。伝聞の数字は古くなっていることが多いからです。
ここで陥りやすい誤りが、「単価が安いモデルほど総額も安い」という思い込みです。安いモデルが精度不足で何度も問い合わせ直したり、人が手直ししたりすれば、総コストはかえって高くつきます。見るべきは単価ではなく、「一つの仕事を完了させるまでの総額」です。
03ルーティング ── やさしい仕事とむずかしい仕事を仕分ける
階層を理解したら、次は使い分けです。すべての問い合わせを一つのモデルに流すのではなく、ルーティング(=内容に応じて処理を振り分ける仕組み)で、易しいものは小さいモデルへ、難しいものだけ大きいモデルへ回します。工場の検品で、明らかに正常なものは自動で通し、判断に迷うものだけ熟練者に回すのと同じ発想です。
実務でよく使われる振り分けの型を、三つ挙げます。
- 難易度による振り分け ── まず小さいモデルに解かせ、自信が低い・答えが曖昧なときだけ大きいモデルに引き継ぐ。多くの入力は易しいので、大半を安いモデルで処理できる。
- タスク種別による振り分け ── 「抽出は小、要約は中、最終判断は大」のように、作業の性質で最初から担当モデルを決めておく。設計が単純で、運用も読みやすい。
- 段階による振り分け (カスケード) ── 小 → 中 → 大 と順に試し、前段で十分な品質が出たらそこで止める。難しい入力だけが最後の層まで到達する。
ルーティングの利点は費用だけではありません。易しい仕事を軽いモデルが即座に返すので、全体の応答も速くなる。ただし、振り分けの判定そのものにコストがかかる点は忘れないでください。判定が複雑すぎると、節約したぶんを判定コストが食い潰します。まずはタスク種別による単純な振り分けから始め、必要に応じて難易度判定を足すのが堅実です。
04キャッシュ ── 同じ問いに、二度払わない
現場のシステムでは、同じような問い合わせが何度も繰り返されます。同じ社内規程の説明、同じ製品情報の要約、同じ定型メールの下書き ── ここで毎回モデルに聞き直すのは、費用も時間も無駄です。キャッシュ(=一度出した結果を一時的に保存して使い回す仕組み)で、この重複を減らします。
AI で使うキャッシュには、大きく二種類あります。両方を理解しておくと、設計の幅が広がります。
| 種類 | 仕組み | 効くところ |
|---|---|---|
| 応答キャッシュ | 同じ問い合わせに対する答えを丸ごと保存し、次回はモデルを呼ばずに返す | 問い合わせが繰り返される定型業務。費用も待ち時間もほぼゼロにできる |
| プロンプトキャッシュ | 毎回共通する長い前提部分(規程・指示・資料)をモデル側に一時保持させ、変わる部分だけ送る | 長い共通コンテキストを何度も使う用途。入力トークン分の費用を大きく削れる |
プロンプトキャッシュは、主要なモデル各社が提供している機能で、共通部分の入力単価が割り引かれる仕組みです。長い社内マニュアルを前提に何十件も質問するような場合、効き目が大きい。具体的な割引率と保持時間は各社の公式ドキュメントに載っているので、そこで確認してください。
05評価 (eval) の設計 ── 「良くなった」を測れる形にする
モデルを選び分け、ルーティングやキャッシュを入れても、「本当に品質が保たれているか」を測れなければ、判断は勘に頼ることになります。ここで要るのが評価(=eval、システムの出力が期待どおりかを体系的に測る仕組み)です。感想ではなく、数字で比べられる形にするのが肝心です。
評価の作り方には、いくつかの型があります。用途に応じて組み合わせます。
正解データとの照合
あらかじめ「正しい答え」を用意した問題集を作り、モデルの出力がどれだけ一致するかを測る。分類・抽出のように答えが定まる作業に向く。
人による採点
要約や説明文のように正解が一つに定まらない出力を、人が基準に沿って点数化する。手間はかかるが、微妙な品質を捉えられる。
AI による採点
別のモデルに採点役をさせ、大量の出力を素早く評価する。人の採点と定期的に突き合わせ、ずれを補正しながら使う。
回帰チェック
モデルや設定を変えた前後で、同じ問題集を通し、品質が下がっていないかを確かめる。安いモデルへの切り替え判断の土台になる。
評価を設計する順番は、「代表的な入力を集める → 判定基準を決める → 変更前後で必ず通す」です。ここで大切なのは、評価用の問題集を、実際に来る問い合わせから作ること。理想的な例ばかり集めても、現場の困った入力に耐えられるかは分かりません。安いモデルに切り替えてよいかどうかも、この回帰チェックが「品質は落ちていない」と示して初めて、根拠をもって決められます。評価がないコスト削減は、静かな品質低下と見分けがつきません。
06自社データの扱い ── 学習させるか、参照させるか
「自社の資料に基づいて答えさせたい」。製薬の現場では、この要望がとても多い。ここで大切なのは、選択肢を取り違えないことです。大きく二つの道があり、性質がまるで違います。
- 参照させる (RAG) ── モデルはそのままに、質問のたびに関連資料を検索して一緒に渡す方式(=RAG、検索して補強する生成)。資料を差し替えれば答えも変わり、更新が速い。出典を示しやすく、規制業務と相性がよい。まず検討すべき第一候補。
- 学習させる (ファインチューニング) ── モデル自体に追加の訓練を施し、特定の文体や様式を覚え込ませる方式。口調や形式を安定させたいときに効くが、内容の更新には作り直しが要り、何を覚えたかが見えにくい。
製薬のように情報の正確さと更新の速さ、そして出典の明示が要る領域では、まず参照方式(RAG)から入るのが堅実です。添付文書やガイドラインが改訂されたとき、参照方式なら資料を入れ替えるだけで最新に追随できます。学習方式は「何を根拠にそう答えたか」を後から辿りにくく、審査や記録の要る業務では扱いに慎重さが要ります。
07運用の勘所 ── 選んで終わりではない
モデル選定は、一度決めたら終わりではありません。モデルは頻繁に更新され、価格も性能も動きます。半年前の最適解が、いまも最適とは限らない。運用でつまずかないための勘所を、四つに絞ります。
- 差し替えられる作りにしておく ── 特定のモデルに深く依存せず、呼び出し部分を一箇所にまとめておく。新しいモデルが出たとき、評価だけ通せば切り替えられる。
- 費用を見えるようにする ── どの処理が費用を食っているかを日々見えるようにする。見えない費用は、規模が膨らんでから初めて気づくことになる。
- 上限と代替を決めておく ── 一回の処理にかける費用や分量に上限を設け、モデルが応答しないときの代替経路も用意する。暴走と停止の両方に備える。
- 定点観測を続ける ── 評価の問題集を定期的に通し、品質の変化を追う。モデル側の更新で、静かに挙動が変わることがある。
とくに製薬の業務では、「いつ・どのモデルで・何を出したか」を記録に残すことが後々効きます。出力の根拠を問われたとき、当時の構成を再現できることが、業務としての説明責任を支えます。速さと安さを追うほど、この記録の地味な積み重ねが効いてきます。
08本サイトの他の章との接続
本回は、次の章と読み合わせると理解が厚くなります。モデル選定は単独の技術ではなく、システム全体の設計と規制の中に置かれて初めて意味を持ちます。
- AI Programming 第 9 回 ── アーキテクチャ設計 ── 選んだモデルを、どんな構造の中に組み込むか。設計相談そのものに AI を使う作法。
- 広告規制 第 1 回 ── 薬機法 ── AI が生成した文章も規制の対象。誇大は薬機法第 66 条、未承認は第 68 条、情報提供は第 68 条の 2。
- 資材審査シリーズ ── モデルの出力を最後に受け止める審査の実務。安いモデルに切り替える判断も、審査の目を通す。
モデル選定の芯は、「一番賢い道具を常に使う」ことではなく、「タスクの難しさに道具の層を合わせる」ことです。難しい判断は大きいモデルに、日常の作業は中くらいのモデルに、単純な仕分けは小さいモデルに。そのうえで、易しい仕事と難しい仕事をルーティングで振り分け、繰り返す問い合わせをキャッシュで使い回す。ここまでで、費用も待ち時間も大きく下げられます。
ただし、コストを下げる工夫は、必ず評価(eval)とセットで進めてください。「安くなった」と「品質は保てている」は別の事実で、後者は測って初めて確かめられます。製薬の現場では、キャッシュの更新漏れや根拠の辿れなさが、そのまま誤情報や説明責任の欠落につながります。速く安くする仕組みほど、更新と記録という地味な柵を先に立てておく。道具を選ぶ目と、選び続ける仕組み ── その両方が、AI を業務に根づかせる土台になります。次回は、選んだモデルを組み込む器そのもの、アーキテクチャの設計に AI をどう使うかへ進みます。
- モデルは大・中・小の三層で捉え、タスクの難しさに層を合わせる。比べる軸は単価だけでなく、精度・費用・速度・安定性の四つ。見るべきは単価ではなく「一つの仕事を完了させるまでの総額」で、安いモデルの手直し費用まで含めて判断する。
- ルーティングで易しい仕事と難しい仕事を振り分け、キャッシュ(応答キャッシュ/プロンプトキャッシュ)で繰り返しの問い合わせを使い回す。ただし製薬では、個人情報や臨床データを残さないこと、規制文書の改訂時に古い答えを確実に無効化することが柵になる。
- コスト削減は評価(eval)とセットで進める。代表的な入力から問題集を作り、変更前後で回帰チェックを通し、「品質は落ちていない」と数字で示せて初めて安いモデルへ切り替える。自社データはまず参照方式(RAG)から入り、データが提供者の学習に使われないかを事前に確認する。
- Anthropic. Pricing / Prompt caching (公式ドキュメント). Anthropic, 2025. (モデル単価とプロンプトキャッシュ仕様の一次情報として参照)
- OpenAI. API Pricing / Models (公式ドキュメント). OpenAI, 2025. (モデル階層と入出力トークン課金の一次情報として参照)
- Google. Gemini API Pricing (Google AI for Developers 公式ドキュメント). Google, 2025. (中立的なモデル価格比較の一次情報として参照)
- Lewis, P. ほか. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems (NeurIPS), 2020. (参照方式=RAG の原典として参照)
- Liang, P. ほか. Holistic Evaluation of Language Models (HELM). Transactions on Machine Learning Research, 2023. (言語モデルの評価=eval 設計の一般的枠組みとして参照)
- 厚生労働省 医薬・生活衛生局長. 医療用医薬品の販売情報提供活動に関するガイドライン. 厚生労働省, 2018. (生成物にも同じ物差しが及ぶ根拠として参照)