01プロンプトとは何か ── 「指示文」を厳密に定義する

プロンプト(prompt、=AI に渡す指示文)とは、大規模言語モデル(=大量の文章で学習した AI)に与える入力テキストを指します。「この文章を要約して」「以下の条件で見出しを 3 案出して」といった一文から、役割・前提・制約・出力形式まで細かく指定した数百語の文章まで、どれもプロンプトです。

まず一つ押さえておきたい。AI は「正しさ」を計算しているのではなく、「次に来そうな言葉のもっともらしさ」を計算している。だから、指示がわずかに違うだけで出力は変わります。同じ意図でも、書き方が曖昧なら答えも曖昧に、書き方が具体的なら答えも具体的に返る。プロンプトエンジニアリングは、この性質を逆手に取り、出力を望む方向へ寄せる作業です。

製薬の現場に置き換えると、これは資材の下書き、症例要約、規制文書の読み解き、社内 FAQ の起案など、日々の文章仕事のすべてに関わってきます。頼み方が人によってばらつくと、担当者が代わるたびに品質もぶれます。手順として言葉にしておけば、チームの誰が回しても一定の質を保てます。

02指示の構造化 ── 曖昧さを削る四つの部品

良いプロンプトは、行き当たりばったりの一文ではなく、部品の組み合わせでできています。実務でまず効くのは、次の四つを明示的に分けて書くことです。

Part 01

役割 (Role)

"誰として" 答えるかを決める

「あなたは製薬企業の資材審査担当です」のように立場を与えると、語彙と観点がその役割に寄ります。専門性と慎重さの度合いをここで設定します。

Part 02

文脈 (Context)

"何を前提に" するかを渡す

対象読者、承認された効能・効果、使ってよい表現の範囲など、判断に必要な材料をここでまとめて渡します。渡し忘れた前提は、AI が勝手に埋めます。

Part 03

指示 (Instruction)

"何を" させるかを一つに絞る

「要約して、かつ見出しも作って」と欲張ると精度が落ちます。タスクは一つずつ。複数あるなら分けて呼ぶのが基本です。

Part 04

出力形式 (Format)

"どんな形で" 返すかを縛る

箇条書き 3 点、表形式、200 字以内など、形を先に決めると後工程が楽になります。機械的に処理したいなら JSON など構造化した形式を指定します。

この四つを分けて書くだけで、出力の安定度は目に見えて上がります。なかでも 文脈(Context)の渡し忘れが、製薬では最大の事故源です。承認外の効能を書かせないためには、「使ってよい効能はこれだけ」という枠を、指示のたびに文脈として渡す。枠がなければ、AI は自由に「盛って」しまいます。

03few-shot の使い方 ── 手本を数例見せて型を移す

few-shot prompting(=数例の手本を先に見せてから本題を頼む方法)は、最も費用対効果の高い技法の一つです。言葉で細かく指示する代わりに、「入力 → 望ましい出力」の組を 2〜5 例ならべて見せ、最後に本番の入力を置く。AI はその型を読み取り、同じ調子で答えを返します。

この手法が効くことは、GPT-3 を発表した Brown ら(2020)が大規模に確かめました。手本を一つも与えない zero-shot(=手本ゼロ)、一つだけの one-shot、数例の few-shot を比べると、多くの課題で手本を増やすほど精度が上がる。学習をやり直さなくても、プロンプトに例を入れるだけで振る舞いを変えられる ── これが few-shot の核心です。

実務での使いどころは、次のような場面です。

ただし手本の選び方には注意がいります。手本に偏りがあると、その偏りごと真似します。誇張気味の例を混ぜれば誇張した出力を、古い言い回しを混ぜれば古い出力を返す。few-shot は「見せた通りに寄る」技法です。だから、手本そのものが承認内容や規範に沿っているかを、先に人が確かめておく必要があります。

04Chain-of-Thought(思考の連鎖)── 過程を書かせて精度を上げる

Chain-of-Thought prompting(CoT、=思考の連鎖。答えだけでなく途中の考えも書かせる方法)は、Wei ら(2022)が提唱した技法です。計算問題や論理問題で、「答えを出して」ではなく「順を追って考えてから答えて」と頼むと、正答率が上がることを示しました。人間が途中式を書くと計算ミスが減るのと似ています。

関連して Kojima ら(2022)は、「順を追って考えましょう」の一文を添えるだけでも、手本なしで推論の質が上がる場合があると報告しました。CoT は、複雑な判断を一息に出させるのではなく、途中の根拠を言葉にさせて飛躍を防ぐ手法だと理解してください。

製薬の実務では、CoT は次のように役立ちます。

過程は "見せる" が、鵜呑みにしない: CoT で書かれた「考えの過程」は、あくまでもっともらしい説明であって、AI が本当にその筋道で判断した保証ではありません。過程が正しそうに見えても結論が間違っていることはあります。過程は人が検証する手がかりとして使い、最終判断は必ず人が担ってください。特に薬機法の該当性判断など、誤れば重い結果を招く領域では、AI の説明を根拠にそのまま公開してはいけません。

05出力の評価 ── 「良さそう」を測れる基準に変える

プロンプトを工夫すると出力は良くなります。しかし「良くなった気がする」では、仕事には使えません。プロンプトエンジニアリングの後半は、出力を客観的に評価する仕組みづくりです。感覚ではなく、あらかじめ決めた物差しで測る。

評価の軸は、少なくとも次の三つに分けて考えると整理できます。

評価の軸何を確かめるか
事実性 (正確さ)数値・効能・引用が、承認内容や一次資料と一致しているか。ハルシネーション(=もっともらしい嘘)が混じっていないか
規範適合 (守れているか)薬機法・販提 G・適正広告基準に照らして、書いてはいけない表現が入っていないか
体裁・一貫性指定した形式・文字数・トーンを守っているか。同じ指示で毎回ぶれずに出るか

大切なのは、評価を作る人と、プロンプトを書く人を分けることです。書いた本人が「良い」と判断すると、どうしても自分に甘くなります。別の担当、別の観点で評価する ── この切り分けが、品質の水増しを防ぎます。人手の評価に加えて、少数の代表例に「期待する答え」を用意し、プロンプトを変えるたびにそこへ照らす。これも有効です。

06回帰テスト ── プロンプトを「壊れたら気づける」状態に保つ

プロンプトは一度うまく書けても、それで安泰ではありません。文面を少し直したとき、使う AI のバージョンが上がったとき、以前は正しく出ていた出力が静かに崩れることがあります。これを人手で毎回すべて確かめるのは、現実的ではありません。だから 回帰テスト(=以前通っていた挙動が今も通るかを繰り返し確認する仕組み)を用意します。

やり方の骨格はシンプルです。

製薬では特に、「誇大にあたる表現を出さないか」「承認外の効能を書かないか」を確かめるテスト例を、意図して集めておくことが効きます。危ない入力をわざと投げ、AI が踏みとどまるかを見る。コードの世界で言う「壊れやすい箇所ほど厚くテストする」考え方と同じです。次回(第 4 回)で扱うテスト生成の話とも、まっすぐつながります。

07よくある落とし穴 ── 現場で繰り返される失敗

プロンプト設計でつまずく点は、だいたい決まっています。先に知っておくと避けられます。

これらはどれも、技術というより設計の規律の問題です。頼み方を言葉にし、前提を明示し、評価を切り分け、テストで守る。派手な小技より、この地味な規律が品質を支えます。

08本サイトの他の章との接続

プロンプト設計は、本サイトの他の章と次のように繋がります。読み合わせると、点が線になります。

結語

プロンプトエンジニアリングは、魔法の呪文を探す作業ではありません。指示を四つの部品に分け、必要なら手本を見せ、複雑な判断は過程を書かせる ── どれも「曖昧さを削り、飛躍を防ぐ」ための地味な工夫です。そのうえで出力を、感覚ではなく決めた物差しで評価し、回帰テストで守り続ける。ここまでやって初めて、プロンプトは「たまたま良かった一発」から「誰が回しても同じ結果が出る仕組み」に変わります。

製薬の現場では、この再現性がそのまま安全性につながります。AI が速く書けても、薬機法は緩みません ── 誇大は 66 条、未承認は 68 条、情報提供は 68 条の 2。問われるのは「誰が書いたか」ではなく「何が書かれているか」です。プロンプトを設計として言語化し、評価とテストで囲うこと。それが、生成 AI を規制の内側で使いこなすための、いちばん確かな足場になります。次回は、この「テストで守る」発想を、AI と一緒に書くテストと TDD の話へ進めます。

Key Points ── 持ち帰る 3 つ
  1. プロンプトは「役割・文脈・指示・出力形式」の四部品に分けて書くと安定する。特に文脈(承認された効能や対象読者)の渡し忘れが製薬では最大の事故源で、渡さない前提は AI が勝手に埋める。
  2. few-shot(手本を数例見せる)と Chain-of-Thought(過程を書かせる)は、訓練し直さずに出力を良くする実証済みの技法。ただし手本の偏りはそのまま移り、書かれた「考えの過程」は説明であって証明ではない。結論は人が独立に検証する。
  3. プロンプトは一度書いて終わりではない。事実性・規範適合・一貫性の三軸で評価し、書く人と評価する人を分け、代表例と期待出力を使った回帰テストで「壊れたら気づける」状態に保つ。薬機法は AI が速くなっても緩まない。
出典·参考文献
  1. Wei, J., Wang, X., Schuurmans, D., et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. Advances in Neural Information Processing Systems (NeurIPS) 35, 2022 (arXiv:2201.11903). (思考の連鎖の原論文)
  2. Brown, T. B., Mann, B., Ryder, N., et al. Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems (NeurIPS) 33, 2020 (arXiv:2005.14165). (GPT-3。few-shot の大規模検証)
  3. Kojima, T., Gu, S. S., Reid, M., et al. Large Language Models are Zero-Shot Reasoners. Advances in Neural Information Processing Systems (NeurIPS) 35, 2022 (arXiv:2205.11916). (手本なしでも推論を促せることの報告)
  4. 厚生労働省. 医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(医薬品医療機器等法)第 66 条・第 68 条・第 68 条の 2. (誇大広告=66 条、未承認医薬品等の広告禁止=68 条、情報提供義務=68 条の 2)
  5. 厚生労働省医薬・生活衛生局長. 医療用医薬品の販売情報提供活動に関するガイドライン. 2018 年 9 月 25 日通知(薬生発 0925 第 1 号). (販売情報提供活動の規範)
  6. 厚生労働省医薬・生活衛生局監視指導・麻薬対策課長. 医薬品等適正広告基準の解説及び留意事項等について. 2017 年 9 月 29 日通知. (薬機法第 66 条の運用ルール)