01ツールの類型 ── 「AI審査支援」と一括りにしない
まず、言葉をほどきます。「AI 審査支援ツール」と一口に言っても、中身は同じではありません。仕組みが違えば、得意も限界も違います。ここを混ぜたまま「AI は使えるか」と問うから、話がかみ合わなくなります。大きく分けると、次の四つです。
ルールベース照合器
禁止語や決まったパターンを、辞書と機械的に突き合わせる。第 4 回で作った禁止語の辞書がそのまま働く型。融通はきかないが、決めたものは確実に拾う。
機械学習の分類器
過去の合否データを学び、「これは引っかかりそうだ」を確率で示す。辞書に無い言い回しも拾える一方、なぜそう判定したかは説明しにくい。
生成 AI(LLM)型
大規模言語モデル(=大量の文章で学習した AI)が、指摘の理由や言い換え候補を文章で下書きする。読みやすいが、もっともらしい誤りを混ぜる。
検索・参照型(RAG)
RAG(=外部資料を検索して答えに使う仕組み)で、承認情報や過去の審査事例を引いてくる。判断は人に残し、材料集めを速める使い方。
現実の製品は、この四つを組み合わせています。禁止語はルールベースで足切りし、微妙な表現は分類器が拾い、指摘文は LLM が下書きし、根拠は検索型が引く ── といった具合です。だから道具を評価するときは、「AI かどうか」ではなく「どの部分に、どの型を使っているか」を見ます。型ごとに信頼してよい度合いが違うからです。決めた語を拾うルールベースはほぼ確実に働きます。確率で当てる分類器や、文章を書く LLM は、外すことを前提に扱います。
02できること ── 疲れず、漏らさず、速い
限界の話に入る前に、できることを正当に認めておきます。過小評価もまた誤りだからです。AI 支援ツールには、人間の審査員が構造的にかなわない強みがあります。
第一に、網羅と一貫性です。人は長い資料の後半で集中が切れ、同じ禁止語でも見る日によって判定が揺れます。機械は疲れません。何百ページでも同じ物差しで最後まで照らし、朝と夕方で結論が変わることもない。第 5 回で見た「審査員ごとのばらつき」を、機械照合の部分では消せます。
第二に、速さと検索です。過去に似た表現がどう判定されたか、承認情報のどこに触れる恐れがあるか ── 人が資料を繰って探せば数十分かかる作業を、検索型ツールは数秒で候補に挙げます。審査員が「思い出す」より速く、「引き当てる」。
第三に、下書きの生成です。指摘の理由を一から文章にするのは骨が折れます。LLM 型は、その叩き台を作れます。ゼロから書くより、出てきた下書きを直すほうが速い場面は多い。
03できないこと ── 文脈・図表・最終責任
では、道具の外にあるものは何か。ここを見誤ると過信につながるので、具体的に並べます。第 4 回でも触れた「文脈で決まる」という壁が、いちばんの核心です。
| ツールが苦手なこと | なぜ苦手か |
|---|---|
| 文脈による線引き | 同じ「効果的」でも、承認範囲の中なら適正、根拠のない場面なら誇大(第 66 条)。語だけでは決まらず、前後の文意で変わる判断は取りこぼす |
| 図表・レイアウトの含み | グラフの軸の切り方、写真の印象、注記の小ささ ── 文字にならない誇張は、文面の照合では拾えない |
| 前例の無い表現 | 学習データにない新しい言い回しや、規制の隙を突く巧妙な表現は、辞書にも過去事例にも手本がない |
| 最終の合否判断と責任 | 「この資材を世に出してよい」の決定は、規制上も倫理上も人が負う。機械は判断材料を出すだけで、責任は引き受けられない |
とりわけ危ないのが、二番目の図表とレイアウトです。誇大は言葉だけに宿るのではありません。有効性のグラフで縦軸の起点をずらせば、わずかな差が劇的に見えます。安全性の注記を読めない大きさに落とせば、リスクが目立たなくなります。文面を機械が「合格」と出しても、資材全体が与える印象は行き過ぎている ── これは、いまのツールがほぼ手を出せない領域です。
そして四番目。最終責任は人にしか負えません。これは技術の未熟さの問題ではなく、規制と倫理の建て付けの問題です。薬機法も販売情報提供活動ガイドライン(=販提G、後述)も、責任の主体を人と組織に置いています。「AI が通したから」は、どの審査でも通用しません。この一点は、ツールがどれだけ賢くなっても動きません。
04過信のリスク ── 「ツールが通したから安全」の落とし穴
できること・できないことを踏まえると、いちばん警戒すべき失敗の形が見えます。自動化バイアス(=機械の出した答えを、確かめずに正しいと思い込む傾向)です。人は、ツールが「問題なし」と表示すると、自分の目で見る手を緩めます。これは意志の弱さではなく、人の注意が持つ性質として古くから知られています。
審査の現場でこれが起きると、どうなるか。ツールが見逃した誇大表現を、人も素通りさせます。二重の柵のはずが、二つとも同じところで開いてしまう。しかも厄介なのは、ツールを使うほど審査員の目が鈍ることです。機械に頼る作業が続くと、自分で判断する筋力が落ちる ── 自動化の古典的な皮肉として指摘されてきた現象です。ふだんツール任せの審査員ほど、いざ機械が間違えたときに気づけません。
過小評価の逆もあります。一度ツールが的外れな指摘をすると、「使えない」と全部を切り捨てる。すると、機械が得意な網羅と一貫性の利点まで手放します。過信と過小評価は、同じ「距離感の失敗」の裏表です。正しい距離は、得意な部分は任せ、苦手な部分は疑うという、部分ごとの使い分けの中にあります。
05導入判断 ── 何を、どこまで任せるかを先に決める
では、実際にツールを入れるかどうか、どう決めるか。売り込みの派手さや価格の安さで決めるのは、いちばん避けたい進め方です。判断の軸は、次の順で立てます。
- 目的を先に決める ── 網羅的な足切りが欲しいのか、指摘文の下書きが欲しいのか、過去事例の検索が欲しいのか。ほしい働きを一つに絞ると、必要な型(第 1 節)が決まる
- 用途を足切りに限る ── 通過の判断まで任せない。ツールは「人が見る価値のある候補」を絞る道具として位置づける。合否の決定は人に残す
- 小さく試す ── いきなり全社導入せず、過去に判定の分かっている資材で試す。実際の見逃しと誤検知を、自分の目で確かめてから広げる
- 保守と費用を見る ── 承認情報が変わるたびに辞書やモデルの更新が要る。導入費より、使い続ける費用と手間のほうが効く
もう一つ、製薬の現場で外せない軸があります。機密データの扱いです。審査にかける資材は、未公開の製品情報や社内の判断を含みます。それを外部のクラウドに送る仕組みなら、情報がどこに保存され、学習に使われないか、契約でどう守られるかを確かめます。便利さと引き換えに機密を漏らせば、審査を助けるどころの話ではありません。
| ツールに任せてよい | 人が握り続ける |
|---|---|
| 禁止語や決まったパターンの機械照合 | 文脈をふまえた誇大・適正の最終判断 |
| 承認情報・過去事例の検索と候補出し | 図表・レイアウトが与える全体の印象の評価 |
| 指摘理由の下書き(人が直す前提) | 「世に出してよい」の合否決定と、その責任 |
この表の右側 ── 人が握り続ける列 ── を、ツール導入で明け渡さないこと。ここを守るかぎり、どの製品を選んでも大きくは外しません。逆に、右側まで機械に委ねる前提の製品なら、どれだけ高機能でも見送るべきです。
06検証の作法 ── 使う前に、見逃しを測る
導入を決めても、そのまま本番に載せてはいけません。ツールは使う前に検証する。しかも、検証の力点をどこに置くかが肝心です。結論から言えば、見逃しを最優先で測ります。
まず、正解のわかった資材の束 ── 過去に人が判定を確定させたもの ── を用意します。適正なものと、問題のあるものの両方を混ぜます。これをツールにかけ、二種類の誤りを別々に数えます。見逃し(=問題のある資材を「合格」と出す)と、過検知(=適正な資材を「不合格」と止める)です。この二つは性格がまるで違います。
検証は一度で終わりません。承認情報が改訂され、新しい違反の型が現れれば、ツールの実力も変わります。だから定期的に測り直す。第 4 回で述べたルールの版管理と同じ発想で、「いつ・どの正解セットで・どんな成績だったか」を記録に残します。こうしておけば、後から「この時期の審査は、この実力のツールで支えていた」と説明できます。監査や指摘があったとき、これがものを言います。
もう一点。ツールの成績は、人の審査と比べて意味を持ちます。人が見逃す率とツールが見逃す率を並べ、二つを組み合わせたときに全体の見逃しがどれだけ下がるかを見る。ツール単独の点数ではなく、「人+ツール」の合わせ技でどこまで柵が固くなるか ── これが本当に知りたい数字です。
07他章との接続 ── 道具を、審査の設計の中に置く
本回で見た「道具との距離の取り方」は、このシリーズの他の回と次のようにつながります。ツールは単体で効くのではなく、審査全体の設計の中に置いて初めて働きます。
- AI資材審査 第 4 回 ── ルール設計 ── 本回のルールベース照合器が使うのは、第 4 回で作った禁止語と承認情報の辞書。道具の中身は、設計したルールそのもの
- AI資材審査 第 5 回 ── 審査の標準化とAI ── ツールの網羅と一貫性は、審査員ごとのばらつきを消す手段。標準化の道具立てとして本回を読み合わせる
- AI Programming 第 1 回 ── コード生成の基礎 ── 「動いた」は「正しい」ではないという検証の発想は、ツールの成績を正解セットで測る作法とまったく同じ骨格
- AI Marketing 第 1 回 ── マーケティング再定義 ── 大量生成される販促物を受け止める側の道具立て。作る側と審査する側は、AI という同じ道具を裏表で使う
AI 審査支援ツールは、魔法でも役立たずでもありません。量をさばく仕事 ── 網羅・一貫・検索 ── では人にかなわない力を出し、質を決める仕事 ── 文脈の線引き、図表の含み、最終の合否と責任 ── では人の外にとどまります。この境目を見誤ると、二つの失敗が待っています。任せすぎて見逃す過信と、切り捨てて利点を捨てる過小評価。どちらも、道具との距離を間違えた姿です。
正しい距離は、部分ごとの使い分けの中にあります。得意な足切りは任せ、苦手な判断は疑う。「合格」は免罪符ではなく、人が確かめる出発点。使う前には見逃しを最優先で測り、承認情報が変わるたびに測り直す。そして最終の責任は、けっしてツールに預けない。この構えを崩さないかぎり、AI は審査員を速く、確かにします。次回は、その審査が「いつ・誰が・どう判断したか」をどう残すか ── 審査記録と監査証跡、そして是正までを扱います。
- 「AI 審査支援ツール」は一枚岩ではない。ルールベース照合・機械学習の分類器・生成 AI(LLM)型・検索参照(RAG)型で、信頼してよい度合いが違う。決めた語を拾うルールベースはほぼ確実、確率で当てる分類器や文章を書く LLM は外す前提で扱う。評価は「AI かどうか」でなく「どの部分にどの型を使うか」で見る。
- ツールが得意なのは量をさばく仕事(網羅・一貫・検索・下書き)。苦手なのは質を決める仕事 ── 文脈による誇大・適正の線引き(第 66 条)、図表やレイアウトの含み、前例の無い表現、そして最終の合否と責任。責任は規制上も倫理上も人にしかなく、「AI が通したから」は通用しない。MR が扱えるのは情報提供までで、価格・在庫・納期など取引条件は範囲外という線も、道具に越えさせない。
- 過信(自動化バイアス)と過小評価は、距離感の失敗の裏表。正しい距離は部分ごとの使い分けにある。導入は目的を絞り、用途を足切りに限り、小さく試し、保守費と機密の扱いを確かめる。使う前に正解セットで見逃しを最優先に測り、過検知より見逃しの少なさを重視し、定期的に測り直して版を記録する。
- 厚生労働省. 医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(薬機法)第 66 条・第 68 条・第 68 条の 2.(誇大広告の禁止、承認前医薬品等の広告禁止、販売情報提供活動における情報提供の適正化の各条文)
- 厚生労働省 医薬・生活衛生局長. 医療用医薬品の販売情報提供活動に関するガイドライン. 薬生発 0925 第 1 号, 2018 年 9 月 25 日(2019 年 4 月 1 日適用).(情報提供活動の対象・方法・体制を定めた一次資料)
- 厚生労働省 医薬・生活衛生局 監視指導・麻薬対策課長. 医薬品等適正広告基準の改正について. 薬生監麻発 0929 第 5 号, 2017 年 9 月 29 日.(薬機法の広告規制を実務基準に落とした通知。発出者は監視指導・麻薬対策課長)
- Parasuraman, R. & Manzey, D. H. Complacency and Bias in Human Use of Automation: An Attentional Integration. Human Factors, Vol. 52, No. 3, 2010.(自動化バイアス=機械の出力を確かめずに信じる傾向を体系的に整理した原典)
- Bainbridge, L. Ironies of Automation. Automatica, Vol. 19, No. 6, 1983.(自動化が進むほど人の判断力が鈍るという「自動化の皮肉」を論じた古典)
- Ji, Z. ほか. Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, Vol. 55, No. 12, 2023.(生成 AI がもっともらしい誤りを出す仕組みを体系的にまとめた総説)