多人数AI対話 ── 裏取りで他者水準、乖離で校正

同じ人を二人が見て、片方は「あの人は上級だ」、もう片方は「まだ中級どまり」と言う。よくあることだ。二人は違う場面を見ていて、立っている位置も違う。だから測定を一人に任せると、その一人の見落としがそのまま結果になってしまう。今回は、複数の人の見方を一つの数字に束ねる方法を扱う。鍵は「多い方を採る」ではなく「裏を取る」こと。「平均する」ではなく「重みをつけて真ん中を採る」ことだ。

なぜ一人では測れないのか

出発点は単純だ。「一人の見方は必ずどこかに偏る」。たとえば健康診断を一人の医者だけに任せると、その医者が見落とした項目はそのまま見落とされる。仕事の能力も同じで、知識や危険を察知する力は一緒にレビューをした同僚がいちばんよく見えているし、人への伝え方や信頼関係は上司や、その人から指摘を受けた現場担当がよく見えている。つまり、誰が証言しても同じ価値ではない。ある場面について、その行動を実際に見ていない人の評価は、どれだけ自信たっぷりでも中身が薄い。

だから今回の設計は、評価する人を「役職」ではなく「どの場面を実際に見たか」で選ぶ。一つひとつの能力について、その場面をよく見ていた人が最低2人当たるように組む。立場のバラバラさそのものが目的ではない。「その行動を見たかどうか」がまず先に来る。なぜなら、見ていない人の票をいくら集めても、見ていないという事実は変わらないからだ。

「ちゃんと見ていたか」と票の重み

そこで各評価者について、その能力をどれだけよく見えていたかを表す数字を出す。これを「観測可能性 o」と呼ぶ。日常語で言えば「その場面の見やすさ」だ。考え方はこうだ ── 立場として見えやすい位置にいたか、そして実際にその証拠(具体的な出来事)を語れるか。この二つを掛け合わせる。だから、いくら偉い上司でも、その能力について具体的な出来事を一つも語れなければ、見やすさの点数は下がる。役職ではなく証言が重みを決める、というわけだ。

票の重みは、この「見やすさ」に「読みの確かさ」を掛けて決める。確かさ(信頼度 C)は前回までで定義した、証拠の数・つじつまの合い方・見やすさから出てくる「その読みがどれだけ信用できるか」だ。式にすると w = o × C、つまり重み＝見やすさ×確かさとなる。ちゃんと見えていて(o)、しかも証拠が揃って矛盾もない(C)ときだけ、その人の一票は重くなる。写真に例えれば、ピントが合っていて(o)、しかもブレずに何枚も同じものが写っている(C)写真だけが、証拠として強く効く ── そういう仕組みだ。

同僚の意見の束ね方 ── 平均でも多数決でもなく裏取り

ここが今回のいちばん大事なところだ。複数の同僚の評価を一つにまとめるとき、平均も単純な多数決も使わない。「裏取り(corroboration)」を使う。裏取りとは、新聞記者が一人の証言だけでは記事にせず、複数の人に確認が取れて初めて書く、あのやり方だ。

考え方を言葉で言うと、こうだ。各段階(たとえば「上級以上」)について、「その段階以上だと言っている人たちの重みの割合」を計算する。その割合が、あらかじめ決めた「裏取りライン(θ)」を超えている、いちばん高い段階を採用する。式で書けば、段階ℓについて重みの割合 φ を出し、L_other(他者から見た水準)＝ φ が θ を超える最高のℓ、となる(Wは同僚たちの重みの合計)。ただし式は飛ばしてかまわない。要は「過半の重みが支持した段階だけが通る」ということだ。

裏取りラインの初期値は0.5。これは「重みをつけた真ん中の値(重みつき中央値)」にあたる。意味ははっきりしている。一人だけが高く評価しても、重みの過半がその段階を支持しなければ、水準は上がらない。裏が取れて初めて上がる。なぜこうするのか ── 平均だと、一人の極端な高評価が全体を引っ張り上げてしまう。多数決だと、見ていない人の一票も見ていた人の一票も同じ重さになってしまう。裏取りなら、その両方を防げる。ラインを0.5より上げれば、高い段階ほど強い裏付けを求める、より慎重なやり方になる。

自己評価とのズレ ── 能力ではなく校正

本人も同じAI聞き取りを受けて、自分の水準(L_self)を出す。これと、同僚たちをまとめた水準(L_other)との差が「ズレ(乖離Δ)」だ。式は単純で Δ＝自己評価−他者評価。プラスなら自分を高く見ている(過大申告)、マイナスなら低く見ている(謙遜)、ゼロに近ければ自己認識が正確、ということになる。

ここで絶対に踏み外してはいけない一線がある。このズレは「能力」ではない。「自分をどれだけ正確に見ているか」だ。だから原典はきっぱり言う ── 「ズレは能力の点数に足したり引いたりしない。別の欄に置いて、自己認識の質として読む」。自分を高く見積もる人の水準を罰として下げることもしないし、謙虚な人の水準を情けで上げることもしない。他者評価は他者評価のまま、ズレはその横に並べておく。なぜそうするのか ── たとえば健康診断で、本人の自己申告(自分は健康だと思う)と検査結果は別々に記録するのが当たり前だ。二つを混ぜたら、どちらも信用できなくなる。座標・能力・自己認識という三つの層を、最後まで混ぜないのがこの設計の背骨だ。

評価者どうしの一致 ── そもそも測れているか

同僚たちの評価がてんでバラバラなら、その能力の測定はまだ成立していない。スポーツで複数の審判の判定が大きく食い違うとき、まず疑うべきは選手ではなくルールの解釈がそろっていないことだ ── それと同じ発想で、評価者どうしの一致度(Ag)を見る。考え方は「段階が1つ違うくらいは許す」。式では、二人組のうち差が1段以内に収まっている割合を取る(Ag＝差が±1段以内のペア数÷全ペア数)。「上級」と「準上級」で割れているのは解釈の幅の範囲だが、「初級」と「上級」で割れているなら、そもそも物差しの読み方が人によって違う、ということだ。

判定を確定してよい条件(成立条件G0)は、三つを同時に満たすことを求める ── 重みの合計が一定以上、一致度が一定以上、そして「見やすさ0.7以上」の同僚が2人以上。どれか一つでも欠けたら、判定はいったん保留にする。そして基準合わせの会議(キャリブレーション会議)で物差しの読み方をそろえてから測り直す。原典の言葉では「一致が低い＝物差しの解釈がそろっていないサインであり、人を裁く前に基準を直す」。一致の低さを「評価される側の問題」と取り違えてはいけない。それは測る側の問題だ。なぜなら、審判の意見が割れたのを選手のせいにはできないからだ。

本人と同僚で問いを変える

AIは同じ聞き取りの骨組みを、相手に合わせて言い換える。共通するのは、「もし〜だったら」という仮定を一切問わず、実際にあった過去の出来事だけを掘ること。なぜなら、人は仮定の質問には理想を答えてしまい、実際の行動は出てこないからだ。本人へは「あなたが実際に〜した一件を教えてください」と尋ね、その判断の拠りどころ(どれだけ広い原則で考えたか＝抽象度α)や、行動がどこまで届いたか(視野σ)を引き出す。同僚へは「あなたがその人の〜を見た一件を」と尋ね、チーム全体の成果の中から、その人個人が実際にやったことを切り分ける。両方に共通の禁じ手は、誘導したり、仮定を聞いたり、複数のことを一度に聞いたり、意見を求めたりしないこと。そして抽象的な言葉が出たら必ず具体的な行動に戻すこと(「具体的には? 次に何をしましたか?」)だ。

能力ひとつ分の通し計算

原典の計算手順を、料理のレシピのように言葉で追ってみる。まず本人と各同僚がそれぞれ聞き取りを受け、具体的な出来事から座標を出して段階(L)を得る。次に同僚たちの重みを合計し、各段階で「重みの割合が裏取りラインを超える最高の段階」を他者評価(L_other)とする。本人の評価からこの他者評価を引いてズレ(Δ)を出す。同僚どうしの「1段以内に収まったペアの割合」で一致度(Ag)を出す。重み・一致度・見やすい人の数という成立条件を満たさなければ判定保留(要・基準合わせ)、満たせば、座標・他者評価・自己評価・ズレ・偏り(b)・確かさ(C)をひとまとめにした記録を返す。この一連の手続きがあって初めて、段階は「なんとなくの印象」ではなく「実際の行動という証拠との一致度」として確定する。

測定設計（行動証拠とAI対話） ── 全 10 回の地図

第 1 回: 印象と自己申告の危うさ ── 測るのは「発揮された行動」だけ ── 第3シリーズ「測定設計」の出発点。なぜL(その人の到達した実力ランク)を本人の自己申告で決められないのか、測る対象を「実際にやった行動」だけに絞る理由と、聴き取り手順・評価のものさし・点数の付け方を一本に束ねる考え方を、やさしく解説する。
第 2 回: STARで聴く ── 状況・課題・行動・結果・思考 ── 過去に実際に起きた出来事を一つだけ取り上げ、「どんな場面で(状況)・何を任され(課題)・自分は何をして(行動)・どうなったか(結果)・なぜそう判断したか(思考)」の五つに分けて聞く。聞く時間の半分以上を「行動」に使い、やったことを動詞で書き取り、「結果」で本当に起きたかを確かめ、「思考」で判断の根っこを引き出す。
第 3 回: 二軸への符号化 ── 行動が視野を、思考が抽象度を露わにする ── 面接で聴いた一つの「やったこと」の話を、どこまで広く動けたか（視野σ）・どんな筋で考えたか（抽象度α）・本当にあった話か（接地g）の三つに翻訳する手順を、資材チェックの実例で具体化する回。
第 4 回: BEIの6原則 ── 測定値の汚染を防ぐ公理 ── 人が語った「実際にやったこと」を、考えの深さ・行動の届く範囲・実話の裏付け、という3つのものさしに置き換える。そして「裏付けのある中で一番高い実力」をその人の読みとする。この置き換えを濁らせないための、6つの聞き方の作法を身近な例で説明する。
第 5 回: 三つの帯 ── 抽象度α・視野σ・接地g の尺度 ── レベルを決める前に、聴き取った行動を測るための三つのものさし(判断の高さ・行動の広さ・事実の裏づけ)を決める回。点数ではなく「段」で測る。
第 6 回: Lの決め方 ── 接地天井と本道への射影 ── 裏づけのない話はレベルを上げない。実際の行動で確かめた到達点だけを採り、二つのものさしをならしてLを読む。
第 7 回: レベルを分ける観察行動 ── 8次元アンカーと境界 ── 「どんな行動をしたか」の見本帳(アンカー表)を使い、本人の話を一番近い見本に当てはめてレベル(L1〜L4)を決める。8つの能力すべてを同じやり方で測る回。
第 8 回: 信頼度と観測可能性 ── その読みをどれだけ確定してよいか ── 「その評価はどれくらい確かか」を数で持つ回。証拠の数・話の筋・見える立場から確からしさ(信頼度C)を出し、見えていたかと証拠を出せたかから観測可能性oを決め、両方を掛けた重みwで最後の集計に渡す。
第 9 回 (本回): 多人数AI対話 ── 裏取りで他者水準、乖離で校正 ── 一人の目では人は測れない。本人と複数の同僚が同じ聞き取り(BEI)を受け、「その場面をちゃんと見ていたか」で各人の票に重みをつけ、裏が取れた読みだけを束ねて他者から見た水準を出す。本人の自己評価とのズレは、能力ではなく「自分をどれだけ正しく見ているか」として別の欄に置く。
第 10 回 (最終回): 統合出力から当確ラインへ ── レコードと運用手順 ── 第3シリーズ「測定設計」最終回。一人ひとり・一項目ごとに作る「成績票」が、どの数値を合否判定のどの関門に渡すか。そして測定を実際に回す7つの手順を、専門用語を日常語に置き換えながら平易に解説する。

結語

多人数の設計が変えるのは、測定の主役が「優れた一人の評価者」から「裏の取れた複数の証言」へ移ることだ。一人の見落としを別の人の観察が埋め、裏取りラインが一票の暴走を止め、評価者どうしの一致が「測る側の準備不足」をあぶり出す。こうして段階は、たまたま誰が見たかに左右されない値へ近づいていく。

そして自己評価とのズレは、別の欄に静かに置かれる。それは能力の加点でも減点でもなく、本人がどれだけ正確に自分を見ているかの記録だ。能力(他者評価)と自己認識(ズレ)を決して混ぜない ── この一線を守るかぎり、測定は人を裁く道具ではなく、育成の入口であり続ける。

Key Points ── 持ち帰る 3 つ

裏取りで他者から見た水準を出す ── 同僚の評価は平均でも多数決でもなく、「ちゃんと見ていたか(見やすさ)×読みの確かさ」で重みづけし、複数の証言が裏付けて初めて採用する。初期ラインは0.5(重みをつけた真ん中)なので、裏の取れない一票では水準は上がらない。
自己評価とのズレは能力でなく校正 ── ズレ＝自己評価−他者評価は「自分をどれだけ正確に見ているか」であって、能力には足し引きせず別の欄に置く。自分を高く見る人を罰せず、謙遜する人を褒め上げない。健康診断で自己申告と検査結果を別々に記録するのと同じだ。
評価がバラついたら判定を止める ── 評価者どうしの一致(段階差1つまでは許す)が低い、または見やすい同僚が2人に満たないなら、人を裁く前に基準合わせの会議で物差しの読み方をそろえる。割れたのは測る側の問題で、測られる人の問題ではない。

出典・参考文献

McClelland, D. C. Testing for Competence Rather Than for "Intelligence". American Psychologist, 1973.(行動証拠による測定の起点)
Boyatzis, R. E. The Competent Manager: A Model for Effective Performance. Wiley, 1982.(BEI=行動結果面接の基礎)
Cohen, J. A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measurement, 1960.(評価者間一致κの古典。Agの思想的源流)
Smith, P. C., & Kendall, L. M. Retranslation of Expectations: An Approach to the Construction of Unambiguous Anchors for Rating Scales. Journal of Applied Psychology, 1963.(行動アンカーと解釈の擦り合わせ)
Spencer, L. M., & Spencer, S. M. Competence at Work: Models for Superior Performance. Wiley, 1993.(BEIによるコンピテンシー判定の実務)

← 測定設計（行動証拠とAI対話）一覧に戻る