信頼度と観測可能性 ── その読みをどれだけ確定してよいか

水準Lの数字が出ても、それで話は終わらない。同じ「L3」でも、具体的な過去のできごとを5件積んで矛盾なく語られたL3と、たった1件、しかも本人の言い分だけのL3では、確かさがまるで違う。この差を数で持っておかないと、薄い証拠の読みと厚い証拠の読みが、同じ重さでまとめられてしまう。健康診断で何度も測った血圧と、一度だけの測り値を同じ扱いにはしないのと同じだ。第8回は、読みがどれだけ確かかを表す「信頼度C」と、その人がそもそもその項目を見えていたかを表す「観測可能性o」を決め、二つを掛けた重みでまとめに渡す仕組みを扱う。

確定してよい読みと、いったん保留にする読み

第6回・第7回で、評価する人は一人ひとり、相手が実際にできた最高レベル(これを水準Lと呼ぶ)を読み取った。でも、その読みには「厚み」の差がある。たくさんの具体例で裏づいた読みもあれば、心もとない読みもある。原典(Part3.2)はこの確かさを信頼度Cと名づける。Cが低ければ、たとえLの数字が出ていても確定させない。いったん保留にして、証拠を足すか、別の人に見てもらう。

たとえ話をしよう。料理コンテストで一皿だけ食べて「この人は名人だ」と決めるのは危うい。何皿も食べ、しかも味がぶれていなければ、はじめて自信を持って言える。なぜ確定と保留を分けるのか。それは、薄い根拠の判定を最終結論に混ぜると、全体がそれに引っぱられるからだ。判定を確定してよい条件は三つ。証拠が足りているか、話に筋が通っているか、そもそもその人がそれを見えていたか。一つでも欠ければCは下がり、読みは仮の値になる。順に見ていこう。

信頼度Cの三つの問い

難しい式が出てくるが、中身はやさしい三つの質問だ。Cは「①証拠は足りているか」「②話は矛盾していないか」「③その人はそれを見える立場だったか」の三つを、それぞれ0から1の点数にして、足し合わせたもの。式を飛ばしても、この三つを思い出せば十分だ。

第一の問い、証拠は足りているか。これを「飽和(さち)」と呼ぶ。具体的なできごと(裏づけのある証拠)が何件あるかを数え、3件そろえば満点とする。1件だけなら3分の1点。なぜ3件か。1件きりだと、たまたまうまくいった偶然かもしれない。何度も繰り返せて初めて「実力」と言える。第二の問い、話は矛盾していないか。これを「整合(せいごう)」と呼ぶ。同じ人の経験・考え・大事にしていることが、互いにぶつからないか。困難な場面で語った「こう判断した理由」が、別の話とかみ合わなければ、点は下がる。第三の問い、その人はそれを見える立場だったか。これを「観測可能性」と呼び、次の章でくわしく扱う。
(式での目安: C = 重み×飽和 + 重み×整合 + 重み×観測可能性。飽和は「件数÷3、ただし上限1」。)

観測可能性o ── 見えていなければ重くしない

観測可能性oとは「その人がその項目をちゃんと見えていたか」の度合いだ。原典(Part4.1)はこれを、二つの掛け算で決める。一つは「立場として見えやすいか(観測適性)」、もう一つは「実際に証拠を出せたか」。掛け算なのが肝心だ。たとえ見えやすい立場でも、具体的な証拠を一つも出せなければ、後ろの数がほぼゼロになり、掛け算の答えoも下がる。

なぜ掛け算にするのか。立場の名前だけで重くしないためだ。サッカーで、いい位置にいた審判でも、その反則の瞬間を実際に見ていなければ笛は吹けない。同じことだ。たとえば上長は、部下の信頼の厚さ(信頼密度)を観やすい立場にいる。でも「この人の判断が押し返された/通った」という具体的な場面を一つも語れなければ、その項目でのoは低い。逆に、指摘を受けた現場担当は、伝え方や「人を自発的に動かせたか」という限られた項目について、自分が初稿をどう直したかという生きた証拠を持つ。だからその項目ではoが高くなる。

立場ごとの「見えやすさ」

誰がどの項目を見えやすいかは、肩書きではなく、実際にその場に居合わせたかで決まる。原典の組み方の表を、見えやすさの出発点として示す。料理の味見と同じで、厨房にいた人ほど作り手の腕がよく見える。

評価する人の立場	見えやすい項目	見えやすさoの目安
本人(自己)	全項目(自己申告・主観)	—(他者側には数えない/自己との差の算出に使う)
一緒にレビューした仲間	観る力(知識・気づき・第六感・知性)	0.8〜0.9(高い)
上長・マネジャー	動かす力(伝え方・関係)・信頼の厚さ	0.6〜0.8(中〜高い)
指摘を受けた現場担当	伝え方・人を自発的に動かす力	0.7〜0.9(その項目で高い)
他部門の関係者	関係を築く力・信頼の厚さ(部門を越えて)	0.5〜0.7(中)

この数字はあくまで出発点。実際のoは、ここに「証拠を出せたか」を掛けて初めて決まる。立場が高い欄でも、証拠を出せなければ、実際のoは表の数字より下がる。見えやすい席にいたからといって、見ていたとは限らないからだ。

重みw=見えやすさ×確からしさ ── 発言の強さ

最後に、観測可能性o(見えていたか)と信頼度C(確からしいか)を掛け合わせる。これが重みwで、みんなの意見をまとめるときの「発言の強さ」になる。ちゃんと見えていて(oが高い)、しかも証拠が厚くて筋も通っている(Cが高い)人ほど、その項目の最終判定に強く効く。逆に、薄い証拠や、見えていない立場の読みは、自動的に軽くなる。なぜ掛け算かというと、どちらか一方でも弱ければ全体を弱くしたいからだ。見えていても証拠がなければ意味がなく、証拠があっても見えていなければ信用できない。次回(第9回)の「裏取り」では、この重みの過半が支持する水準を、まわりから見た水準(他者水準)とする。
(式: w = o × C。)

評価する人の組み方

oとwを数で持っておくと、メンバーの組み方が良いか悪いかを、測る前に判定できる。原典のルールはとても単純だ。各項目に、見えやすさo0.7以上の人を2人以上当てること。なぜ2人なのか。一人だけが高評価を付けても、それを裏づける別の目がなければ、その項目はそもそも測れていないからだ。複数の審判がいて初めて、一人の見落としや勘違いを補い合える。次の表に、うまくいく組み方と崩れた組み方の見分けを置く。

観点	うまくいく組み方	崩れた組み方
各項目でo0.7以上の人数	2人以上(裏取りができる)	1人以下(裏が取れない)
人の選び方	その行動を実際に見たかで選ぶ	役職や属性の多様性で選ぶ
証拠を出せるか	各人が具体的な証拠を持参	立場の名前だけで証拠なし
見えていない読みの扱い	重みwが小さくなり自動的に軽くなる	平均に薄い読みが混ざる

Cが低いとき、どうするか

確からしさCが低い読みを、無理に確定させてはいけない。原典の言いたいことは明快だ。件数が少ない・話が矛盾する・そもそも見える立場にない、のどれでもCは下がり、読みは仮の値になる。打ち手は症状ごとに三つに分かれる。証拠が足りない(飽和不足)なら、同じ人からできごとをもう何件か引き出す。話が矛盾している(整合不足)なら、その食い違いを本人に確認し、具体的な事実でどちらが実際の行動かを切り分ける。見える人がいない(観測不足)なら、その項目を見えている別の人をメンバーに足す。三つに共通する大事な点は、どれも「読みの点数を上げる」のではなく「証拠を厚くする」方向だということ。点数は証拠が決める。証拠なしに点を上げるのは、健康診断の数値を測り直さずに書き換えるのと同じで、やってはいけない。

測定設計（行動証拠とAI対話） ── 全 10 回の地図

第 1 回: 印象と自己申告の危うさ ── 測るのは「発揮された行動」だけ ── 第3シリーズ「測定設計」の出発点。なぜL(その人の到達した実力ランク)を本人の自己申告で決められないのか、測る対象を「実際にやった行動」だけに絞る理由と、聴き取り手順・評価のものさし・点数の付け方を一本に束ねる考え方を、やさしく解説する。
第 2 回: STARで聴く ── 状況・課題・行動・結果・思考 ── 過去に実際に起きた出来事を一つだけ取り上げ、「どんな場面で(状況)・何を任され(課題)・自分は何をして(行動)・どうなったか(結果)・なぜそう判断したか(思考)」の五つに分けて聞く。聞く時間の半分以上を「行動」に使い、やったことを動詞で書き取り、「結果」で本当に起きたかを確かめ、「思考」で判断の根っこを引き出す。
第 3 回: 二軸への符号化 ── 行動が視野を、思考が抽象度を露わにする ── 面接で聴いた一つの「やったこと」の話を、どこまで広く動けたか（視野σ）・どんな筋で考えたか（抽象度α）・本当にあった話か（接地g）の三つに翻訳する手順を、資材チェックの実例で具体化する回。
第 4 回: BEIの6原則 ── 測定値の汚染を防ぐ公理 ── 人が語った「実際にやったこと」を、考えの深さ・行動の届く範囲・実話の裏付け、という3つのものさしに置き換える。そして「裏付けのある中で一番高い実力」をその人の読みとする。この置き換えを濁らせないための、6つの聞き方の作法を身近な例で説明する。
第 5 回: 三つの帯 ── 抽象度α・視野σ・接地g の尺度 ── レベルを決める前に、聴き取った行動を測るための三つのものさし(判断の高さ・行動の広さ・事実の裏づけ)を決める回。点数ではなく「段」で測る。
第 6 回: Lの決め方 ── 接地天井と本道への射影 ── 裏づけのない話はレベルを上げない。実際の行動で確かめた到達点だけを採り、二つのものさしをならしてLを読む。
第 7 回: レベルを分ける観察行動 ── 8次元アンカーと境界 ── 「どんな行動をしたか」の見本帳(アンカー表)を使い、本人の話を一番近い見本に当てはめてレベル(L1〜L4)を決める。8つの能力すべてを同じやり方で測る回。
第 8 回 (本回): 信頼度と観測可能性 ── その読みをどれだけ確定してよいか ── 「その評価はどれくらい確かか」を数で持つ回。証拠の数・話の筋・見える立場から確からしさ(信頼度C)を出し、見えていたかと証拠を出せたかから観測可能性oを決め、両方を掛けた重みwで最後の集計に渡す。
第 9 回: 多人数AI対話 ── 裏取りで他者水準、乖離で校正 ── 一人の目では人は測れない。本人と複数の同僚が同じ聞き取り(BEI)を受け、「その場面をちゃんと見ていたか」で各人の票に重みをつけ、裏が取れた読みだけを束ねて他者から見た水準を出す。本人の自己評価とのズレは、能力ではなく「自分をどれだけ正しく見ているか」として別の欄に置く。
第 10 回 (最終回): 統合出力から当確ラインへ ── レコードと運用手順 ── 第3シリーズ「測定設計」最終回。一人ひとり・一項目ごとに作る「成績票」が、どの数値を合否判定のどの関門に渡すか。そして測定を実際に回す7つの手順を、専門用語を日常語に置き換えながら平易に解説する。

結語

信頼度Cと観測可能性oは、水準Lの数字をいじる量ではない。Lはあくまで、証拠が示す「実際にできた最高レベル」。CとoはそのLを「どれだけ重く扱ってよいか」を決める、別系統の物差しだ。二つを掛けた重みw=見えやすさ×確からしさが、次回のまとめ(第三者統合)での発言の強さになる。

メンバーを組む段階で、各項目に見えやすさ0.7以上の人を2人以上当てておけば、薄い証拠や見えていない読みは、式が勝手に軽くしてくれる。確からしさを数で持っておくこと。これが、一人の高評価で全体が動いてしまう事故を防ぐ。

Key Points ── 持ち帰る 3 つ

信頼度Cは三つの問い ── ①証拠は足りているか(飽和、3件で満点) ②話は矛盾していないか(整合) ③見える立場だったか(観測可能性)。低ければ確定せず保留。
観測可能性oは掛け算で決まる ── 見えやすい立場か × 実際に証拠を出せたか。立場が高くても証拠を出せなければoは下がる。肩書きだけでは重くしない。
組み方は各項目にo0.7以上を2人以上 ── 重みw=見えやすさ×確からしさでまとめに渡す。属性の多様性でなく、その行動を実際に見たかで人を選ぶ。

出典・参考文献

McClelland, D. C. Testing for Competence Rather Than for Intelligence. American Psychologist, 1973. (行動証拠主義の起点)
Boyatzis, R. E. The Competent Manager: A Model for Effective Performance. Wiley, 1982. (BEIによる行動事象の抽出)
Cohen, J. A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measurement, 1960. (評価者間一致κ、観測の確からしさ)
Shrout, P. E. & Fleiss, J. L. Intraclass Correlations: Uses in Assessing Rater Reliability. Psychological Bulletin, 1979. (複数評価者の信頼性と重みづけ)
Spencer, L. M. & Spencer, S. M. Competence at Work: Models for Superior Performance. Wiley, 1993. (次元別の観測可能性とコンピテンシー測定)

← 測定設計（行動証拠とAI対話）一覧に戻る