印象と自己申告の危うさ ── 測るのは「発揮された行動」だけ

人を評価するとき、いちばん当てにならないのが「印象」と「自己申告」だ。「あの人は優秀だ」も「私はL4です」も、口にする人と聞く人で中身がずれてしまう。料理の味見で「おいしい」と言っても、何がどうおいしいかは人によって違うのと同じだ。本シリーズは、このぐらつきを断つために、測る対象をたった一点に絞る。測るのは、持っている力でも上げた成果でもなく、実際にやってみせた行動だけ。第1回は、なぜこの絞り込みが「ちゃんと測れる」を成り立たせるのかを、原典の決め事に沿ってやさしく解く。

「優秀だ」が測れない理由

資材審査者(広告・販促物が規制に合うかを審査する人)の腕前を語る言葉は、たいてい結論から始まる。「あの人はリスク検知が鋭い」「私はもう原理から判断できる」。本人の中では本当かもしれないが、評価の材料には使えない。同じ「鋭い」が、ある人には「文言の違反を見逃さないこと」を、別の人には「図の見せ方のごまかしまで見抜くこと」を指す。言葉が同じでも、指している中身が違えば、二人の評価は揃いようがない。面接で「コミュ力が高い」と書かれていても、それが何を指すか面接官ごとにバラバラなのと同じだ。

自己申告にも同じ弱さがある。「私はL4です」という申告で分かるのは、本人が自分をどう見ているかの正確さであって、実際に出せる実力ではない。後の回で扱う「乖離(かいり)Δ」── 自己評価と実際のズレ ── は、まさにこの「自分の見立てのズレ」を別の欄で記録する仕組みであって、実力そのものの値には混ぜない。だから出発点で、評価の土台を「申告」から外す必要がある。

なぜそうするのか。同じ物差しで測らなければ、東京とロンドンの評価がそもそも比べられないからだ。言葉や印象を土台にすると、評価は「誰が言ったか」で動いてしまう。

測る対象を「実際にやった行動」に絞る

原典の考え方は単純だ。測るのは、持っている力でも成果でもなく、実際にやってみせた行動(これを「行動証拠」と呼ぶ ── やったという事実の裏づけ)だけ。よりどころは行動科学のはっきりした知見にある ── 過去にどう動いたかが、将来どう動くかをいちばんよく言い当てる。やる気や人柄、潜在的な力をいくら聞いても、それが行動として表れていなければ証拠にしない。

行動だけに絞ると、評価の性質が変わる。行動を「誰が見ても同じと言える事実」に分け、共通のものさしに照らせば、評価は「評価者がその人をどう見るか」ではなく「行動がものさしとどれだけ一致するか」の問題になる。健康診断と同じだ ── 医師の主観で「健康そう」と言うのではなく、血圧や血糖値という共通の数値に照らして判定する。だから国籍・言語・部門・職位が違っても、同じ判断にたどり着ける。同じ行動の記録を見れば、東京の評価者もロンドンの評価者も同じ読み取りに至る ── そこを設計の目標にしている。

STARが「二つの軸」を取り出す道具になる

では行動をどう聴き出すか。AIは一つの「行動の出来事」を、状況(S)・課題(T)・行動(A)・結果(R)・思考(＋)の層に分けて掘る。これは面接でよく使うSTAR法 ── 「どんな場面で(S)、何を求められ(T)、自分は何をして(A)、どうなったか(R)」を順に聴く型だ。本書はこれに「なぜそう判断したか(＋思考)」を足す。

大事なのは、掘り出した事実のどこが評価の軸に対応するか、だ。本書は二つの軸で実力を測る。一つは抽象度α(アルファ) ── 判断のよりどころが、書いてある文言頼みか、それとも規制の趣旨や原理にさかのぼれるか、という「考えの深さ」。もう一つは視野σ(シグマ) ── 自分の担当範囲だけか、別領域や前例のない事案にまで届くか、という「対応の広さ」。そして接地g(グラウンディング) ── その行動が口先でなく実際に起きたか、という「裏づけ」。行動Aには視野σが、思考＋には抽象度αが、結果Rには接地gが表れる。STARはそのまま二つの軸を取り出す道具になる。次の表が、聴く層と測る対象の対応だ。

聴く層(STAR)	主に現れる対象	評価での役割
状況 S・課題 T	文脈(その場の事情)	取り違えを防ぐ前提。Lの値には直接効かないが、行動の意味を正しく読む枠を与える
行動 A(最重要)	視野 σ(対応の広さ)	具体的に何をしたか。別領域や前例なき事案にまで届いたかを見る
結果 R	接地 g(裏づけ)	行動の結末・影響。実際に起きたことかを確かめる
＋思考(動機)	抽象度 α(考えの深さ)	なぜそう判断したか。文言頼みか、原理・趣旨からの組み立てか

つまり、行動Aが視野σを、思考＋が抽象度αを表に出し、結果Rが接地gを裏づける。なぜか。語りのうまさで点が変わってはいけないからだ。実際にやった行動だけが座標を決める。

聴き取りを汚さない六つの決め事(BEI公理)

行動だけを証拠にするには、聴き方そのものに歯止めがいる。原典は、AIとの対話(これを行動事象面接=BEIと呼ぶ ── 過去の具体的な出来事を掘り下げる面接法)が守るべき六つの決め事を置く。料理で言えば、味見の前に手やまな板を清潔にしておくようなものだ。これを破ると、測った値そのものが汚れる。順に挙げる。

行動主義 ── 「できる/できそう」でなく「実際にやった」行動だけを証拠にする。やる気や人柄は測らない。
過去事実 ── 「もし〜だったら」という仮の質問は使わない。実際に起きた過去の出来事だけを問う。これが裏づけ(接地g)の源になる。
主語特定 ── 「私たちは」を「あなた／その人は」に置き換え、本人一人の貢献を切り出す。
エビデンス ── 結論(「優秀」などの形容詞)でなく、それを支える具体的な行動(「〜した」という動詞)を記録する。
再現性 ── 一度きりのまぐれか、繰り返し現れる癖か。複数の出来事で裏取り(別の事例でも同じことが起きていたかの確認)する。
非誘導 ── 望ましい答えをほのめかさない。質問者の期待が混じった瞬間、値は汚れる。

裏づけが水準を支える ── 「接地天井」という考え方

行動を読み取ったら、L(実力ランク)はどう決まるのか。鍵は「口先だけのものは数えない」という決まりだ。裏づけのない主張(接地g=0)は水準を上げない。各軸で、裏づけがあって支えられている最高の段だけを取る。これを原典は接地天井(せっちてんじょう) ── 裏づけが届いた範囲の「天井」、と呼ぶ。写真のピントと同じで、はっきり写っているところまでが実力で、ぼやけた主張は数に入れない。

考え方を言葉で。抽象度の接地天井(記号でA-hat)は、「その段以上の証拠が集めた裏づけの合計が、必要量(しきい値τ_g、既定は2)に届く、いちばん高い段」と読む。要するに、十分な裏づけがそろった段までしか名乗れない、ということだ。視野の接地天井(S-hat)も同じだが、ひとつ抜け道を塞いでいる ── 同じ型の事案を何件積んでも視野は「段1」で頭打ちにし、種類の違う領域が2件以上そろって初めて「段2以上」を認める。経験頼みで件数だけ稼ぐやり方を、ここで遮断する。なぜか。同じ仕事を100回こなしても「広さ」は広がらないからだ。難しく見えるが、言いたいことは一言 ── 「実際にやった行動が、考えの深さ(α)と対応の広さ(σ)の両方でその段を満たして初めて、その水準を名乗れる」。式は飛ばしても、この一文で要点は足りる。

三つの資料を一本に束ねる

この測定設計は、ばらばらの三つの資料を一つの運用にまとめたものだ。それぞれ別の問いに答える。レシピで言えば「材料の選び方」「盛り付けの基準」「味の採点表」を一冊にしたようなものだ。次の表が役割分担を示す。

資料	答える問い	本シリーズでの位置
BEIブループリント(聴き方の設計図)	どう聴けば行動だけが証拠になるか	STARと六つの決め事。汚れない聴き取りの設計
フレームワーク(第1シリーズ・ものさし)	何を・どの座標で測るか	二軸とL1〜L4。測る対象の地図
採点アルゴリズム(点数化の手順)	証拠からLをどう計算するか	接地天井と「本道への射影」。計算の規則

本書はこの三つを、本人＋複数の第三者によるAI対話として実際に回せるようにする。第1シリーズ「フレームワーク」が二軸とL1〜L4を、第2シリーズ「当確ライン」が非代償ゲート(片方が悪ければ全体で落とす、足し引きで埋め合わせできない合否ライン)を定めた。本シリーズはその間の「測り方」を埋める。つまり、何を測るか(第1)と、合否をどう決めるか(第2)の間にあった空白 ── どうやって証拠からLを出すか ── を、行動証拠と複数の目で塞ぐ。

測定設計（行動証拠とAI対話） ── 全 10 回の地図

第 1 回 (本回): 印象と自己申告の危うさ ── 測るのは「発揮された行動」だけ ── 第3シリーズ「測定設計」の出発点。なぜL(その人の到達した実力ランク)を本人の自己申告で決められないのか、測る対象を「実際にやった行動」だけに絞る理由と、聴き取り手順・評価のものさし・点数の付け方を一本に束ねる考え方を、やさしく解説する。
第 2 回: STARで聴く ── 状況・課題・行動・結果・思考 ── 過去に実際に起きた出来事を一つだけ取り上げ、「どんな場面で(状況)・何を任され(課題)・自分は何をして(行動)・どうなったか(結果)・なぜそう判断したか(思考)」の五つに分けて聞く。聞く時間の半分以上を「行動」に使い、やったことを動詞で書き取り、「結果」で本当に起きたかを確かめ、「思考」で判断の根っこを引き出す。
第 3 回: 二軸への符号化 ── 行動が視野を、思考が抽象度を露わにする ── 面接で聴いた一つの「やったこと」の話を、どこまで広く動けたか（視野σ）・どんな筋で考えたか（抽象度α）・本当にあった話か（接地g）の三つに翻訳する手順を、資材チェックの実例で具体化する回。
第 4 回: BEIの6原則 ── 測定値の汚染を防ぐ公理 ── 人が語った「実際にやったこと」を、考えの深さ・行動の届く範囲・実話の裏付け、という3つのものさしに置き換える。そして「裏付けのある中で一番高い実力」をその人の読みとする。この置き換えを濁らせないための、6つの聞き方の作法を身近な例で説明する。
第 5 回: 三つの帯 ── 抽象度α・視野σ・接地g の尺度 ── レベルを決める前に、聴き取った行動を測るための三つのものさし(判断の高さ・行動の広さ・事実の裏づけ)を決める回。点数ではなく「段」で測る。
第 6 回: Lの決め方 ── 接地天井と本道への射影 ── 裏づけのない話はレベルを上げない。実際の行動で確かめた到達点だけを採り、二つのものさしをならしてLを読む。
第 7 回: レベルを分ける観察行動 ── 8次元アンカーと境界 ── 「どんな行動をしたか」の見本帳(アンカー表)を使い、本人の話を一番近い見本に当てはめてレベル(L1〜L4)を決める。8つの能力すべてを同じやり方で測る回。
第 8 回: 信頼度と観測可能性 ── その読みをどれだけ確定してよいか ── 「その評価はどれくらい確かか」を数で持つ回。証拠の数・話の筋・見える立場から確からしさ(信頼度C)を出し、見えていたかと証拠を出せたかから観測可能性oを決め、両方を掛けた重みwで最後の集計に渡す。
第 9 回: 多人数AI対話 ── 裏取りで他者水準、乖離で校正 ── 一人の目では人は測れない。本人と複数の同僚が同じ聞き取り(BEI)を受け、「その場面をちゃんと見ていたか」で各人の票に重みをつけ、裏が取れた読みだけを束ねて他者から見た水準を出す。本人の自己評価とのズレは、能力ではなく「自分をどれだけ正しく見ているか」として別の欄に置く。
第 10 回 (最終回): 統合出力から当確ラインへ ── レコードと運用手順 ── 第3シリーズ「測定設計」最終回。一人ひとり・一項目ごとに作る「成績票」が、どの数値を合否判定のどの関門に渡すか。そして測定を実際に回す7つの手順を、専門用語を日常語に置き換えながら平易に解説する。

結語

第1回の主張は一つに尽きる。L(実力ランク)は自己申告でも印象でも決めない。測るのは実際にやってみせた行動だけ。その行動を「誰が見ても同じと言える事実」に分け、共通のものさしとどれだけ一致するかとして読む。これで評価は、人物観のぶつかり合いから、ものさしとの照合作業へ移る。

次回からは、この考え方を実際の計算に落とす。STARで聴いた証拠を、考えの深さα・対応の広さσ・裏づけgにどう振り分け、接地天井からどうLを出すか。設計思想の「なぜ」を、測り方の「どうやって」へ進める。

Key Points ── 持ち帰る 3 つ

測るのは実際にやった行動だけ ── 持っている力でも成果でもなく、過去の行動を「将来の行動をいちばんよく言い当てる証拠」として扱う。やる気・人柄は測らない。
STARが二つの軸を取り出す道具になる ── 行動Aに対応の広さσ、思考＋に考えの深さα、結果Rに裏づけgが現れ、六つの決め事が聴き取りの汚れを防ぐ。
裏づけが水準を支える ── 口先だけ(g=0)は数えず、「接地天井」として各軸の最高の段を読む。同じ型の積み増しは視野の段1で頭打ち。

出典・参考文献

McClelland, D. C. Testing for Competence Rather Than for Intelligence. American Psychologist, 1973. (適性検査より行動を測る、コンピテンシー運動の起点)
Boyatzis, R. E. The Competent Manager: A Model for Effective Performance. Wiley, 1982. (行動事象面接BEIによる能力測定を体系化)
Smith, P. C., & Kendall, L. M. Retranslation of Expectations: An Approach to the Construction of Unambiguous Anchors for Rating Scales. Journal of Applied Psychology, 1963. (行動基準評定尺度BARSの原典。発話アンカーの理論的支柱)
Spencer, L. M., & Spencer, S. M. Competence at Work: Models for Superior Performance. Wiley, 1993. (BEIと符号化の実務標準)

← 測定設計（行動証拠とAI対話）一覧に戻る