BEIの6原則 ── 測定値の汚染を防ぐ公理

第3回までで、「状況・課題・行動・結果」という4点セットの聞き取り(STARと呼ぶ)が、2つのものさし ── 考えの深さと行動の届く範囲 ── に翻訳される仕組みを見た。だが、仕組みが正しくても、入ってくる材料が濁っていれば出てくる答えも濁る。料理と同じで、レシピが完璧でも食材が傷んでいれば料理は台無しになる。聞き方ひとつで、同じ人から「ごく普通」にも「飛び抜けて優秀」にも見える証言が取れてしまう。これから紹介する6つの原則は、その「聞き方による濁り」を防ぐための土台のルールだ。実際にやったことだけを聞く、過去の事実だけを聞く、主語を本人に絞る、形容詞でなく行動を聞く、一度きりでなく繰り返しを確かめる、答えを誘導しない。どれも当たり前に見えて、現場では半分も守られていない。

なぜ「公理」と呼ぶのか

原典は、この6原則を「測定値の濁りを防ぐもの」と位置づけている。数学で「公理」とは、証明を始める前の大前提のこと。ここで公理と呼ぶ理由も同じで、すべての計算がこのルールの上に乗っているからだ。

実力を点数に変える計算の裏側では、聞き取った一つひとつの話が「本人が実際に過去にやった行動だ」と、こっそり前提されている。健康診断にたとえるとわかりやすい。血液検査の数値がどれだけ精密でも、採血の管が汚れていれば結果は意味をなさない。同じことで、この前提が崩れた瞬間、どんなに精緻な計算をしても答えはゴミになる。6原則は、その前提を聞き取りの段階で物理的に守らせる「柵(さく)」だ。

順番に見ていく。大事なのは、各原則が「3つのものさしのどれを守っているか」を対応させて理解することだ。濁りは「なんとなく精度が下がる」というぼんやりした話ではない。3つのものさし ── 考えの深さ(α)・行動の届く範囲(σ)・実話の裏付け(g) ── のどれかが、実態より一段ずれる、という具体的な形で起きる。なぜ対応を意識するかと言えば、どの原則をサボると何がずれるかが見えれば、現場で手を抜けなくなるからだ。

原則	やってはいけない聞き方	守っているものさし
実際にやったことだけ	「できますか/できそうですか」	実話の裏付け(g)── やる気を行動と取り違えない
過去の事実だけ	「もし〜ならどうする」	裏付け(g)── 仮の話には裏付けが存在しない
主語を本人に絞る	「チームでこうした」のまま記録	行動の届く範囲(σ)── 他人の働きを本人のものにしない
形容詞でなく行動	「優秀だった」を結論として採用	考えの深さ(α)── 形容詞は深さを示さない
繰り返しを確かめる	一度きりで実力と決める	裏付けの上限(g=2)── まぐれを実力と誤認しない
誘導しない	期待する答えを質問に滲ませる	全ものさし ── 質問者の思い込みが混ざる

1. 実際にやったことだけ ── 「やった」だけを数える

原典の定義は単純だ。「できる/できそう」ではなく「実際にやった」行動だけを証拠にする。やる気や人柄は測らない。これが守るのは「実話の裏付け(g)」── つまり、その話に本物のエピソードがあるかどうかだ。裏付けは、いつ・どこで・何をやったかが具体的にそろって初めて「あり(1)」になる。口先だけの主張なら「なし(0)」のままだ。

たとえば、ある人が「私は誇張表現のリスクには敏感です」と語ったとする。これは「敏感」という形容詞であって、行動ではない。裏付けはゼロのままだ。だから聞き手は「敏感」を採点せず、「実際にそれを見つけた一件を教えてください」と引き戻す。具体的な一件が出て初めて、裏付けが「あり」になり、その出来事の中身を評価し始める。なぜここまで厳しくするかと言えば、面接の自己アピールは放っておくと膨らむからだ。やる気を実力に足し込まない ── これが、話の水増しを止める最初の堰(せき)になる。

2. 過去の事実だけ ── 仮の話には裏付けがない

「もし有意差のないグラフを見たらどうしますか」── この質問は、一見すると見抜く力を測れそうに見える。だが原典はこれを禁じる。仮定の質問は、裏付けの源にはなり得ないからだ。未来や「もし」の行動には、誰が・いつ・何を、という出来事そのものが存在しない。存在しない出来事は、評価のしようがない。

仮定の質問が危ないのは、答える人がつい「理想の自分」を語ってしまう点にある。本人に嘘をつくつもりがなくても、「もし」の語りは実際の行動より一段高く出る。面接でよくある「こう答えるべき」という優等生の回答がこれだ。だから聞き手はいつも「実際に起きた一件」に引き戻す ── 「最近、有意差のない図表を見抜いた具体的な事例を一つ教えてください」。過去形でしか聞かない、という作法が、裏付けを本物に保つ。

3. 主語を本人に絞る ── 「私たち」を「あなた」に戻す

この種の面接で一番よく起きる濁りがこれだ。答える人は無意識に「私たちはこう判断しました」と語る。チームの成果の中に、本人個人がやったことが溶けて見えなくなっている。原典はこれを「あなたは/その人は」に戻せと命じる。守っているのは「行動の届く範囲(σ)」だ。

このものさしは、その人の行動がどこまで遠くに届いたか ── 専門外の領域や前例のない問題にどこまで手が伸びたか ── を見る。だが「私たち」のまま記録すると、チームの別の誰かが届かせた範囲を、本人の手柄にしてしまう。スポーツで言えば、チームの得点を一人の選手の得点として記録するようなものだ。第三者が評価するときは、この原則を逆向きに使う。「チームの成果」から「その人が実際に打った一手」を切り出す質問を重ねる。「その判断を最初に言い出したのは誰でしたか」「あなた自身はその場で何と発言しましたか」。個人の貢献が切り出せない出来事は、このものさしの材料には使わない。なぜなら、切り出せないなら誰の実力かわからないからだ。

4. 形容詞でなく行動 ── 「すごい」でなく「何をした」

「優秀だった」「丁寧だった」は感想であって、証拠ではない。原典は、結論(形容詞)ではなく、それを支える具体的な行動(動詞)を記録せよと定める。守るのは「考えの深さ(α)」だ。

このものさしは、その人が何をどう考えたかを4段階で見る。文言をなぞっただけ(浅い)か、複数の条件をつなげたか、原理やねらいから筋道を立てて結論を出したか、新しい原則そのものを作り出したか(深い)。これは「何を考えたか」を行動の言葉で組み立て直さないと判定できない。「優秀」からは深さは読めない。写真のピント合わせに似ている。「優秀」はピントの合っていないぼやけた写真で、輪郭が見えない。「条文のねらいは誤認防止だと述べ、そこから図表の配置にまで話を広げた」という動詞の連なりがあって初めて、ピントが合い、深さが「原理から筋道を立てた段階」だと読める。だから記録の作法でも「一言一句、形容詞でなく動詞で書き留めよ」と念を押す。記録の段階で形容詞を許すと、あとの評価が水増しされてしまうからだ。

5. 繰り返しを確かめる ── まぐれと実力を分ける

一度きりの大当たりは実力ではない。原典は、一度きりの偶然なのか、何度も現れるパターンなのかを、複数の出来事で確かめよと定める。これは「裏付けの上限(g=2)」というルールに直結している。裏付けの最高ランクである2は、「反証(うまくいかなかった例)もあわせて見た」または「複数の出来事で再現を確認した」場合にだけ与えられる。ここに達して初めて、そのものさしの高いランクが確定する。

言葉で言えばこうだ。高いランクを名乗るには、その水準の判断を裏付ける出来事が、一定の量だけそろっている必要がある。鋭い指摘が一件あるだけ(裏付け1)では、たとえ内容が立派でも、上限に阻まれて高いランクは確定しない。複数の審判の判定にたとえるとわかりやすい。一人の審判が「ナイスプレー」と言っただけでは判定は確定せず、複数の審判が同じ判定を出して初めて確かになる。だから聞き手は、成功例だけでなく苦労した例も両方とり、同じ深さの判断が別の場面でも現れるかを確かめる。「同じ見抜き方をした別の一件はありますか」。再現が取れない鋭さは、ひとまず保留にしておく。なぜなら、一回の鋭さはまぐれかもしれないからだ。

6. 誘導しない ── 質問者の思い込みを混ぜない

最後の原則が、最も静かに、最も深く濁らせる。「望ましい答えをほのめかさない。質問者の期待が混ざった瞬間、測定値は濁る」。守っているのは特定の一つではなく、3つのものさし全部だ。誘導は、考えの深さも・届く範囲も・裏付けも、評価者が見たい方向へ一斉に引っ張ってしまう。

「ふつうはこう気づくものですが、あなたも気づきましたよね」と聞けば、答える人は「気づいたこと」にして語る。誘導の厄介なところは、聞く側にも答える側にも、濁っている自覚が生まれにくい点だ。両者ともよかれと思っている。ここに、AIに同じ聞き取りの骨組みを任せる利点が一つある ── 期待を持たない聞き手なら、無意識の誘導を仕組みとして減らせる。それでも禁止事項は明示しておく。誘導する質問、仮定の質問、複数のことを一度に聞く質問、意見を求める質問は使わない。抽象的な言葉が出たら必ず具体的な行動に戻す。「具体的には? 次に何をしましたか?」という戻しを、機械的にではなく毎回ていねいにかける。なぜなら、この一手間を惜しんだ瞬間に、優等生の回答がそのまま記録されてしまうからだ。

6原則が壊れたときに何が起きるか

原則違反は静かに進む。誘導と仮定が重なれば、答える人の「理想像」がそのまま「飛び抜けて優秀」として記録される。主語を絞るのを怠れば、チームの届いた範囲が本人の手柄に化ける。繰り返しの確認を飛ばせば、一回の幸運が実力として積み上がる。どれも一つひとつは小さなずれだ。だが、8つの評価項目・複数の評価者にわたって積み重なると、合格ライン(第2シリーズで扱う)を本来は通すべきでない人に通してしまう。この合格ラインは「どこか一項目でも落ちたらアウト」という厳しい関門で、小さなずれの積み重ねが、ここを誤って突破させる。測定の頑丈さは、計算式の精緻さよりも先に、この6本の柵が現場で守られているかにかかっている。

測定設計（行動証拠とAI対話） ── 全 10 回の地図

第 1 回: 印象と自己申告の危うさ ── 測るのは「発揮された行動」だけ ── 第3シリーズ「測定設計」の出発点。なぜL(その人の到達した実力ランク)を本人の自己申告で決められないのか、測る対象を「実際にやった行動」だけに絞る理由と、聴き取り手順・評価のものさし・点数の付け方を一本に束ねる考え方を、やさしく解説する。
第 2 回: STARで聴く ── 状況・課題・行動・結果・思考 ── 過去に実際に起きた出来事を一つだけ取り上げ、「どんな場面で(状況)・何を任され(課題)・自分は何をして(行動)・どうなったか(結果)・なぜそう判断したか(思考)」の五つに分けて聞く。聞く時間の半分以上を「行動」に使い、やったことを動詞で書き取り、「結果」で本当に起きたかを確かめ、「思考」で判断の根っこを引き出す。
第 3 回: 二軸への符号化 ── 行動が視野を、思考が抽象度を露わにする ── 面接で聴いた一つの「やったこと」の話を、どこまで広く動けたか（視野σ）・どんな筋で考えたか（抽象度α）・本当にあった話か（接地g）の三つに翻訳する手順を、資材チェックの実例で具体化する回。
第 4 回 (本回): BEIの6原則 ── 測定値の汚染を防ぐ公理 ── 人が語った「実際にやったこと」を、考えの深さ・行動の届く範囲・実話の裏付け、という3つのものさしに置き換える。そして「裏付けのある中で一番高い実力」をその人の読みとする。この置き換えを濁らせないための、6つの聞き方の作法を身近な例で説明する。
第 5 回: 三つの帯 ── 抽象度α・視野σ・接地g の尺度 ── レベルを決める前に、聴き取った行動を測るための三つのものさし(判断の高さ・行動の広さ・事実の裏づけ)を決める回。点数ではなく「段」で測る。
第 6 回: Lの決め方 ── 接地天井と本道への射影 ── 裏づけのない話はレベルを上げない。実際の行動で確かめた到達点だけを採り、二つのものさしをならしてLを読む。
第 7 回: レベルを分ける観察行動 ── 8次元アンカーと境界 ── 「どんな行動をしたか」の見本帳(アンカー表)を使い、本人の話を一番近い見本に当てはめてレベル(L1〜L4)を決める。8つの能力すべてを同じやり方で測る回。
第 8 回: 信頼度と観測可能性 ── その読みをどれだけ確定してよいか ── 「その評価はどれくらい確かか」を数で持つ回。証拠の数・話の筋・見える立場から確からしさ(信頼度C)を出し、見えていたかと証拠を出せたかから観測可能性oを決め、両方を掛けた重みwで最後の集計に渡す。
第 9 回: 多人数AI対話 ── 裏取りで他者水準、乖離で校正 ── 一人の目では人は測れない。本人と複数の同僚が同じ聞き取り(BEI)を受け、「その場面をちゃんと見ていたか」で各人の票に重みをつけ、裏が取れた読みだけを束ねて他者から見た水準を出す。本人の自己評価とのズレは、能力ではなく「自分をどれだけ正しく見ているか」として別の欄に置く。
第 10 回 (最終回): 統合出力から当確ラインへ ── レコードと運用手順 ── 第3シリーズ「測定設計」最終回。一人ひとり・一項目ごとに作る「成績票」が、どの数値を合否判定のどの関門に渡すか。そして測定を実際に回す7つの手順を、専門用語を日常語に置き換えながら平易に解説する。

結語

6原則はどれも「正しい聞き方」というより「間違った聞き方の禁止」として書かれている。守っても加点はされない。それどころか、破ると減点で済むのではなく、測定そのものを成り立たなくしてしまう。だからこれを公理(土台のルール)と呼ぶ。計算式は壊れれば数字がおかしくなってすぐ気づくが、聞き取りの濁りは、数字の上では美しく見えたまま静かに進む。これが一番こわい。

次回(第5回)は、こうして集めた「裏付けのある証拠」を、実際に3つのものさし ── 考えの深さ・行動の届く範囲・実話の裏付け ── に置き換える手順を扱う。各ランクの定義と、隣り合うランクの見分け方を、リスクを見抜く力の具体例リスト(アンカー表)を使って説明する。聞き方の作法(今回)と、置き換えの作法(次回)の両方がそろって初めて、その人の実力は「裏付けに支えられた読み」として読めるようになる。

Key Points ── 持ち帰る 3 つ

各原則は、特定のものさしを守る柵である。「実際にやったことだけ」と「過去の事実だけ」は実話の裏付け、「主語を本人に絞る」は行動の届く範囲、「形容詞でなく行動」は考えの深さ、「繰り返しを確かめる」は裏付けの上限、「誘導しない」は全部を守る。濁りは「なんとなく精度低下」ではなく、特定のものさしが一段ずれる形で起きる。
仮の話・形容詞・「私たち」は、評価の材料にできない。未来の「もし」には出来事がないので裏付けゼロ、形容詞からは考えの深さが読めず、「私たち」のままでは他人の働きを本人の手柄にしてしまう。だから聞き手は常に、過去形・動詞・個人の一手に引き戻す。
違反は静かに積もり、合格ラインを誤って通してしまう。一つひとつは小さなずれも、8項目・複数評価者で積み上がると、「一項目でも落ちたらアウト」の厳しい関門を誤って突破させる。測定の頑丈さは、計算式の精緻さより先に、この6本の柵が現場で守られているかで決まる。

出典・参考文献

McClelland, D. C. Testing for Competence Rather Than for "Intelligence". American Psychologist, 1973. (適性検査でなく行動指標で測るという発想の起点)
Boyatzis, R. E. The Competent Manager: A Model for Effective Performance. Wiley, 1982. (行動事象面接BEIの体系化)
Spencer, L. M. & Spencer, S. M. Competence at Work: Models for Superior Performance. Wiley, 1993. (BEIの実務手順と過去行動主義)
Smith, P. C. & Kendall, L. M. Retranslation of Expectations: An Approach to the Construction of Unambiguous Anchors for Rating Scales. Journal of Applied Psychology, 1963. (行動基準評定尺度BARS=アンカーで主観を抑える)
Janz, T. Initial Comparisons of Patterned Behavior Description Interviews versus Unstructured Interviews. Journal of Applied Psychology, 1982. (過去行動を問う構造化面接の予測妥当性)

← 測定設計（行動証拠とAI対話）一覧に戻る