ここまで九回かけて、面接で聴いた具体的な行動を三つのものさし(考えの深さ・視野の広さ・事実の裏づけ)に置き換え、その人が実際に届いた最高の段位を読み、本人と複数の第三者の対話を重みづけて束ねる、という道筋をたどってきた。最終回が扱うのは、その全部を一枚の紙にまとめる「成績票」と、それを現場で回す手順だ。成績票は飾りではない。どの数値を合否判定のどの関門へ渡すかを決める「受け渡し票」であり、測定と合否を同じ証拠の上に乗せる継ぎ目である。

成績票は「受け渡し票」である

一項目あたり、その人の測定結果を一枚にまとめる。これを成績票と呼ぶ。八つの項目それぞれに作り、まとめて一人分のプロファイルにし、合否の判定へ渡す。健康診断にたとえると分かりやすい。血圧や血糖など項目ごとに値が並び、最後に「要再検査」「異常なし」が決まる、あの一枚紙だ。大事なのは、この紙に測定の結論だけでなく「その結論をどれだけ信じてよいか」まで書き込んである点である。なぜか。信じてよい度合いが分からなければ、低い値が「本当に低い」のか「測り損ねただけ」なのか区別できないからだ。

成績票に並ぶ値はこうだ。中心になるのは二つのものさしの座標(考えの深さと視野の広さ)。それに加えて、複数の第三者の見立てを束ねた「他者から見た実力」、本人の自己評価とその差(ズレ)、得意・不得意の偏りとその向き、読みの確かさ(自信度)、評価者どうしの食い違いの少なさ(一致度)、そして確定してよいか保留かの印と、根拠になった証言の記録。ここで一つ約束を守る。「実力」と「自己認識のズレ」を同じ欄に混ぜない。実力は実力、ズレはズレで別の欄に置く。混ぜると、自信のある人が実力以上に見えてしまうからだ。

各値はどの関門へ渡るか

合否の判定(第2シリーズで扱った)は、関門をいくつも並べた仕組みだった。一つの関門が優れていても、別の足りない関門を埋め合わせできない。空港の保安検査をイメージしてほしい。荷物検査が完璧でも、搭乗券のチェックを通らなければ進めない。どれか一つでも落ちれば止まる。成績票の各値は、その関門ひとつひとつに過不足なく対応するよう作ってある。下の表が受け渡しの全体像だ。

成績票の値かみくだいた意味渡す先の関門そこでの働き
他者から見た実力(L_other)複数の第三者の見立てを束ねた、その人の実力の目安必要水準の床各項目が必要な高さに届いているかを「床」として判定。一項目の不足を他項目で穴埋めできない。
ズレ(Δ=自己評価−他者評価)自己認識がどれだけ正確か。自分を高く見ているか低く見ているか自己認識の校正実力には足し引きしない。自分を高く言いすぎ・低く言いすぎを別に読むだけ。
偏り(b)とその向き得意・不得意のかたより。理屈先行か経験頼みか偏りの向きの確認頭でっかち(b>0)か経験頼み(b<0)か、まだ伸ばす余地がどちら向きかを渡す。
自信度(C)と一致度(Ag)読みの確かさと、評価者どうしの食い違いの少なさ測定が成立しているかの確認測定そのものが成り立っているかを確認。低ければ判定を保留する。
座標(考えの深さ・視野の広さ)二つのものさしの素の値育成の処方・記録どちらのものさしが低いかを示し、次に何を伸ばすかの入口になる。

この対応が成り立つと、実力の決め方(このシリーズ)と、実力から合否を出すやり方(合否判定)が、同じ「実際にやった行動」の証拠の上で食い違わなくなる。なぜこれが大事か。審査者を測るものさしと、その結果を合否に使うものさしが別物だったら、評価は「なぜそうなったか」を説明できなくなるからだ。成績票は、その分裂を防ぐ留め金である。

一項目の計算を最初から最後までたどる

原典には、一項目の成績票がどう組み上がるかを一筆書きで示した手順がある。料理のレシピのように、順を追って同じ材料が一皿になっていく。言葉でたどると、こうなる。

  1. 一人ずつ採点する。 本人も各第三者も、それぞれ同じ面接形式の対話を受ける。語られた行動から証拠を集め、その人の段位を読む(第3〜7回で見たやり方)。
  2. 第三者を「裏取り」で束ねる。 各第三者には「どれだけ実地で見ていたか×読みの確かさ」で重みを付ける。その重みの過半数が「この段位以上」と置いている、いちばん高い段位を「他者から見た実力」とする。一人だけが高く付けても、ほかの裏が取れなければ上がらない。これが裏取り(corroboration、複数の証言で確かめ合うこと)だ。
  3. ズレを出す。 自己評価から他者評価を引いた差を、別の欄に書いておく。実力の値には一切触らない。
  4. 食い違いを測る。 第三者どうしを二人ずつ比べ、段位の差が1段以内に収まっているペアの割合を一致度とする。1段くらいの違いは許す。
  5. 測定が成立しているか確かめる。 重みの合計が小さすぎる、一致度が低すぎる、しっかり見ていた第三者(よく観察できる立場の人)が2人未満、のどれかなら判定を保留し、評価者の目線合わせをする会議へ回す。
  6. 成績票を確定する。 条件を満たせば、座標・他者評価・自己評価・ズレ・偏り・自信度・一致度を一枚に結んで返す。

ここで一点だけ覚えておきたい。「過半数」という線引き(裏取りの基準、原典では0.5)は、ちょうど真ん中で多数決を取るのに相当する。この線を上げれば、高い段位を付けるのにより強い裏取りを要求する慎重な運用になり、下げれば緩くなる。複数の審判が判定する競技で、何人が同意したら有効打にするかを決めるのと同じだ。この線は組織がどこまでリスクを引き受けるかという設計の選択であって、評価者のその日の気分ではない。

運用手順 ── 下準備から測り直しまで

式が正しくても、現場の手順が崩れれば測定値は汚れる。原典は七つの手順を平易に与えている。順番そのものに意味がある。とくに最初の「目線合わせ」を飛ばすと、後の精緻な計算がぜんぶ砂の上の建物になる。物差しの目盛りが人によってバラバラなまま測っているのと同じだからだ。

手順やること守るべき一線
1 目線合わせ測定前に、各段位の実物の資材・実際の行動例を評価者みんなで突き合わせるこれが揃って初めて、ものさしは国籍や部門を越えた共通の基準になる
2 評価者を選ぶ本人+第三者を、各項目に「よく見ていた人」が2人以上当たるよう選ぶ立場のバラエティより「その行動を実際に見たか」を優先
3 面接対話を実施各人が個別に対話を受ける。うまくいった例と難しかった例の両方を採る「何をしたか」の掘り下げに時間の5〜6割を充てる
4 そのまま言葉で記録形容詞でなく動詞で残す。三つのものさしの符号はこの記録に紐づける「優秀だった」ではなく「○○に△△と提案し□□を実行した」
5 算出して確定これまでの式で各項目の成績票を出す測定が成立していない項目は確定せず、やり直しへ
6 合否は判定へ渡す確定した成績票を合否判定にかける低い値は失格でなく、何を伸ばすかの入口(罰しない)
7 定期的に測り直す規制の更新や基準の古びに合わせて測定し直す力量は時間で増えも減りもする。一度の測定で固定しない

四つ目の「そのまま言葉で記録」は地味だが要だ。三つのものさしの符号は、この動詞の記録に紐づいて初めて後から検証できる。あとで誰かが「なぜこの項目が段位3なのか」と問うたとき、戻る先は「優秀だった」という印象ではなく、誰が・いつ・何をしたかの生の証言でなければならない。写真のピントと同じで、ぼやけた印象に戻っても何も確かめられない。証言の記録が成績票に含まれているのは、そのためだ。

人を罰しない原則 ── 低い値の読み方

最後に、手順の六つ目が言う「罰しない」を念押ししておく。「他者から見た実力」が低い項目は、その人の失格証明ではない。偏りの向きが、頭でっかちか経験頼みかを教え、足りない床が、どの行動を増やせばよいかを示す。測定の目的は裁くことではなく、次にどんな具体的な行動を積めばよいかを名指しすることにある。健康診断で値が悪かったとき、医者は「あなたは不合格」とは言わず「塩分を控えて運動を」と次の一手を示す。それと同じだ。自己評価を低く言う人(ズレがマイナス)を「自信のなさ」で減点しないのも同じ理屈で、ズレは実力ではなく自己認識の正確さとして別の欄に置く。測る側がこの分離を崩した瞬間、評価される人は正直に語る動機を失い、証拠そのものが痩せていく。

測定設計(行動証拠とAI対話) ── 全 10 回の地図

  1. 第 1 回: 印象と自己申告の危うさ ── 測るのは「発揮された行動」だけ ── 第3シリーズ「測定設計」の出発点。なぜL(その人の到達した実力ランク)を本人の自己申告で決められないのか、測る対象を「実際にやった行動」だけに絞る理由と、聴き取り手順・評価のものさし・点数の付け方を一本に束ねる考え方を、やさしく解説する。
  2. 第 2 回: STARで聴く ── 状況・課題・行動・結果・思考 ── 過去に実際に起きた出来事を一つだけ取り上げ、「どんな場面で(状況)・何を任され(課題)・自分は何をして(行動)・どうなったか(結果)・なぜそう判断したか(思考)」の五つに分けて聞く。聞く時間の半分以上を「行動」に使い、やったことを動詞で書き取り、「結果」で本当に起きたかを確かめ、「思考」で判断の根っこを引き出す。
  3. 第 3 回: 二軸への符号化 ── 行動が視野を、思考が抽象度を露わにする ── 面接で聴いた一つの「やったこと」の話を、どこまで広く動けたか(視野σ)・どんな筋で考えたか(抽象度α)・本当にあった話か(接地g)の三つに翻訳する手順を、資材チェックの実例で具体化する回。
  4. 第 4 回: BEIの6原則 ── 測定値の汚染を防ぐ公理 ── 人が語った「実際にやったこと」を、考えの深さ・行動の届く範囲・実話の裏付け、という3つのものさしに置き換える。そして「裏付けのある中で一番高い実力」をその人の読みとする。この置き換えを濁らせないための、6つの聞き方の作法を身近な例で説明する。
  5. 第 5 回: 三つの帯 ── 抽象度α・視野σ・接地g の尺度 ── レベルを決める前に、聴き取った行動を測るための三つのものさし(判断の高さ・行動の広さ・事実の裏づけ)を決める回。点数ではなく「段」で測る。
  6. 第 6 回: Lの決め方 ── 接地天井と本道への射影 ── 裏づけのない話はレベルを上げない。実際の行動で確かめた到達点だけを採り、二つのものさしをならしてLを読む。
  7. 第 7 回: レベルを分ける観察行動 ── 8次元アンカーと境界 ── 「どんな行動をしたか」の見本帳(アンカー表)を使い、本人の話を一番近い見本に当てはめてレベル(L1〜L4)を決める。8つの能力すべてを同じやり方で測る回。
  8. 第 8 回: 信頼度と観測可能性 ── その読みをどれだけ確定してよいか ── 「その評価はどれくらい確かか」を数で持つ回。証拠の数・話の筋・見える立場から確からしさ(信頼度C)を出し、見えていたかと証拠を出せたかから観測可能性oを決め、両方を掛けた重みwで最後の集計に渡す。
  9. 第 9 回: 多人数AI対話 ── 裏取りで他者水準、乖離で校正 ── 一人の目では人は測れない。本人と複数の同僚が同じ聞き取り(BEI)を受け、「その場面をちゃんと見ていたか」で各人の票に重みをつけ、裏が取れた読みだけを束ねて他者から見た水準を出す。本人の自己評価とのズレは、能力ではなく「自分をどれだけ正しく見ているか」として別の欄に置く。
  10. 第 10 回 (本回): 統合出力から当確ラインへ ── レコードと運用手順 ── 第3シリーズ「測定設計」最終回。一人ひとり・一項目ごとに作る「成績票」が、どの数値を合否判定のどの関門に渡すか。そして測定を実際に回す7つの手順を、専門用語を日常語に置き換えながら平易に解説する。
結語

十回を通して、言いたかったのは一つだけだ。実力は自己申告では決めない。面接で聴いた具体的な行動を、考えの深さ・視野の広さ・事実の裏づけという三つのものさしに置き換え、裏づけが支える最高の段位として読み、複数の目で裏を取る。最終回の成績票と手順は、その測り方を合否判定へ無傷で渡すための受け渡し票と、運び方そのものだった。

測定と合否を同じ証拠の上に乗せること。低い値を罰ではなく、次にやるべき具体的な行動の名指しに変えること。この二つが守られるかぎり、段位1〜4は印象ではなく、事実に裏づけられた行動の型との一致度として決められる。あとは、定期的に測り直しながら、共通基準を腐らせないことだ。

Key Points ── 持ち帰る 3 つ
  1. 成績票は受け渡し票。 「他者から見た実力」は必要水準の床へ、自己評価とのズレは自己認識の校正へ、偏りは向きの確認へ、自信度と一致度は測定成立の確認へ渡し、測定と合否を同じ証拠の上で食い違わせない。
  2. 順番に意味がある。 目線合わせ→評価者選び→面接対話→言葉で記録→算出・確定→合否判定→定期的な測り直し。最初の目線合わせを飛ばすと、後の計算が砂上の建物になる。
  3. 罰しないで読む。 低い値は失格でなく、足りない床と偏りの向きが示す「次に何を伸ばすか」の入口。自己評価とのズレは実力に足し引きせず、自己認識の正確さとして別の欄に置く。
出典・参考文献
  1. Boyatzis, R. E. The Competent Manager: A Model for Effective Performance. Wiley, 1982. (BEIと行動証拠の理論的基盤)
  2. McClelland, D. C. Testing for Competence Rather Than for Intelligence. American Psychologist, 1973. (行動による能力測定の起点)
  3. Cohen, J. A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measurement, 1960. (評価者間一致Agの基礎)
  4. Spencer, L. M. & Spencer, S. M. Competence at Work: Models for Superior Performance. Wiley, 1993. (コンピテンシー辞書とレベル別行動指標)
  5. Smith, P. C. & Kendall, L. M. Retranslation of Expectations: An Approach to the Construction of Unambiguous Anchors for Rating Scales. Journal of Applied Psychology, 1963. (アンカー合わせ=BARSの源流)