レベルを分ける観察行動 ── 8次元アンカーと境界

「あの人はL3だ」と誰かが言う。でも、何を見てL3と決めたのか。第6回までで私たちは、レベル(Lと呼ぶ評価の段階)は本人の自己申告では決めず、実際にやった行動の証拠から計算すると決めた。今回はその証拠を、どの発言がどのレベルに当たるかという一覧表にする。レベルを分けるのは肩書でも話のうまさでもない。面接で具体的に聴き出せる「実際にやった行動」の型だけが、レベルを決める。

レベルは「位置」の読み取り値

少し用語の確認から。この評価では、人の能力を二つのものさしで測る。一つは抽象度α(アルファ)、つまり「どれだけ深い考えに基づいて動いたか」。文言どおりに動いたのか、それとも原理から考えたのか。もう一つは視野σ(シグマ)、つまり「どこまで広い範囲に届いたか」。目の前の一件だけか、別の分野にまで応用したのか。第6回までで、本人の話をこの二つの帯(段階)に符号化(数値の段階に置き換えること)し、その位置を出すところまで来た。

レベルLは、この二つのものさしの位置を一本の対角線(両方が同じくらい伸びている「本道」)に当てて読み取った、一点の値にすぎない。たとえるなら、健康診断で身長と体重から一つの指標を出すようなものだ。だから「L3とは何か」を語る前に、まず位置とレベルの対応を固定する。これを汎用スキーマ(どの能力にも共通して使える基準表)と呼ぶ。共通の型を使うから、8つの能力をバラバラのものさしで測らずに済む。なぜ共通化するのか。ものさしが能力ごとに違うと、評価者によって基準がぶれてしまうからだ。

基準になるのは対角線上の四点だ。αとσが両方0ならL1、両方1ならL2、両方2ならL3、両方3ならL4。実際の人はこの対角線から外れることもある(理屈ばかりで経験が薄い、逆に経験頼みで原理を語れない、など)。その「片寄り」の扱いは第6回に譲り、今回はまず対角線上の素直な型を体に入れる。素直な型が頭に入っていれば、外れた人も「どちらのものさしが伸び、どちらが止まっているか」として読めるようになる。

汎用スキーマ ── 実際にやった行動の型

各レベルは、次の「実際にやった行動の型」で見分ける。料理にたとえると、レシピを読み上げられるかではなく、実際に作った一皿を見て腕前を判断するのに近い。判定する人は、その型に当てはまる具体的な行動を、面接で一つ以上聴き出せたかを見る。ここが肝心で、「うまくいきました」「優秀でした」という結論(形容詞)ではなく、「実際に何をしたか」という動詞が型に合ったときだけ、そのレベルに置く。なぜなら、立派な感想は誰でも言えるが、やった行動は嘘をつきにくいからだ。

L1 (0,0) 決まった手順をこなす

マニュアルや文言どおりに、その一件だけを処理した。原理を考えたり、他へ応用したりはしていない。証拠は具体的な出来事が1件あれば足りる。

L2 (1,1) 同じ型をまとめる

「これは前に見たあのパターンだ」と気づき、似た事案を何件かまとめて扱った。具体例が1件と、パターンに触れた発言があればよい。

L3 (2,2) 原理を別の分野へ応用

「そもそもの趣旨はこうだ」と原理から考え、構造のまったく違う別分野へ応用した。なぜそう判断したかで原理を述べ、実際の行動で応用を示す。違う分野2件以上で裏づけられていることが条件。

L4 (3,3) 新しい基準を作り、他人が使う

新しい原則や判断基準そのものを作り、他の人がそれを使っている。前例のない問題にまで届く。「他人が使っている」事実や成果物(基準書・教材)で裏づける。

L／位置	見分けのポイント(実際にやった行動の型)	裏づけ・境界の条件
L1 (0,0)	文言・手順どおりに、その一件だけを処理。原理も応用もない	具体例1件で可
L2 (1,1)	「前に見たパターンだ」と気づき、似た事案を何件かまとめた	具体例1件、パターンへの言及あり
L3 (2,2)	原理・趣旨から考え、構造の違う別分野へ応用した	違う分野2件以上で裏づけ(g≥1)
L4 (3,3)	新しい原則・基準を作り、他人がそれを使っている	他人の採用・成果物(基準/教材)で裏づけ

アンカー表 ── 一つの能力を「発言の見本」で固定する

汎用スキーマはまだ抽象的だ。これを実務で「迷わず決められる」道具にするのが、能力ごとのアンカー表(発言の見本帳)である。アンカーとは「これくらいの発言ならこのレベル」という錨(いかり)、つまり基準点のこと。例として「リスクを見抜く力」を取る。場面はこうだ。ある薬の試験で、主な評価項目では差がなかった。なのに、そのグラフの交差点を矢印で強調した宣伝資料がある。同じ資料を見て、各レベルの審査者はどう反応するか。その発言の型と、それに対応する数値(α・σ・g)を見本として固定する。

使い方は単純だ。複数の審判が同じプレーを判定するのに似ている。本人の証言を、表の左にある発言の見本に一番近いものへ当てはめ(これを最近傍照合=もっとも近い見本に合わせること、と呼ぶ)、右の数値をそのまま採るだけ。境界は「どの見本にいちばん近いか」で決まり、評価者の気分には委ねない。なぜそうするのか。「たぶんL3っぽい」という感触で決めると、人によって答えが変わってしまうからだ。具体的には、L1は文言だけを見て「優れると書いていないから問題なし」と判断する。L2は「ゴールデン・クロス級の最大級表現」のような、見覚えのある強調の手口に反応する。L3は「軸や矢印や配置が、差のないものを優れて見せている」と見せ方の仕掛けを見抜き、図のない患者向け小冊子でも同じ仕掛けを捕まえる(これで違う2分野に届いた)。L4は「客観的な素材でも見せ方で印象を操作できる」という新しい着眼点を定義し、いま他の審査者がその着眼点を使っている。

L／位置	発言の見本(面接で聴ける証言の型)	数値
L1 (0,0)	「優れると書いていないので問題なし」と文言だけで判断した	α0 σ0 g1
L2 (1,1)	「ゴールデン・クロス級の最大級表現」など見覚えのある強調の手口に反応した	α1 σ1 g1
L3 (2,2)	軸・矢印・配置の仕掛けを見抜き、図のない小冊子でも同じ仕掛けを捕まえた	α2 σ2 g1 (2分野)
L4 (3,3)	「見せ方による印象操作」を新しい着眼点として定義し、他の審査者が使っている	α3 σ3 g2 (他人が採用)

8つの能力すべての見分けポイント

リスクを見抜く力で見たやり方を、残り7つの能力にも同じように用意する。各能力について、そのレベルに置くには最低限これが聴き取れていなければならない、という行動を一行で固定する。前提はすべて、具体的な過去の出来事で裏づけられていること(g≥1、つまり「実際に起きた一件」があること)だ。次の表は8能力×4レベルの見分けポイントの一覧。評価者はこれを手元に置き、本人の証言を一番近いマスに当てはめる。なぜ一覧にするのか。手元に見本があると、その場の気分でなく同じ基準で判定できるからだ。

能力	L1	L2	L3	L4
01 知識	ルールを開いて要件に気づく	資料を見ずに主な要件をまとめて言える	趣旨から別の論点へつないで語る	自分が起草した基準・教材が使われている
02 知性	ラベルどおりに分類して終わり	似た事例を思い出して気づく	ラベルを外し、原則から実態で判断した	自分が作った判断原則を他人が使う
03 リスク検知力	はっきりした文言違反だけ指摘	見覚えのある強調の手口に反応	見せ方の仕掛けや抜けを別分野でも拾った	新しいリスクの型を定義し、定着させた
04 第六感	「変だ」と感じた例がない	慣れた分野で「何か変だ」と気づいた	その違和感を後から理屈で説明できた	違和感のありかを他人に教え、勘を育てた
05 伝達力	条文をそのまま渡しただけ	趣旨を補って相手に伝わった	相手の状況に翻訳して腹落ちさせた	誰でも同じ判断に至る用語・基準を設計
06 行動変容を促す力	毎回指示、また同じことが起きた	その案件は納得して直った	相手が自分から初稿の質を上げた	複数チームの文化として定着させた
07 関係構築力	敵と見られ、相談が来なくなった	必要な段階で相談が来る	独立した立場ゆえ「まず相談」された	部門をまたぐ早めの相談を仕組みにした
08 信頼の厚み	判断が押し返されて覆る	担当範囲の中では通る	他部門でも尊重され、異議が立たない	判断が全社の基準・前例になる

境界はどこに引くか

表ができても、現場で迷うのは隣り合うレベルの境目だ。とくにL2とL3、L3とL4が難しい。写真のピント合わせと同じで、はっきり手前とはっきり奥は分かるが、中間が見分けにくい。だからここを言葉で固定しておく。

L2とL3の境目は、「原理を述べたうえで、構造の違う別分野へ応用できたか」だ。L2は見覚えのある同じ型への反応で止まる。同じ型の事案を何件積み上げても、繰り返しである限り視野σは段階1で頭打ちになる(裏づけの計算式が、同じ型の積み増しを段階アップに数えないよう作られている)。なぜ封じるのか。「数だけこなした経験頼み」を実力と取り違えないためだ。L3に上がれるのは、原理や趣旨を述べたうえで、それを構造の違う分野へ応用した行動が、違う2分野以上で裏づけられたときだけ。「気づいた」では足りず、「別の分野でも同じ仕掛けを捕まえた」が条件になる。

L3とL4の境目は、「自分が作った判断基準を、他人が使っているか」だ。L3は、本人が原理から実態を判断できる段階。L4は、その判断の枠組みが本人の手を離れ、他の審査者の標準的な着眼点や教材・基準として定着した段階だ。ここでの裏づけは本人の語りではなく、「他人が採用した」「成果物として残っている」という外部の事実で取る。「新しい着眼点を思いついた」だけではL4に届かない。「誰がいつ何に使っているか」という具体的な事実が要る。なぜ外部の事実にこだわるのか。本人の自己評価だけだと、いくらでも盛れてしまうからだ。

どちらの境目でも、主張ではなく具体的な過去の出来事で裏づけられたときだけ、上の段階に置く。これが最近傍照合のねらいだ。本人の証言を一番近い発言の見本に当て、その見本の数値を採る。評価者が「たぶんL3だろう」と感じたことは、判定に入れない。感触は証拠ではないからだ。

測定設計（行動証拠とAI対話） ── 全 10 回の地図

第 1 回: 印象と自己申告の危うさ ── 測るのは「発揮された行動」だけ ── 第3シリーズ「測定設計」の出発点。なぜL(その人の到達した実力ランク)を本人の自己申告で決められないのか、測る対象を「実際にやった行動」だけに絞る理由と、聴き取り手順・評価のものさし・点数の付け方を一本に束ねる考え方を、やさしく解説する。
第 2 回: STARで聴く ── 状況・課題・行動・結果・思考 ── 過去に実際に起きた出来事を一つだけ取り上げ、「どんな場面で(状況)・何を任され(課題)・自分は何をして(行動)・どうなったか(結果)・なぜそう判断したか(思考)」の五つに分けて聞く。聞く時間の半分以上を「行動」に使い、やったことを動詞で書き取り、「結果」で本当に起きたかを確かめ、「思考」で判断の根っこを引き出す。
第 3 回: 二軸への符号化 ── 行動が視野を、思考が抽象度を露わにする ── 面接で聴いた一つの「やったこと」の話を、どこまで広く動けたか（視野σ）・どんな筋で考えたか（抽象度α）・本当にあった話か（接地g）の三つに翻訳する手順を、資材チェックの実例で具体化する回。
第 4 回: BEIの6原則 ── 測定値の汚染を防ぐ公理 ── 人が語った「実際にやったこと」を、考えの深さ・行動の届く範囲・実話の裏付け、という3つのものさしに置き換える。そして「裏付けのある中で一番高い実力」をその人の読みとする。この置き換えを濁らせないための、6つの聞き方の作法を身近な例で説明する。
第 5 回: 三つの帯 ── 抽象度α・視野σ・接地g の尺度 ── レベルを決める前に、聴き取った行動を測るための三つのものさし(判断の高さ・行動の広さ・事実の裏づけ)を決める回。点数ではなく「段」で測る。
第 6 回: Lの決め方 ── 接地天井と本道への射影 ── 裏づけのない話はレベルを上げない。実際の行動で確かめた到達点だけを採り、二つのものさしをならしてLを読む。
第 7 回 (本回): レベルを分ける観察行動 ── 8次元アンカーと境界 ── 「どんな行動をしたか」の見本帳(アンカー表)を使い、本人の話を一番近い見本に当てはめてレベル(L1〜L4)を決める。8つの能力すべてを同じやり方で測る回。
第 8 回: 信頼度と観測可能性 ── その読みをどれだけ確定してよいか ── 「その評価はどれくらい確かか」を数で持つ回。証拠の数・話の筋・見える立場から確からしさ(信頼度C)を出し、見えていたかと証拠を出せたかから観測可能性oを決め、両方を掛けた重みwで最後の集計に渡す。
第 9 回: 多人数AI対話 ── 裏取りで他者水準、乖離で校正 ── 一人の目では人は測れない。本人と複数の同僚が同じ聞き取り(BEI)を受け、「その場面をちゃんと見ていたか」で各人の票に重みをつけ、裏が取れた読みだけを束ねて他者から見た水準を出す。本人の自己評価とのズレは、能力ではなく「自分をどれだけ正しく見ているか」として別の欄に置く。
第 10 回 (最終回): 統合出力から当確ラインへ ── レコードと運用手順 ── 第3シリーズ「測定設計」最終回。一人ひとり・一項目ごとに作る「成績票」が、どの数値を合否判定のどの関門に渡すか。そして測定を実際に回す7つの手順を、専門用語を日常語に置き換えながら平易に解説する。

結語

レベルを分けるのは、肩書でも自己申告でも、評価者の感触でもない。面接で聴ける具体的な行動が、汎用スキーマ(共通の基準表)の型に当てはまり、隣のレベルとの境界条件(別分野への応用、他人による採用)を、実際に起きた出来事で満たすかどうかだ。8つの能力のアンカー表は、その判断を「どの発言にいちばん近いか」というたった一つの問いに変える。

次回は、この見本合わせで出た一人ぶんの読みを、本人と複数の第三者の重みつき統合へつなぐ。一人の目に映ったレベルは、まだ測定の途中にすぎないからだ。

Key Points ── 持ち帰る 3 つ

共通の基準表で8能力を同じやり方で測る。抽象度αと視野σが両方とも段階nならレベルはn+1、という対角線上の素直な型を基準にし、各レベルを「実際にやった行動の型」で見分ける。
アンカー表(発言の見本帳)が「迷わず決められる」を担保する。本人の証言を一番近い発言の見本に当て、右の数値(α・σ・g)を採るだけ。境界を評価者の気分に委ねない。
難しい境目は「実際の出来事」で固定する。L2/L3は「原理を述べ、別分野へ応用したか(違う2分野)」、L3/L4は「自分の基準を他人が使っているか(他人の採用)」を、具体的な過去の事実で確認する。

出典・参考文献

McClelland, D. C. Testing for Competence Rather Than for Intelligence. American Psychologist, 1973. 知能でなく発揮された行動を測るという測定思想の起点。
Boyatzis, R. E. The Competent Manager: A Model for Effective Performance. Wiley, 1982. 行動事象面接(BEI)でコンピテンシーを行動証拠から識別する枠組み。
Smith, P. C., & Kendall, L. M. Retranslation of Expectations: An Approach to the Construction of Unambiguous Anchors for Rating Scales. Journal of Applied Psychology, 1963. 行動アンカー評定尺度(BARS)の原典。本話のアンカー表の系譜。
Spencer, L. M., & Spencer, S. M. Competence at Work: Models for Superior Performance. Wiley, 1993. レベル分けのスケーリングと行動指標の体系化。

← 測定設計（行動証拠とAI対話）一覧に戻る