<img height="1" width="1" style="display:none;" alt="" src="https://px.ads.linkedin.com/collect/?pid=4666124&amp;fmt=gif">

7. 종합점수의 정확도 검증

종합점수는 성과역량과 소통역량을 고려하여 산정된다.

기본적으로 면접 영상 분석으로 예측되는 소통역량은 업무에서 대면 상호작용이 많은 3개 직군, 영업, 경영지원, 서비스/고객지원에 한하여 5% 이하의 제한적인 가중치로 적용하고, 나머지 직군에는 반영되지 않는다.

또한 AI역량검사는 개별 기업의 환경과 인재에 대한 관점 등의 차이에 따라 성과의 기준과 중요 역량이 다르다는 가정 하에 각 기업에 맞는 커스터마이징도 제공한다. 이 커스터마이징을 이용하여 개별 기업의 특성에 보다 적합한 점수 계산방식을 제공할 수도 있다.

AI역량검사가 제공하는 종합점수와 13개 기관에서 제공한 재직자 평가와의 상관관계를 분석하여 정확도를 제시한다. 또한 기관에서 제공한 재직자 평가 데이터를 이용하여 커스터마이징한 모델을 활용했을 때의 정확도도 실제 사례를 통해 확인한다.

기관 재직자의 평가 점수 데이터를 기반으로 커스터마이징이 진행되므로 이 평가 점수는 재직자의 성과 역량을 객관적으로 반영해야 한다. 평가 점수가 갖춰야 할 중요한 요건은 다음과 같다.

  • 재직자를 평가할 때에는 성별, 나이, 출신 지역 등에 대한 차별 또는 편향이 없도록 해야 함.
  • 불확실성이 높은 단기적인 성과보다는 개개인의 역량 기준으로 평가가 진행되어야 함.
  • 평가 기준은 명확해야 하며, 다면 평가제도를 통해 오차가 최소화 되도록 진행해야 함.
  • 직급이 높은 재직자 또는 승진이 임박한 재직자에 대한 평가점수의 상향화 등 기관의 특수한 환경적 요인들은 최대한 배제해야 함.

특히 데이터 기반의 커스터마이징은 평가 점수가 가지고 있는 편향을 그대로 반영할 수 있으므로 기관의 평가 체계를 최대한 객관적으로 보완할 필요가 있다.

7.1 종합점수의 정확도 (준거 타당도)

종합점수에 대한 정확도(준거 타당도)는 13개 기관의 재직자에 대한 AI역량검사의 검사 결과와 수검한 재직자의 업무평가 결과와의 상관관계를 통해 확인한다. 준거는 각 기관별로 면접평가, 인사평가, 다면평가, 성과평가, 역량평가 등 다소 상이하다. 5.1절에서 언급한 바와 같이 Hunter와 Schmidt의 교정 상관계수 산출 방법을 통한 메타분석을 수행하였다.

검사의 준거 타당도인 타당도 계수(coefficient of validity, r)는 준거와 검사 점수 사이의 상관계수 (coefficient of correlation)로 계산되며, 미국 노동부에서 발간한 채용 검사 활용에 대한 가이드에서 제시한 다음의 기준과 비교한다 [8, 10].

0.2 < r < 0.35 (효용도 높음), r >= 0.35 (효용도 매우 높음)

표 13. 종합점수의 준거 타당도

기관
ID
대상 직군 표본수
(N)
종합점수
1 연구개발/경영지원 44 0.25
2 경영지원/연구개발/생산 114 0.36
3 엔지니어/영업 47 0.66
4 생산관리/연구개발 106 0.55
5 경영지원/연구개발 185 0.49
6 경영지원/엔지니어/영업 206 0.21
7 서비스/영업 60 0.59
8 경영지원/생산관리/영업 156 0.35
9 서비스/영업 55 0.35
10 경영지원/생산관리/서비스/영업 145 0.41
11 엔지니어 63 0.69
12 경영지원/디자인/영업/연구개발 131 0.37
13 경영지원 82 0.65
수정 상관계수의 메타분석 결과 1,394 0.42

교정 상관계수를 메타분석한 결과(표 13의 마지막 행)가 0.42의 값을 가지며 0.35보다 크다.11

이에 따라 AI역량검사 종합점수의 준거 타당도가 높은 수준이며, AI역량검사의 종합점수는 실제 채용에서 효용도가 매우 높게 활용할 수 있다고 판단할 수 있다

직군별로 업무 환경이나 속성에 따라 성과를 창출하는데 중요하거나 필요한 역량이 다를 수 있다.

직군별 역량 정보는 재직자들의 역량 프로파일의 모습과 동질성 수준을 판단할 수 있는 자료이며, 이와 같은 정보는 직군별 중요 적성 요인 프로파일링의 근거가 될 수 있다.

AI역량검사는 직군에 따라 상대적으로 중요한 역량을 파악하고, 해당 역량이 우수한 지원자들에게 가중치를 부여하고 있다. 판단의 근거가 되는 특성은 해당 직군 재직자들의 응시 결과, NCS, 워크넷, O*net 및 직군별 역량 관련 문헌을 기반으로 한다 [18-24].

그림 2. 직군별 역량점수의 분포 : (a) 신뢰역량, (b) 가치역량, (c) 전략역량, (d) 조직적합, (e) 관계역량

7.2 커스터마이징 기능의 예시

7.2.1 커스터마이징 방법

커스터마이징은 개별 기업에 적합한 역량평가 모델을 제공하기 위하여 재직자 성과에 대한 지표와 이들의 AI역량검사 결과를 활용한다.

개별 기업의 실제 데이터를 기반으로 하는 커스터마이징을 통해 각 기업에 전용화된 맞춤형 역량평가 모델을 제공하는 것을 목적으로 한다.

  • 기계학습(machine learning) 알고리즘을 사용하여 주어진 역량평가에 적합한 모델을 생성하고, 이를 통한 성과 예측을 함.
  • 주어진 데이터에 과적합된(overfit) 모델 생성을 방지하기 위해 교차검증(cross validation)을 사용하여 일반화된 모델을 형성함:
    1. (1) 학습을 위한 데이터(train set)와 검증을 위한 데이터(test set)를 7:3 또는 6:4로 무작위로 구분함.
    2. (2) 기계학습 방법을 이용하여 학습 데이터와 상관관계가 가장 높은 모델 파라미터를 계산하고, 계산된 모델을 검증 데이터(test set)에 적용하여 정확도를 계산함.
    3. (3) (1), (2)의 과정을 100회 반복하여 평균 정확도를 산정함.

7.2.2 고/저 성과자 분류 정확도

각 기업은 보통 재직자를 고성과자 또는 저성과자로 분류한다는 관점에서 이런 분류에 대한 정확도 검토가 필요하다. 일반적으로 분류 문제에 대한 정확도는 분류 정확도(classification accuracy), 민감도 (sensitivity), 특이도(specificity)로 판단하며 다음과 같이 계산된다.

표 14. 분류 정확도 계산 방법

정확도 설명 계산식
분류 정확도 고/저 성과자를 정확히 분류한 비율
민감도 고성과자를 고성과자로 분류한 비율
특이도 저성과자를 저성과자로 분류한 비율
  • TP (True Positive): 고성과자를 고성과자로 분류한 개수
  • TN (True Negative): 저성과자를 저성과자로 분류한 개수
  • P (Positives): 고성과자 수, N (Negatives): 저성과자 수

7.2.3 커스터마이징 기능의 사례

커스터마이징 이전의 종합점수와 커스터마이징 이후의 종합점수를 비교한다.

이를 위해 특정 기업의 연구개발 직무 142명의 데이터를 활용하여 해당 기업에 적합한 역량평가 모델을 생성한다. 그림 3은 커스터마이징 전후에 종합점수 산정에 사용되는 가중치 값의 변화를 보여준다.

그림 3. 커스터마이징 전후의 역량별 가중치 분포

표 15는 커스터마이징 전후 종합점수의 준거 타당도와 고/저 성과자 분류에 대한 정확도를 보여준다.

표 15. 커스터마이징 사례: 커스터마이징 전/후의 준거 타당도와 정확도

구분 요인 수정 상관계수
(N=142명)
정확도
(상/하위 25%를 고/저 성과자로 구분)
커스터마이징 전 종합점수 0.595 분류 정확도 63%
민감도 60%
특이도 66%
커스터마이징 후 커스텀 종합점수 가중치,
응답패턴 커스터마이징
0.762 분류 정확도 76%
민감도 74%
특이도 79%

준거 타당도를 파악하는 수정 상관계수가 0.595에서 커스터마이징 수준에 따라 0.762까지 향상되고, 상/하위 각 25%를 고/저 성과자로 구분한 경우에 분류 정확도는 63%에서 76%로 향상되었다.

이는 AI역량검사의 커스터마이징을 이용하여 각 기업에 적합한 역량평가 모델을 구축하고, 효용도가 매우 높게 활용할 수 있음을 보여준다.

다음은 국내에서 선발용으로 가장 많이 사용되는 인적성 검사 3개에 대해 재직자 대상의 유사 테스트 (고/저 성과자 분류 예측)를 수행한 결과이다.

표 16. 기존 인적성 검사의 고/저 성과자 분류 정확도 (2016년, 2개 기업의 재직자 206명 대상)

기업 A의 재직자 60명 대상 (입사 1~5년차) 기업 B의 재직자 146명 대상
A검사 B검사 C검사 B검사
분류 정확도 41.5% 25.0% 35.0% 28.0%
민감도 38.6% 34.0% 40.9% 32.0%
특이도 50.0% 12.5% 35.1% 19.6%

기존 인적성 검사들은 평균 32.3%의 낮은 성과 예측 정확도를 보인다.12

이 결과와의 간접 비교로 AI역량검사의 성과 예측 정확도(커스터마이징 전 63%, 커스터마이징 후 76%)가 우수한 것을 확인할 수 있다.

  1. *11 참고로 동일한 검증 사례는 아니지만 2.4절에서 소개한 미국의 HireVue는 IO 기반의 비디오 인터뷰를 구성하고, 이를 통해 0.3~0.4의 r값(상관계수)을 얻었다고 소개하고 있음.
    “With our validated, I-O designed video interview questions, we get a .3 - .4 (r-value). When the video interview is designed correctly and considered correctly with I-O techniques, there are good reasons to reconsider long-standing methods.” (Nathan Mondragon, HireVue의 Chief IO 심리학자) 자료 바로 가기
    [주] HireVue도 미국 노동부의 채용 검사 활용에 대한 가이드에서 제시하는 기준과 동일하게 r값이 0.2보다 크면 효용도가 높고, 0.35 이상이면 효용도가 매우 높다고 판단하고 있음.
  2. *12 참고로 기업들은 채용에서 고성과자 예측뿐만 아니라 부적응/저 성과가 예상되는 지원자를 예측하는 것도 중요하게 고려하는데, 1개 인적성 검사(B검사)는 이런 예측 지표인 특이도가 민감도의 절반 수준으로 낮음. 특히 민감도와 특이도의 차이가 큰 검사는 고/저 성과 예측에 적합하다고 보기 어려움.
    기본적으로 분류 예측 모델은 민감도와 특이도가 비슷한 수준으로 양립해야 하며, 대상 분야/목적에 따라 다르지만 일반적으로 음성(-) 분류 예측이 중요한 의료/채용 분야에서는 특이도가 민감도 보다 크도록 예측 모델을 구축하는 경우도 많음. 2.4절에서 소개한 미국의 Pymetrics도 이러한 분류 정확도(top/bottom performer classification)에서 특이도가 민감도 보다 조금 더 큰 모델을 제시하고 있음 [9].
    [참고] “민감도와 특이도 양립해야 좋은 진단 기법”, 바로 가기