종합점수는 성과역량과 소통역량을 고려하여 산정된다.
기본적으로 면접 영상 분석으로 예측되는 소통역량은 업무에서 대면 상호작용이 많은 3개 직군, 영업, 경영지원, 서비스/고객지원에 한하여 5% 이하의 제한적인 가중치로 적용하고, 나머지 직군에는 반영되지 않는다.
또한 AI역량검사는 개별 기업의 환경과 인재에 대한 관점 등의 차이에 따라 성과의 기준과 중요 역량이 다르다는 가정 하에 각 기업에 맞는 커스터마이징도 제공한다. 이 커스터마이징을 이용하여 개별 기업의 특성에 보다 적합한 점수 계산방식을 제공할 수도 있다.
AI역량검사가 제공하는 종합점수와 13개 기관에서 제공한 재직자 평가와의 상관관계를 분석하여 정확도를 제시한다. 또한 기관에서 제공한 재직자 평가 데이터를 이용하여 커스터마이징한 모델을 활용했을 때의 정확도도 실제 사례를 통해 확인한다.
기관 재직자의 평가 점수 데이터를 기반으로 커스터마이징이 진행되므로 이 평가 점수는 재직자의 성과 역량을 객관적으로 반영해야 한다. 평가 점수가 갖춰야 할 중요한 요건은 다음과 같다.
특히 데이터 기반의 커스터마이징은 평가 점수가 가지고 있는 편향을 그대로 반영할 수 있으므로 기관의 평가 체계를 최대한 객관적으로 보완할 필요가 있다.
종합점수에 대한 정확도(준거 타당도)는 13개 기관의 재직자에 대한 AI역량검사의 검사 결과와 수검한 재직자의 업무평가 결과와의 상관관계를 통해 확인한다. 준거는 각 기관별로 면접평가, 인사평가, 다면평가, 성과평가, 역량평가 등 다소 상이하다. 5.1절에서 언급한 바와 같이 Hunter와 Schmidt의 교정 상관계수 산출 방법을 통한 메타분석을 수행하였다.
검사의 준거 타당도인 타당도 계수(coefficient of validity, r)는 준거와 검사 점수 사이의 상관계수 (coefficient of correlation)로 계산되며, 미국 노동부에서 발간한 채용 검사 활용에 대한 가이드에서 제시한 다음의 기준과 비교한다 [8, 10].
기관 ID |
대상 직군 | 표본수 (N) |
종합점수 |
---|---|---|---|
1 | 연구개발/경영지원 | 44 | 0.25 |
2 | 경영지원/연구개발/생산 | 114 | 0.36 |
3 | 엔지니어/영업 | 47 | 0.66 |
4 | 생산관리/연구개발 | 106 | 0.55 |
5 | 경영지원/연구개발 | 185 | 0.49 |
6 | 경영지원/엔지니어/영업 | 206 | 0.21 |
7 | 서비스/영업 | 60 | 0.59 |
8 | 경영지원/생산관리/영업 | 156 | 0.35 |
9 | 서비스/영업 | 55 | 0.35 |
10 | 경영지원/생산관리/서비스/영업 | 145 | 0.41 |
11 | 엔지니어 | 63 | 0.69 |
12 | 경영지원/디자인/영업/연구개발 | 131 | 0.37 |
13 | 경영지원 | 82 | 0.65 |
수정 상관계수의 메타분석 결과 | 1,394 | 0.42 |
교정 상관계수를 메타분석한 결과(표 13의 마지막 행)가 0.42의 값을 가지며 0.35보다 크다.11
이에 따라 AI역량검사 종합점수의 준거 타당도가 높은 수준이며, AI역량검사의 종합점수는 실제 채용에서 효용도가 매우 높게 활용할 수 있다고 판단할 수 있다
직군별로 업무 환경이나 속성에 따라 성과를 창출하는데 중요하거나 필요한 역량이 다를 수 있다.
직군별 역량 정보는 재직자들의 역량 프로파일의 모습과 동질성 수준을 판단할 수 있는 자료이며, 이와 같은 정보는 직군별 중요 적성 요인 프로파일링의 근거가 될 수 있다.
AI역량검사는 직군에 따라 상대적으로 중요한 역량을 파악하고, 해당 역량이 우수한 지원자들에게 가중치를 부여하고 있다. 판단의 근거가 되는 특성은 해당 직군 재직자들의 응시 결과, NCS, 워크넷, O*net 및 직군별 역량 관련 문헌을 기반으로 한다 [18-24].
커스터마이징은 개별 기업에 적합한 역량평가 모델을 제공하기 위하여 재직자 성과에 대한 지표와 이들의 AI역량검사 결과를 활용한다.
개별 기업의 실제 데이터를 기반으로 하는 커스터마이징을 통해 각 기업에 전용화된 맞춤형 역량평가 모델을 제공하는 것을 목적으로 한다.
각 기업은 보통 재직자를 고성과자 또는 저성과자로 분류한다는 관점에서 이런 분류에 대한 정확도 검토가 필요하다. 일반적으로 분류 문제에 대한 정확도는 분류 정확도(classification accuracy), 민감도 (sensitivity), 특이도(specificity)로 판단하며 다음과 같이 계산된다.
정확도 | 설명 | 계산식 |
---|---|---|
분류 정확도 | 고/저 성과자를 정확히 분류한 비율 | ![]() |
민감도 | 고성과자를 고성과자로 분류한 비율 | ![]() |
특이도 | 저성과자를 저성과자로 분류한 비율 | ![]() |
커스터마이징 이전의 종합점수와 커스터마이징 이후의 종합점수를 비교한다.
이를 위해 특정 기업의 연구개발 직무 142명의 데이터를 활용하여 해당 기업에 적합한 역량평가 모델을 생성한다. 그림 3은 커스터마이징 전후에 종합점수 산정에 사용되는 가중치 값의 변화를 보여준다.
표 15는 커스터마이징 전후 종합점수의 준거 타당도와 고/저 성과자 분류에 대한 정확도를 보여준다.
구분 | 요인 | 수정 상관계수 (N=142명) |
정확도 (상/하위 25%를 고/저 성과자로 구분) |
---|---|---|---|
커스터마이징 전 | 종합점수 | 0.595 | 분류 정확도 63% 민감도 60% 특이도 66% |
커스터마이징 후 | 커스텀 종합점수 가중치, 응답패턴 커스터마이징 |
0.762 | 분류 정확도 76% 민감도 74% 특이도 79% |
준거 타당도를 파악하는 수정 상관계수가 0.595에서 커스터마이징 수준에 따라 0.762까지 향상되고, 상/하위 각 25%를 고/저 성과자로 구분한 경우에 분류 정확도는 63%에서 76%로 향상되었다.
이는 AI역량검사의 커스터마이징을 이용하여 각 기업에 적합한 역량평가 모델을 구축하고, 효용도가 매우 높게 활용할 수 있음을 보여준다.
다음은 국내에서 선발용으로 가장 많이 사용되는 인적성 검사 3개에 대해 재직자 대상의 유사 테스트 (고/저 성과자 분류 예측)를 수행한 결과이다.
기업 A의 재직자 60명 대상 (입사 1~5년차) | 기업 B의 재직자 146명 대상 | |||
---|---|---|---|---|
A검사 | B검사 | C검사 | B검사 | |
분류 정확도 | 41.5% | 25.0% | 35.0% | 28.0% |
민감도 | 38.6% | 34.0% | 40.9% | 32.0% |
특이도 | 50.0% | 12.5% | 35.1% | 19.6% |
기존 인적성 검사들은 평균 32.3%의 낮은 성과 예측 정확도를 보인다.12
이 결과와의 간접 비교로 AI역량검사의 성과 예측 정확도(커스터마이징 전 63%, 커스터마이징 후 76%)가 우수한 것을 확인할 수 있다.