<img height="1" width="1" style="display:none;" alt="" src="https://px.ads.linkedin.com/collect/?pid=4666124&amp;fmt=gif">

6. 소통역량 분석의 정확도 검증

소통역량 분석은 일반적으로 사람들이 소통 과정에서 무의식적으로 인식하는 특징(feature)을 영상 데이터로부터 가공, 추출하는 단계와 이러한 특징을 이용하여 실제 면접 상황에서 발현되는 소통역량을 추론하는 단계로 구성된다.

전체 프로세스는 여러 학습모델을 조합하여 최종적으로 지원자의 소통역량을 예측하는 형태로 진행된다.

그림 1. 소통역량 분석 알고리즘 개요

6.1 소통역량 분석 알고리즘의 정확도

AI(인공지능) 알고리즘을 적용한 예측의 정확도를 확보하기 위해서는 변별력 있는 특징(feature)의 선택, 양질의 데이터 확보, 그리고 데이터의 특징에 적합한 알고리즘의 선택이 매우 중요하다. 결과적으로 모델의 성능은 주어진 데이터에 대한 정확도 수치를 통해 산정할 수 있다.

여기에서 소통역량의 정확도는 (1) 소통역량의 예측을 위한 각 구성요소들의 정확도, 그리고 (2) 전체 프로세스의 정확도를 통해 확인한다.

6.1.1 시각 및 음성 추론 모델의 정확도 검증

모델 학습을 위한 데이터와 정확도는 표 11에 정리되어 있으며, 정확도 평가는 최신 연구 결과, 활용도가 높은 상용 알고리즘의 결과 등을 기초로 선정한다.

표 11. 소통역량 분석의 구성요소에 대한 AI(인공지능) 알고리즘의 정확도8

모델 데이터 정확도 비고/평가
표정/감정 인식 8가지 표정에 대해 약 3만 장의 학습 데이터 84% 유사 데이터에 대한 최근 연구(state- of-the-art)는 89% 수준.
표정 분류가 최종 목표가 아니라, 최종 관찰특성 추론을 위한 특징으로 활용하기 때문에 이 용도에 충분한 정확도를 갖는다고 판단됨.
얼굴 랜드마크 위치, 각도 및 얼굴 인식 49만 장의 학습 데이터 (ETRI) 얼굴인식 정확도
99%
ETRI 제공 시험 결과.
음성인식 모델 약 1천 시간 분량 음성 데이터 (ETRI 구축)
약 4.6만 개의 문장 데이터 (마이다스인 구축)
85% 구글의 GCP가 81% 수준 (2018 하반기 공채 랜덤 샘플 데이터 257개 기준).
채용 환경에서는 특수 용어가 자주 등장하므로 문자 음성인식 기술의 현 수준에서는 정확도에 상한이 있음.
음성 인식된 데이터를 발성 속도 등의 추론을 위해 제한적으로 활용하므로 현재 수준으로 충분하다고 판단됨.
발성특징 모델 음성파일 5천여개 주어진 음성 정보에 대하여 평가 항목 레이블 생성 (다수의 평가자) 80% 동일 음성 정보에 대해 평가자간 편차를 감안하면 실제 사람이 평가한 수준과 유사한 수준의 정확도를 확보한 것으로 판단됨.

6.1.2 종합 모델에 대한 정확도 검증

종합 모델의 AI(인공지능) 알고리즘은 시각 추론 모델과 음성 추론 모델에서 가공, 추출한 데이터를 기초로 최종적으로 응시자의 관찰 특성을 추론하는 역할을 하며, 이에 따라 종합 모델에서 사용하는 AI(인공지능) 알고리즘의 정확도는 관찰 특성에 대한 정확도를 의미한다.

표 12. 종합 모델에 대한 AI(인공지능) 알고리즘의 정확도

검증 방법 및 정화도 내용
학습을 위한
평가 데이터 수집
  • 1,279명의 응시자 영상에 대해 53명이 평가 (관찰 특성에 대한 레이블 생성).
  • 응시자 1명에 대해 평가자 1~4명이 6점 척도로 평가 진행.
  • 이분법 분류를 위하여 데이터 변환 (1~2점: 0, 5~6점: 1, 그 외 데이터는 제외).
  • 여러 명이 평가한 경우, 다수의 점수를 택하되 판단이 갈리면 데이터에서 제외.
학습 방법
  • 데이터 불균형 문제에 대한 고려로 데이터 수가 분류에 대해 일치하도록 무작위 샘플링 하여 학습에 사용.
  • 기계학습 사용 (Logistic Regression9, Random Forest10).
정확도 추정
  • 교차검증 방법 도입 (10겹 교차검증, 데이터 불균형이 없도록 샘플링).
  • 정확도 기준으로는 분류 정확도(classification accuracy)를 사용.
정확도 수치
  • 긴장수준 : 67%
  • 의사전달능력 : 72%
  • 자신감 : 76%
  • 감정전달능력 : 71%
  • 호감도 : 72%
  • 신뢰감 : 69%

동영상을 이용한 사람 판단에서의 불확실성을 고려할 때, 의미 있게 높은 수준의 정확도를 보이며 선택한 하위 요인에 대해 변별력이 높다고 판단할 수 있다.

  1. *8 AI역량검사는 얼굴인식과 한국어 음성인식에 ETRI(한국전자통신연구원) 기술을 활용하고 있음. 표 11의 ETRI 데이터/기술은 얼굴인식/음성인식과 관련된 구성요소에 국한된 것이며, AI역량검사 전체 또는 소통역량 분석에 대한 ETRI의 책임/보증을 의미하지는 않음.
  2. *9 로지스틱 회귀(logistic regression)는 데이터가 특정 범주에 속할 확률을 예측하여 분류하는 머신러닝 방법.
  3. *10 랜덤포레스트(random forest)는 여러 개의 의사결정 트리(decision tree)를 통합하여 분류 문제를 푸는 머신러닝 방법.