머신 러닝 알고리즘의 정확성을 높이기 위해서는 보안 이벤트에 정답을 달아주는 '레이블링'과 머신 러닝 알고리즘이 내놓은 예측 결과를 평가하고 필요 시 재 학습시키는 피드백 과정이 필수적으로 요구된다. 레이블링 작업을 토대로 머신 러닝 알고리즘이 학습할 수 있는 학습 데이터를 생성할 수 있고, 피드백 과정을 반복하면서 학습 된 머신 러닝 알고리즘의 모델의 성능을 향상시킬 수 있기 때문이다.
그러나 레이블링이 필요한 학습 데이터와 기존 학습 시에 없었거나 일부 변화된 예측 데이터가 급증하면서 레이블링과 피드백 업무의 효율성을 높이는 기술의 필요성이 높아졌다. 여러 담당자들이 다른 기준에 따라 레이블링 정보를 입력하는 과정에서 학습 데이터의 신뢰도가 떨어지고, 담당자가 일일이 불만족스러운 머신 러닝 예측 결과에 대한 피드백을 부여해야 해 작업 시간이 길어지는 점이 문제였다.
이번에 취득한 '머신 러닝 학습 데이터 생성 방법 및 그 시스템'에 대한 특허는 작업자의 실수로 인해 발생할 수 있는 레이블링 작업 오류를 줄이고 학습 데이터의 무결성을 유지하는 기술이다. 여러 담당자가 레이블링 정보를 변경하는 이력을 수치화해 사용자에게 많이 선택된 이력과 가장 최근 업데이트된 이력에 가중치를 부여한다. 이후 가장 높은 점수를 받은 이력을 레이블링 데이터로 결정하고 이를 토대로 학습 데이터를 생성함으로써 학습 데이터의 신뢰도를 높일 수 있게 된다.
'머신 러닝의 예측 데이터 피드백 적용 방법 및 그 시스템'에 대한 특허는 능동 학습 기반의 피드백 적용을 통해 피드백 작업 시간을 최소화하면서 피드백의 정확성을 높이는 기술이다. 머신 러닝 모델이 예측한 결과를 군집화한 뒤 군집의 대표 이벤트를 결정해 이에 대한 피드백을 입력하면 이 피드백이 군집 내 나머지 이벤트에 적용되는 방식이다. 여러 군집 중 신뢰도 점수가 높은 군집 데이터에 먼저 피드백을 부여함으로써, 적은 수의 피드백으로도 머신 러닝 모델을 효율적으로 학습시킬 수 있다.
이득춘 이글루시큐리티 대표는 "양질의 학습
[김경택 기자 kissmaycry@mkinternet.com]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]