익명 정보라도 10개 이상 모이면 개인식별이 가능하다는 연구결과가 나왔다.
영국 임페리얼칼리지런던(ICL)와 벨기에 UC루뱅 공동 연구진은 익명으로 처리된 개인 정보를 15개 넣으면 미국에 거주하고 있는 특정한 개인을 99% 확률로 식별할 수 있는 알고리즘을 개발했다고 밝혔다. 연구결과는 국제학술지 '네이처 커뮤니케이션스' 최신호에 게재됐다.
연구진은 익명화된 데이터라 할지라도 개인 식별이 가능함을 확인하기 위해 머신러닝 기법을 이용한 알고리즘을 만들었다. 여기에 결혼 유무, 성별, 인종 등의 내용이 담긴 익명화된 정보를 10개 넣자 개인 식별률은 90%에 달하는 것으로 나타났다. 15가지 정보를 넣을 경우에는 식별률이 99.98%로 상당히 정확해지는 것을 확인했다. 연구진은 "미국에서 30대인 사람은 굉장히 많지만 뉴욕에 살면서 1월 5일에 태어났고, 빨간 스포츠카를 소유하고 있으며 두 딸과 한 마리의 개를 키우는 사람은 극히 드물다"고 말했다. 익명화된 정보라 할지라도 그 양이 많아지면 개인을 식별할 수 있는 확률이 빠르게 높아진다는 설명이다. 이처럼 익명화된 데이터로 개인을 식별한 사례는 이번이 처음이 아니다. 뉴욕타임즈는 "지난 2016년에도 독일의 300만명의 익명화된 유전자 데이터로 개인을 식별할 수 있음이 확인된바 있다"고 소개했다.
전 세계에서 하루에 만들어지는 데이터량은 25조 5000억 바이트에 달한다. 여기에는 개인의 건강 정보가 담긴 의료 정보를 포함해 인터넷 사이트에 접속해 로그인을 한 뒤 어떤 상품을 구매했다는 이력 등도 포함된다. 이같은 개인 정보는 개인정보보호법과 같은 법률에 의거, 개인을 식별화할 수 없도록 이름이나 e메일, 주민등록번호 등이 제거되는 익명화 과정을 거친다. 기업과 정부는 익명화된 정보를 연구를 비롯해 마케팅 등 다양한 분야에 활용하고 있다. 익명화된 데이터는 더 이상 보호 대상에 포함되지 않는만큼 제3자에게 판매할 수도 있다.
연구진은 "기업과 정부는 익명화된 정보가 불완전한 만큼 개인 식별이 어렵다고 이야기할 뿐 아니라 일반인 또한 익명화가 개인 정보를 안전하게 지켜줄 것이라고 믿는다"며
[원호섭 기자]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]