↑ [자료 제공 = 한국은행] |
한은 경제통계국 통계연구반 서범석 과장은 16일 '뉴스 텍스트를 이용한 경기 예측: 경제 부문별 텍스트 지표의 작성과 활용'을 주제로 한 BOK 이슈노트에서 "뉴스 텍스트 기반의 경제지표를 반영해 경기 예측 모형을 구축한 결과, 경기 예측 정확도가 유의미하게 향상되는 것을 확인했다"고 밝혔다.
서 과장은 뉴스 텍스트 지표 작성을 위해 2005년 1월부터 올해 3월까지 인터넷에 게재된 경제 분야 뉴스 기사 전체를 분석했다. 연간 약 70개 언론사의 1000만건 뉴스 기사, 문장 기준으로 연간 약 1800만 문장이다.
서 과장은 경제적으로 관심이 높은 생산, 고용, 물가, 주가, 주택가격 등 15개 부문을 직접 선정하고, 각 부문별로 대상 지표를 정해 이들 지표의 흐름을 예측하는 텍스트 지표를 각각 작성했다.
텍스트 지표는 기존 연구와 달리 사전 접근법 방식을 문장별로 적용해 작성했다. 사전 접근법은 미리 정해 놓은 단어의 포함 여부를 기준으로 텍스트를 분석하는 방식이다.
이렇게 부문별로 텍스트 지표를 작성해 관련 공식 통계와 비교분석한 결과, 텍스트 지표가 0~9개월 선행시점에서 공식 통계와 0.35~0.73의 상관관계를 보인 것으로 분석됐다. 1에 가까울수록 상관관계가 높다는 것을 의미한다.
↑ [자료 제공 = 한국은행] |
국내총생산(GDP) 증가률 예측 정확도를 분석한 결과에서는 선형(Dynamic Factor Model, DFM) 및 비선형(Convolutional Recurrent Neural Network, CRNN) 모형 모두 텍스트 지표를 추가한 경우 예측 정확도가 유의미하게 향상되는 것으로 나타났다. 이와 관련 서 과장은 코로나19의 영향이 크게 나타났던 2020년 6월말 기준으로 살펴보면 공식 통계만 이용한 경우에 비해 텍스트 지표를 추가한 경우 2020년 2분기 GDP 예측치가 관측치에 더 근접하고 여타 경제변수의 변화를 더 잘 포착했다고 설명했다.
서 과장은 "텍스트 지표는 조사 대상 기준일에 즉시 작성 가능헤 주로 익월 중순 이후에 발표되는 공식 통계에 비해 입수시점이 빠른 점과 전문가 전망 및 예측 등을 반
[전종헌 매경닷컴 기자]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]