데이터 과학으로 탐지하는 가짜뉴스, 데이터 과학으로 대응하는 코로나19 인포데믹

페이지 정보

최고관리자 | Issue 작성일22-03-29 13:01

본문

[2022.03.29.]

데이터 과학으로 탐지하는 가짜뉴스

데이터 과학으로 대응하는 코로나19 인포데믹

차미영

한국과학기술원 전산학부 교수, 기초과학연구원 CI / 공학박사

meeyoungcha@kaist.ac.kr

사회 문제로 이어지는 가짜뉴스

‘10초간 숨 참기로 자가 검사를 할 수 있다.’

‘불꽃놀이는 대기 중의 바이러스를 없앤다.’

‘사회적 거리 두기를 강제하기 위해 러시아 정부는 거리에 사자를 풀었다.’

코로나19의 확산과 함께 황당한 가짜뉴스들이 퍼져나갔다[1, 2]. 일부는 사회의 뿌리 깊은 관습과 어우러지며 특정 문화권을 장악했고, 또 일부 거짓 정보는 동서양을 막론하고 많은 나라에서 동시다발적으로 전파됐다. 이러한 인터넷상의 단순 오정보나 부정확한 주장, 그리고 고의로 유포된 허위정보까지 다양하고 엄청난 양의 가짜뉴스로 인해 더는 어떤 정보가 옳은지 그른지 판단하기 어려워진 상태를 인포데믹(infodemic)이라 부른다.

백신과 치료제가 부재한 초기 팬더믹 상황에서 인포데믹은 잘못된 예방법과 치료법을 확산시키며 심각한 피해를 줬다. 소금물 스프레이를 뿌린 한 종교 시설의 집단감염 사례나 알코올 소독을 하려고 메탄올 방역으로 수백 명이 사망한 사례가 그 예이다. 인포데믹의 전파는 혼자만의 선택이 아닌 사회적 교류를 통한 강화학습으로 이뤄진다. 포스트 코로나 시대를 논하는 지금까지도 인포데믹은 백신 거부 운동, 국가 의료에 대한 불신, 특정 집단에 대한 혐오로 이어지며 사회 문제를 일으킨다.

데이터 과학이 설명하는 루머의 전파

가짜뉴스를 통한 혐오와 불신은 왜 지속하는 것일까? 그리고 이에 대처할 데이터 방법론은 무엇일까? 밈(meme)은 리처드 도킨스의 저서 ‘이기적 유전자’에서 나온 개념으로, 유전자뿐만 아니라 문화적 정보 또한 모방과 복제로 전파될 수 있다는 의미이다[3]. 심리학 이론인 ‘확증편향(confirmation bias)’과 ‘정보의 폭포 현상(information cascade)’도 같은 현상을 설명해준다. 확증편향은 나와 신념이 일치하는 생각이나 글만 선택적으로 찾고 재확산 시키며, 반대되는 정보는 배척하거나 까다롭게 받아들이는 인지적 편향을 일컫는다. 정보의 폭포 현상은 주변에 특정 정보를 믿는 사람이 늘어날수록 그에 대한 믿음이 강화되는 현상이다[4].

가짜뉴스를 데이터 과학 기법으로 그 전파 과정을 담은 네트워크를 분석한 연구들이 있다. 필자가 진행했던 루머 연구도 이에 속하는데 정보가 전파된 패턴을 활용하는 아이디어이다[5]. 예로 루머의 네트워크는 산발적이며 참여로 이뤄지며 인지도가 낮은 사용자들로 시작되어 유명인에게 전파되는 반면, 일반 정보는 서로 연결된 사용자들이 함께 참여하며 정보의 방향도 일반적으로 반대이다. 통계·수학적 모델을 활용하면 빅데이터를 기반으로 하여 진위여부를 판단하는 것이 가능해진다. 그 밖에 MIT 연구팀의 결과에 따르면 내용이 새롭고 자극적일수록 전파력이 크며 일반 뉴스보다 온라인 전파 속도가 평균 6배 빠르다고 한다[6].

루머를 앞선 팩트 캠페인

다시 코로나19의 사례로 돌아가 보면, 확산 초기부터 인포데믹의 피해사례가 속출했다. 필자가 이끄는 연구팀은 동일한 루머가 여러 나라에서 언어를 바꾸어 재생산되는 패턴에 주목했는데, 바이러스가 비말감염을 통해 주로 전파되듯 그와 관련된 가짜뉴스는 소셜네트워크(SNS)를 매개로 빠르게 퍼졌다. 이러한 문제의식 속에서 우리는 반복되는 가짜뉴스의 확산을 막기 위해 ‘루머를 앞선 팩트(Facts Before Rumors)’ 캠페인을 시작했다[1,2]. 우선, 초기에 타격을 입은 중국과 한국에서 생산된 코로나19 관련 가짜뉴스 200여 건을 수집하고, 이중 건강과 직접적으로 관련된 루머를 선별하여 세계보건기구(WHO)나 질병관리본부의 정보를 토대로 팩트체크를 진행하여 여러 국가의 언어로 번역하여 인포그래픽으로 제작했다. 프랑스어, 독일어, 스페인어, 포르투갈어, 베트남어 등 총 21개국 언어로 번역된 인포그래픽은 루머를 앞선 팩트 홈페이지(www.ibs.re.kr/fbr)에 공개했다.

[그림 1] 루머를 앞선 팩트 캠페인 자료 화면(코로나19 인포데믹 방지 캠페인의 자료 화면)

[출처] https://ibs.re.kr/fbr/.

루머를 앞선 팩트 캠페인의 주된 목적은 가짜뉴스를 사전에 차단하여, 잘못된 정보로 인한 피해를 줄이는 데 있다. 이와 더불어 각 국가에 어떤 가짜뉴스가 얼마나 확산했는지 분석하기 위한 설문조사도 진행하였고, 이 캠페인이 총 151개국 5만 명 이상의 사용자에게 전파되어 추후 WHO에서 주최한 컨퍼런스에서 우수 캠페인 사례로 초청되기도 하였다.

캠페인을 통해 수집한 데이터 분석 결과, 코로나19 인포데믹이 세계적인 문제라는 중요한 증거를 찾을 수 있었다. 우려스럽게도 많은 설문 응답자들은 백신 가짜뉴스를 믿고 있었다. 가령, 마이크로소프트의 창립자이자 자선가인 빌 게이츠(Bill Gates)에 대해 그가 기부한 돈이 백신에 추적용 마이크로 칩을 이식하는 데 사용된다고 하는 가짜뉴스를 보자. 놀랍게도 아프리카에서는 4명 중 1명이, 미국에서는 5명 중 1명꼴로 이를 믿을만한 정보라고 평했다. 반면 아시아에서는 10명 중 1명만 해당 정보가 그럴싸하다고 평가했다.

설문조사 결과는 몇 가지 중요한 시사점을 발견했다. 우선, 국내총생산(GDP)과 같은 경제 지표가 낮은 국가의 인터넷 사용자일수록 온라인에서 코로나19에 관한 가짜뉴스에 더 많이 노출되는 경향이 있다는 점이다. 예컨대, 스웨덴과 핀란드는 설문에 참여한 40%의 사람들이 제시된 가짜뉴스를 본 적 있다고 답했지만, 카메룬과 필리핀 등 경제 하위 국가에서는 60% 이상이 가짜뉴스에 노출된 적 있다고 응답했다. 그 결과 나라별 국민소득과 인포데믹 노출 정도가 높은 상관관계가 보임을 알 수 있다[7]. 똑같이 인터넷을 사용하는 상황이라면, 개발도상국 사용자들이 접하게 되는 정보의 진위성(veracity)과 질(quality)이 더 낮다는 의미다. 문제는 가짜뉴스를 많이 접할 뿐 아니라 이를 사실이라고 믿는 경향도 더 높다는 데 있다. 경제 부흥국의 인터넷 사용자의 경우 16.7%만이 제시된 가짜뉴스를 진짜라고 믿었던 반면, 일부 개발도상국에서는 33.3%가 가짜뉴스를 신뢰한다고 답했다. 인프라가 취약한 나라가 인포데믹으로 인한 피해마저도 크다는 점을 보여주는 결과다.

[그림 2] 나라별 GDP에 따른 코로나 19 인포데믹 노출

(단위: log GDP per capita in USD 및 노출 비율 %)

[출처] https://humanfactors.jmir.org/2021/1/e23279

데이터 과학이 나아갈 방향

데이터 과학과 인공지능(AI) 알고리즘은 네트워크 내 정보의 출처를 추적하는 데 중요한 역할을 할 수 있다. SNS에서 각 사용자를 노드(node), 사용자 간 연결을 에지(edge)인 그래프로 취급하고, 이렇게 구축된 네트워크를 분석해 가짜와 진짜의 패턴을 AI로 학습함으로써 가짜뉴스의 허브 혹은 잠재적 유포자를 식별한다면, 이들을 다른 사용자들로부터 분리해 루머 유포를 차단할 수 있다. 블록체인(blockchain) 기술도 사용할 수 있다. 블록체인의 전체 거래 원장은 특정 정보와 함께 팩트체크 결과를 영구적으로 저장하기 때문에, 이후 해당 정보의 원출처를 밝히고 정보의 진실성도 확인하는 데 도움을 줄 수 있다.

플랫폼에서도 데이터와 AI를 사용한 방법을 도입하고 있다. 이런 모델은 특히 기존 가짜뉴스 데이터를 활용하여 학습을 진행할 경우 이와 유사한 특징과 패턴을 가진 새로운 데이터에 대해 훌륭한 탐지 성능을 보일 수 있다. 그러나 새로운 데이터와 패턴에 대해서는 탐지가 되지 않기 때문에, 루머에 대한 최종 결정에는 인간의 개입이 지속해서 필요하다.

세계적 문제로 떠오른 인포데믹은 새로운 현상이 아니라, 공포와 불안 심리를 활용하여 이미 사회에 존재하는 편견을 가시화하는 것에 불과하다. 범세계적 감염병은 또다시 지구상에 나타날 것이다. 이를 대비하여 인포데믹을 효과적으로 대처하는 데이터 과학과 AI 방법론으로 앞으로의 팬더믹을 우리 사회가 더욱 잘 대처하길 바란다. 가짜뉴스로 인한 사회문제 해결에 데이터와 인공지능을 비롯한 과학적 접근법을 적극적으로 모색할 시간이다.

<참고문헌>

[1] 기초과학연구원(IBS) 기획, 코로나 사이언스, 동아시아 2020

[2] 기초과학연구원(IBS) 기획, 팬데믹에서 엔데믹으로, 동아시아 2021

[3] 리처드 도킨스, 이기적 유전자, 을유문화사, 1976

[4] 캐스 선스타인, 우리는 왜 극단에 끌리는가, 프리뷰, 2011

[5] Kwon et al., Prominent features of rumor propagation in online social media, proc. of the IEEE International Conference on Data Mining(ICDM), December 2013

[6] Vosoughi et al, The spread of true and false news online, Science, March 2018

[7] Singh et al., Misinformation, believability, and vaccine acceptance over 40 countries: Takeaways from the initial phase of the COVID-19 infodemic, PLoS ONE, February 2022

뉴스레터

페이지 정보

본문