검색엔진·SNS 보면 매독 감염 추세 예측 가능(연구)
인터넷 검색엔진과 트위터 등 소셜미디어를 이용해 매독의 감염 추세를 예측할 수 있는 것으로 나타났다. 미국 캘리포니아대 로스앤젤레스 캠퍼스(UCLA) 등의 최근 연구 결과다. 이에 따르면 성적 위험행동과 관련된 인터넷 검색어와 트위터의 트윗 내용으로 미뤄보아, 언제·어디서 매독이 발생하는지 예측할 수 있다.
UCLA 예측기술연구소와 미국질병통제예방센터(CDC)는 ‘특정 위험 용어와 관련된 구글 이용자들의 검색어·트위터 이용자들의 트윗 내용’과 ‘그 이후 CDC에 보고된 매독 감염 추세’ 사이에 관련이 있는 것으로 나타났다고 밝혔다.
숀 영 UCLA 부교수(예측기술연구소장)은 “각종 성병과 마약남용·암이 언제·어디서 발생하는지에 대한 좋은 정보를 확보하면 예방에 큰 도움이 될 것”이라고 말했다. 그는 “그런 점에서 최근의 두 가지 관련 연구 결과에 주목할 만하다”고 덧붙였다.
연구팀은 2012년 1월 ~ 2014년 12월 ‘구글 트렌드’ (trends.google.com)에서 성(sex)·성병(STD) 등 25개 키워드·구문을 수집했다. 또 미국 50개 주 전체에 대한 CDC의 매독 발병에 관한 주간 데이터를 ‘구글 트렌드’의 주간 데이터와 비교, 분석했다.
연구팀은 컴퓨터 과학 중 인공지능의 한 분야인 머신러닝을 활용해 구글의 매독 관련 검색어와 실제 매독 발병률 사이의 관계를 분석했다. 구글 검색어로 매독 발병을 과연 예측할 수 있는지 테스트했다. 그 결과, 머신러닝을 통해 144주 동안 각 주의 매독 환자들의 발생을 90%의 정확도로 예측할 수 있다는 사실을 알아냈다. 이 내용은 ‘역학’(Epidemiology) 저널에 실릴 예정이다.
또 연구팀은 2012년 5월 26일~12월 9일 성적 위험행동과 관련된 카운티 수준의 트위터 자료를 지역별로 8,538건 수집해 분석했다. 또 최근 12개월 동안 발생한 것으로 보이는 매독 1기, 매독 2기 및 초기 잠복성 매독의 주간 감염 사례를 카운티 수준에서 분석했다. 초기 잠복성 매독이란 최근 12개월 안에 감염됐으나 증상이 전혀 나타나지 않는 경우를 말한다.
연구 결과, 2012년에 성적 위험행동과 관련된 트윗 내용이 많은 카운티에서는 2013년 매독 1·2기의 감염이 약 2.7%, 초기 잠복성 매독의 감염이 약 3.6% 늘어난 것으로 나타났다. 이 내용은 ‘예방의학’저널에 발표됐다.
이 두 가지 연구는 모두 한계를 안고 있다. 구글 관련 연구의 경우 매독 1·2기 감염 사례가 보고되지 않았을 가능성이 있다. 전체 검색엔진 이용자 가운데 구글 이용자는 약 64%에 그쳐 편차가 발생할 수 있다. 또 ‘구글 트렌드’ 데이터는 전체 데이터 중 무작위 샘플링에 따른 일부에 불과하다. 따라서 전체 분석모델에 상당한 영향을 미칠 수 있다.
트위터 관련 연구의 경우엔 데이터의 규모가 썩 크지 않다는 게 한계점이다.
연구팀은 이런 한계점을 보완하면 적은 비용으로 구글·트위터 등의 데이터를 활용해 HIV(인간면역결핍바이러스)·매독 등 각종 성병의 예측에 큰 도움을 받을 수 있을 것으로 기대했다.
김영섭 기자 edwdkim@naver.com
저작권ⓒ '건강한 성, 솔직한 사랑' 속삭닷컴(http://soxak.com) / 무단전재-재배포 금지