보고서는 마치 포털뉴스가 정부·여당에 대한 비판적 기사를 쏟아내고 있는 듯 말한다. 그런데 실상은 5만236건의 기사 중 겨우 2%에 해당하는 비율이다. 맙소사! 고작 2%를 놓고 포털이 정부·여당에 비판적이라는 것이다.
새누리당 포털 보고서를 구해 읽어봤다. 포털뉴스의 정치 편향성이냐, 새누리당의 포털 길들이기냐를 두고 여야 간 치열한 공방전이 벌어지게 만든 바로 그 진원지가 아니던가? 정치권과 언론 그리고 포털이라는 한국 사회를 주름잡는 이 거대한 집단들을 한꺼번에 들썩거리게 만든 실로 어마어마한 보고서가 아니던가? 설레고 긴장되는 마음으로 예를 갖춰 한 줄 한 줄 꼼꼼히 이 대단한 보고서를 읽으리라 다짐했다.
하지만 이런 다짐은 서너 페이지쯤 넘어가자 금방 깨지기 시작했다. 중반쯤 읽어나갈 즈음부턴 “이거 뭐지?” 하며 고개를 갸우뚱하는 횟수가 늘어갔다. 그리고 마지막 페이지를 덮을 무렵엔 새로운 다짐이 생겨났다. “연구의 기본도 못 갖춘 이 보고서의 맹점을 내 샅샅이 파헤쳐 주리라!” 참, 미리 밝혀야겠다. 이 보고서의 정치적 의도 같은 건 관심 밖이다. 그런 건 여야 정치인들이 알아서 잘 싸워주시리라 믿는다. 그저 연구자로서 이렇게 세상을 시끄럽게 할 만큼 제대로 연구하고 분석한 보고서인지를 파헤쳐 볼 뿐이다.
빅데이터 없는 빅데이터 분석
결론부터 말하자면 이 연구 보고서는 5가지 중대한 오류를 범하고 있는 망작이다. 첫째, 제목과 내용의 불일치이다. 이 보고서의 표지에 적혀 있는 공식 제목은 <포털 모바일뉴스 메인화면 빅데이터 분석 보고서>이다. 하지만 보고서 어디에도 빅데이터 분석은 없다. 이 연구가 사용한 통계 기법은 가장 기초적인 수준의 빈도 분석과 교차 분석이다. 5만여건의 기사 제목을 ‘긍정’, ‘부정’, ‘중립’이라는 변인으로 분류해 각각의 비율을 집계한 빈도 분석, 그리고 여기에 다시 정부·여당과 야당이라는 변인을 넣어 재분류해 집계한 교차 분석이 끝이다. 이건 그냥 초보적인 통계 분석이지 빅데이터 분석이 아니다. 혹시 5만여건의 데이터를 다뤘으니 빅데이터 분석이라고 우긴다면 그냥 웃고 넘어가자.
둘째, 허술한 분석틀이다. 이미 언론이 지적했듯이 정부의 수많은 기관들과 여당을 하나로 묶고 이들에 대한 부정적 기사 수와 야당에 대한 부정적 기사 수를 비교했다. 표본의 크기가 다른데 이걸 그냥 단순 비교한 것이다. 굳이 숫자를 세지 않아도 당연히 정부·여당 관련 기사 수가 많을 수밖에 없다. 이런 경우엔 각각의 표본에 가중치를 부여해 분석하는 것이 통계의 기본 정석이다. 기사를 정치, 경제, 사회 등 카테고리별로, 그리고 세월호, 메르스 등 주요 이슈의 키워드별로, 분류해 분석한 방식도 상식 밖이다. 제대로 된 연구라면 카테고리별 분석과 키워드별 분석을 별도로 진행했을 것이다. 카테고리와 키워드는 차원이 다른 분류체계이기 때문이다. 그런데 이 연구에서는 상이한 분류체계를 나란히 늘어놓고 같이 분석했다. 특히 가장 기사가 많았던 세월호, 메르스 같은 키워드는 모두 정부·여당의 실책과 관련한 것들이다. 이런 분류체계에서 정부·여당에 부정적 기사가 많은 것은 당연하다. 번거롭게 연구 안 해도 될 일이었다.
셋째, 비과학적인 연구방법이다. 기사에 대한 ‘긍정’, ‘부정’, ‘중립’의 분류가 객관적 지표에 따라 이뤄진 것이 아니다. 전문성을 갖춘 연구진 6명 모두가 특정 기사에 긍정 혹은 부정이라고 판단하면 그렇게 분류했고, 의견이 불일치하면 중립으로 분류했다고 한다. 지극히 주관적이고 자의적인 분석 방식이다. 물론 전문가 집단의 판단을 통해 데이터를 분류하고 분석하는 연구방법이 있긴 하다. 하지만 그건 판단해야 할 데이터의 수가 제한적일 때나 유효한 방법이다. 무려 5만건이 넘는 기사를 처음부터 끝까지 온전한 정신으로 판단하고 분류해 냈다면 이 6명의 연구진은 전문가가 아니라 초능력자이다.
허술한 분석틀과 비과학적인 방법
넷째, 데이터 해석에서의 왜곡과 은폐다. 보고서는 마치 포털뉴스가 정부·여당에 대한 비판적 기사를 쏟아내고 있는 듯 말한다. 그런데 보고서에서 말하고 있지 않은 내용을 파헤쳐 보면 실상은 많이 다르다. 이 보고서에 따르면 정부·여당에 대한 부정적 기사 수는 네이버 591건, 다음 438건이었다. 총 1029건으로 5만236건의 기사 중 겨우 2%에 해당하는 비율이다.
맙소사! 고작 2%를 놓고 포털이 정부·여당에 비판적이라는 것이다. 보고서는 또 중립적 표현 기사가 총 71.5%인데, 여기서 날씨, 교통, 생활정보 등 단순 중립 기사를 제외하면 부정적 기사 비율은 더 많을 것이라 추정한다. 여기선 왜 갑자기 분석을 멈추고 추정을 하는지 모르겠다. 그래서 직접 분석해봤다. 단순 중립 기사가 속해 있는 연예, 스포츠, IT·과학, 문화, 헬스, 기타 카테고리에 해당하는 기사 수는 총 1만1264건이었다. 전체 5만236건 중 20%를 조금 상회하는 수준이다. 중립적 기사가 총 71.5%라니 결국 연구자의 추정과 달리 정치, 경제, 사회, 국제/북한 등의 카테고리에서도 중립적 표현 기사가 압도적으로 많다는 결론이 쉽게 도출된다. 한편 포털이 정부·여당 관련 부정적 기사에 제목 편집을 많이 한다는 대목도 압권이다. 5만건이 넘는 분석 대상 기사 중 정부, 여당, 야당 등 대상별 부정적 제목 편집행위는 각각 10건 미만이다. 이 정도면 통계 처리과정에서 무의미한 데이터로 간주해 제외시키는 것이 정상이다. 무슨 대단한 발견을 한 듯 예시까지 들며 분석해 놓은 것도 볼썽사납다.
다섯째, 언론에 대한 몰이해이다. 업적, 미담, 성과를 담은 긍정적 표현보다 사건·사고 중심의 부정적 표현의 기사가 많은 것은 뉴스의 자연스러운 생리이지 전혀 문제 삼을 일이 아니다. 그리고 보고서가 스스로 밝혔듯 부정적 표현 기사 1만1555건 중 1만726건(92.8%)이 정부, 여당, 야당과 관계없다는 분석은 정파성과 무관하게 뉴스 기사에 원래 부정적 표현이 많이 쓰이고 있다는 방증이기도 하다. 또 하나 유념해야 할 것은 중립적 표현이 곧 객관적 보도는 아니라는 점이다. 특히나 권력 집단을 견제하고 비판하는 것은 언론에 부여된 고유한 사회적 사명 아닌가?
차라리 이 보고서의 분석 결과를 그대로 근거 삼아 연구자와는 정반대의 이런 주장이 타당하겠다. 중립적 표현의 기사가 70%가 넘는다는 것은 지금의 포털이 과도할 정도로 기계적 중립성을 유지하면서 정치권의 눈치를 보아왔음을 확인시켜 주는 것이고, 포털뉴스가 이렇게 사회적 영향력이 큼에도 불구하고 정부·여당 등 권력집단에 대한 비판기사 비율이 고작 2%에 머물러 있다는 것은 언론매체로서의 기능을 제대로 수행하지 못해왔다는 주장 말이다. 그래서 포털뉴스에는 여전히 사회적 채찍질이 필요하다. 하지만 그 채찍질이 이런 기본도 못 갖춘 부실한 보고서로 인해 촉발된다는 것은 참으로 민망하고 어이없는 일이다.
새누리당 포털 보고서를 구해 읽어봤다. 포털뉴스의 정치 편향성이냐, 새누리당의 포털 길들이기냐를 두고 여야 간 치열한 공방전이 벌어지게 만든 바로 그 진원지가 아니던가? 정치권과 언론 그리고 포털이라는 한국 사회를 주름잡는 이 거대한 집단들을 한꺼번에 들썩거리게 만든 실로 어마어마한 보고서가 아니던가? 설레고 긴장되는 마음으로 예를 갖춰 한 줄 한 줄 꼼꼼히 이 대단한 보고서를 읽으리라 다짐했다.
빅데이터 없는 빅데이터 분석
결론부터 말하자면 이 연구 보고서는 5가지 중대한 오류를 범하고 있는 망작이다. 첫째, 제목과 내용의 불일치이다. 이 보고서의 표지에 적혀 있는 공식 제목은 <포털 모바일뉴스 메인화면 빅데이터 분석 보고서>이다. 하지만 보고서 어디에도 빅데이터 분석은 없다. 이 연구가 사용한 통계 기법은 가장 기초적인 수준의 빈도 분석과 교차 분석이다. 5만여건의 기사 제목을 ‘긍정’, ‘부정’, ‘중립’이라는 변인으로 분류해 각각의 비율을 집계한 빈도 분석, 그리고 여기에 다시 정부·여당과 야당이라는 변인을 넣어 재분류해 집계한 교차 분석이 끝이다. 이건 그냥 초보적인 통계 분석이지 빅데이터 분석이 아니다. 혹시 5만여건의 데이터를 다뤘으니 빅데이터 분석이라고 우긴다면 그냥 웃고 넘어가자.
둘째, 허술한 분석틀이다. 이미 언론이 지적했듯이 정부의 수많은 기관들과 여당을 하나로 묶고 이들에 대한 부정적 기사 수와 야당에 대한 부정적 기사 수를 비교했다. 표본의 크기가 다른데 이걸 그냥 단순 비교한 것이다. 굳이 숫자를 세지 않아도 당연히 정부·여당 관련 기사 수가 많을 수밖에 없다. 이런 경우엔 각각의 표본에 가중치를 부여해 분석하는 것이 통계의 기본 정석이다. 기사를 정치, 경제, 사회 등 카테고리별로, 그리고 세월호, 메르스 등 주요 이슈의 키워드별로, 분류해 분석한 방식도 상식 밖이다. 제대로 된 연구라면 카테고리별 분석과 키워드별 분석을 별도로 진행했을 것이다. 카테고리와 키워드는 차원이 다른 분류체계이기 때문이다. 그런데 이 연구에서는 상이한 분류체계를 나란히 늘어놓고 같이 분석했다. 특히 가장 기사가 많았던 세월호, 메르스 같은 키워드는 모두 정부·여당의 실책과 관련한 것들이다. 이런 분류체계에서 정부·여당에 부정적 기사가 많은 것은 당연하다. 번거롭게 연구 안 해도 될 일이었다.
셋째, 비과학적인 연구방법이다. 기사에 대한 ‘긍정’, ‘부정’, ‘중립’의 분류가 객관적 지표에 따라 이뤄진 것이 아니다. 전문성을 갖춘 연구진 6명 모두가 특정 기사에 긍정 혹은 부정이라고 판단하면 그렇게 분류했고, 의견이 불일치하면 중립으로 분류했다고 한다. 지극히 주관적이고 자의적인 분석 방식이다. 물론 전문가 집단의 판단을 통해 데이터를 분류하고 분석하는 연구방법이 있긴 하다. 하지만 그건 판단해야 할 데이터의 수가 제한적일 때나 유효한 방법이다. 무려 5만건이 넘는 기사를 처음부터 끝까지 온전한 정신으로 판단하고 분류해 냈다면 이 6명의 연구진은 전문가가 아니라 초능력자이다.
허술한 분석틀과 비과학적인 방법
넷째, 데이터 해석에서의 왜곡과 은폐다. 보고서는 마치 포털뉴스가 정부·여당에 대한 비판적 기사를 쏟아내고 있는 듯 말한다. 그런데 보고서에서 말하고 있지 않은 내용을 파헤쳐 보면 실상은 많이 다르다. 이 보고서에 따르면 정부·여당에 대한 부정적 기사 수는 네이버 591건, 다음 438건이었다. 총 1029건으로 5만236건의 기사 중 겨우 2%에 해당하는 비율이다.
맙소사! 고작 2%를 놓고 포털이 정부·여당에 비판적이라는 것이다. 보고서는 또 중립적 표현 기사가 총 71.5%인데, 여기서 날씨, 교통, 생활정보 등 단순 중립 기사를 제외하면 부정적 기사 비율은 더 많을 것이라 추정한다. 여기선 왜 갑자기 분석을 멈추고 추정을 하는지 모르겠다. 그래서 직접 분석해봤다. 단순 중립 기사가 속해 있는 연예, 스포츠, IT·과학, 문화, 헬스, 기타 카테고리에 해당하는 기사 수는 총 1만1264건이었다. 전체 5만236건 중 20%를 조금 상회하는 수준이다. 중립적 기사가 총 71.5%라니 결국 연구자의 추정과 달리 정치, 경제, 사회, 국제/북한 등의 카테고리에서도 중립적 표현 기사가 압도적으로 많다는 결론이 쉽게 도출된다. 한편 포털이 정부·여당 관련 부정적 기사에 제목 편집을 많이 한다는 대목도 압권이다. 5만건이 넘는 분석 대상 기사 중 정부, 여당, 야당 등 대상별 부정적 제목 편집행위는 각각 10건 미만이다. 이 정도면 통계 처리과정에서 무의미한 데이터로 간주해 제외시키는 것이 정상이다. 무슨 대단한 발견을 한 듯 예시까지 들며 분석해 놓은 것도 볼썽사납다.
다섯째, 언론에 대한 몰이해이다. 업적, 미담, 성과를 담은 긍정적 표현보다 사건·사고 중심의 부정적 표현의 기사가 많은 것은 뉴스의 자연스러운 생리이지 전혀 문제 삼을 일이 아니다. 그리고 보고서가 스스로 밝혔듯 부정적 표현 기사 1만1555건 중 1만726건(92.8%)이 정부, 여당, 야당과 관계없다는 분석은 정파성과 무관하게 뉴스 기사에 원래 부정적 표현이 많이 쓰이고 있다는 방증이기도 하다. 또 하나 유념해야 할 것은 중립적 표현이 곧 객관적 보도는 아니라는 점이다. 특히나 권력 집단을 견제하고 비판하는 것은 언론에 부여된 고유한 사회적 사명 아닌가?
No comments:
Post a Comment