칼럼/사설

빅데이터의 불편한 진실,편견·차별 등 코드화땐 ‘대량살상무기’버금


  • 김수현

    • 기사
    • 프린트하기
    • 크게
    • 작게

    입력 : 2017-09-22 11:30:25

    영국 타임스 고등 에듀케이션이 매년 발표하는 ‘THE 세계대학 순위’는 기업과 학생들이 대학을 판단하는 지표가 되고 있다. 이 외에도 영국의 대학평가기관 QS, 미국의 뉴스위크 등 수많은 연구기관이 자체 지표를 정해 매년 세계대학순위를 발표하고 있다. 이들의 원조격은 미국의 시사주간지 유에스 뉴스 월드 리포트의 순위다. 1983년 이 잡지는 미국내 1800여개 대학의 순위를 매기자는 야심찬 계획을 세웠다. 처음에는 대학총장들로부터 받은 설문을 근거로 순위를 매기다가 순위의 공정성을 담보할 데이터를 찾기 시작했다. 대학생들이 4년간 경험하는 배움, 행복, 우정, 자신감 등을 정량화하기는 불가능한 게 현실. 차선으로 SAT점수, 학생대 교수 비율, 입학경쟁률, 졸업률,기부금 등 15가지 항목을 적용한 알고리즘을 개발했다.

    파급효과는 엄청났다. 대학들은 각 항목의 수치를 올리기 위해 투자포트폴리오처럼 관리하기 시작했고, 맞춤형 교육컨설팅 등 대학순위산업은 거대한 공룡으로 성장했다. 

    젊은 나이에 버나드 칼리지 종신교수가 된 수학자 출신의 데이터과학자 캐시 오닐은 ‘대량살상수학무기’(흐름출판)에서 이런 대학입학게임이 “교육적으로는 아무런 가치가 없다”며, 이 과정에서 중류층과 저소득층을 더욱 소외시키는 결과를 낳고 있다고 주장한다. 문제는 알고리즘이다. 모형개발자들이 어떤 목적을 가지고 기준을 정하느냐에 따라 미래가 달라진다는 얘기다.

    대학순위프로그램의 경우, 새로운 모형을 만들 때 기준은 하버드나 스탠포드, 프린스턴, 예일 등이 상위에 이름을 올리는 것이다. 따라서 평가항목을 만들 때 학비를 제외시키는 등 이들에게 유리한 모형을 설계한 것이다. 이는 또 다른 문제로 이어진다. 대학들은 기준에 포함된 영역들에 투자한다는 명목으로 등록금을 대폭 인상하기 시작했다. 조작도 공공연히 이뤄졌다. 일정한 이수 기준을 낮추는 방식으로 졸업률을 끌어올리는 등 손을 보기 시작한 것이다. 한 발 더 나아가 대학들은 외부업체를 동원, 평가를 높여줄 신입생 선발 알고리즘 개발에 나서기 시작했다. 교육의 본질은 온데 간데 없어진 것이다. 이는 빅데이터가 만들어내는 파괴적인 양상의 한 부분에 불과하다.

    캐시 오닐은 흔히 빅데이터가 공정하고 합리적이라고 여기지만 누가 어떤 목적으로 설계하느냐에 따라 전혀 다른 모습을 보여준다고 말한다.

    이를 단적으로 보여주는 사례가 지난 미국상하원선거에 페이스북이 시행한 ‘투표메가폰’이란 캠페인이다. 알고리즘을 조정해 정치시스템에 어떤 영향을 주는지 평가한 것이다. 즉 당일 투표에 참여한 페이스북 이용자가 투표했다는 게시물을 올리면 친구들의 뉴스피드에 우선적으로 노출되도록 알고리즘이 조정됐다. 그 결과, 경쟁적으로 투표 인증이 이뤄졌고, 34만 명의 유권자를 투표소로 불러냈다. 선거결과를 바꿀 수도 있는 수치다.

    저자는 수학이론, 빅데이터, IT기술이 결합해 만들어낸 빅데이터 모형이 정치는 물론 교육, 노동, 서비스, 행정, 보험 등 우리가 상상할 수 있는 모든 분야에서 막대한 영향력을 행사할 수 있다고 말한다.


    저자는 특히 빅데이터 모형 중 인종차별, 빈부격차, 지역갈등 등 인간이 가진 편견과 차별의식을 그대로 코드화한 알고리즘을 사용하는 모형은 ‘대량살상무기’만큼 위험하다는 뜻에서 ‘대량살상수학무기(WMD: Weapons of Math Destruction)로 부른다.

    이런 WMD는 도처에 있다.

    가령, 교사평가시스템인 임팩트의 경우, 학업성취도가 아닌 시험점수만을 가지고 교사들을 평가한다. 그 결과, 학생들과 부모들에게 좋은 평판을 받는 우수한 교사가 겨나는 일이 벌어졌다. 그 결과, 교사들은 학생들에게 교육자적인 관심을 쏟기보다는 시험 준비에 열을 올리고 심지어 시험답안을 수정하는 등 부정행위가 집단적으로 이뤄졌다.

    미 금융업계는 개인의 재무상태는 물론 인종, 학력, 출신지, 범죄기록, 언어사용능력 등 온갖 데이터를 수집해 신용도를 예측하는 e-점수를 쓴다. 최근에는 이를 대출 뿐 만아니라 일자리를 구하고 아파트를 빌리거나심지어 데이터 상대를 소개해주는 업체에서도 널리 쓰고 있다. 차별적 판단을 확산시키고 있는 셈이다.

    범죄발생이 예상되는 지역을 알려주는 범죄예측프로그램 프레드폴은 범죄가 자주 발생한 지역에 경찰력을 집중 투입하도록 설계돼 있다. 이런 지역에 더 많은 경찰이 긴 시간 순찰을 벌이다 보니 단속건수가 높아지고 더 많은 경찰력이 투입되는 악순환이 벌어진다. 프로그램의 등장 이후 전체 범죄율은 줄었지만 유색인종, 저소득층의 범죄는 증가한 이유다.

    알게 모르게 설계되는 빅데이터가 불평등을 확산하고 민주주의를 위협하는 노릇을 하고 있는 셈이다.

    저자가 일관되게 주장하는 건 인간만의 가치인 공정성, 포용성, 도덕성의 의미를 모형에 투입하는 것이다. 수학자만이 알 수 있는 빅데이터의 불편한 진실을 담아냈다.



    베타뉴스 김수현 ()
    Copyrights ⓒ BetaNews.net





    http://m.betanews.net/745023?rebuild=on