멕시코의 호세 바스콘셀로스 도서관 모습. 빅데이터는 ‘수량화된 우리 자신을 들여다보는 창’이지만, 여전한 한계와 새로운 문제를 안고 있다.  사계절 제공
멕시코의 호세 바스콘셀로스 도서관 모습. 빅데이터는 ‘수량화된 우리 자신을 들여다보는 창’이지만, 여전한 한계와 새로운 문제를 안고 있다. 사계절 제공

빅데이터 인문학:진격의 서막 / 에레즈 에이든, 장 바티스트 미셸 지음, 김재중 옮김 / 사계절

“이 책은 로봇이 말하는 역사, 디지털 렌즈로 들여다봤을 때 보이는 인류의 과거에 대한 책이다.”

로봇이 인간을 알 수 있을까? 더 많은 데이터를 분석할 수 있다면 더 깊은 진실에 다가갈 수 있을까? 전 세계 도서관에 있는 모든 책을 읽을 수 있다면 세상을 더 잘 이해할 수 있을까? 자료만 충분하다면 데이터 과학으로 인문학의 오래된 질문에 답할 수 있을까? 언어는 어떻게 진화하는가, 사전은 어떻게 만들어지는가, 사람은 어떻게 유명해지는가, 탄압으로 사상을 박멸할 수 있을까 같은 질문들 말이다.

원제는 Uncharted. 언어유희를 좋아하는 저자들답다. 사전의 뜻풀이로는 ‘전인미답’이지만 ‘아무도 지금까지 도표로 그리지 않았다’는 뉘앙스로도 읽힌다. 마흔도 안 되어 세계적 주목을 끄는 과학자들답게 선언적이고 야심만만하다. 그들의 지적 무기는 통계학이고, 다루는 것은 역사이며, 방법은 책 800만 권에 들어 있는 단어들을 일일이 분석하는 것이다.

800권이 아니라 무려 800만 권! 이 숫자에는 잡지나 신문은 물론 중복 출판된 도서도 없다. 이 기준을 따르면, 국립중앙도서관의 장서 수는 30만에도 못 미칠 것이라고 짐작되니 얼마나 어마어마한가. 역사상 존재한 서적 수가 1억3000만 권 정도이므로 서적 총량의 6%에 해당한다. 전 세계 어떤 도서관도 이만한 양의 책을 보관하지 못한다. 당연히 아무도 이만큼 읽을 수 없다. 그런데 이런 도서관이 실제로 존재하고, 이 책 전체를 읽은 독자도 존재한다.

도서관 이름은 구글북스. 책 3000만 권 이상이 보관된 세계 최대의 디지털 도서관이다. 독자(?)는 엔그램이라는 검색 로봇이다. 창(https://books.google.com/ngrams)에 단어 하나를 쳐 넣으면, 책을 수없이 횡단하면서 찾아낸 결과를 그래프 형태로(charted) 순식간에 토해 낸다. 아름답고 훌륭하다. 학자가 할 일은 이제 책을 뒤적이는 게 아니라 나타난 그래프를 차분히 해독하는 것뿐이다. ‘빅데이터’라는 엄청나게 집적된 데이터를 실시간으로 처리하는 기술이 학문의 방법을 혁신해 버린 것이다. 저자들은 “빅데이터는 인문학을 바꾸고 사회과학을 변형”할 것이라고 주장한다. 한국어판 제목 ‘빅데이터 인문학’은 학문의 이 최신 유행을 반영한 것일 터이다.

본문 중 사람은 어떻게 유명해지는가를 예로 들어보자. 1800년부터 1950년까지 태어난 ‘유명한’ 이들의 라이프 사이클은 데이터 분석 결과 데뷔, 기하급수적 성장, 절정, 점진적 쇠락이라는 네 단계로 그래프가 나타난다. 데뷔는 10억 단어에 1번 정도 책에 등장한다는 뜻이다. 사전에 오르는 단어의 최저 빈도다. 그러므로 유명인이란 사전에 이름이 오를 정도는 되는 사람을 말한다. 무대에 등장하고 나면 빈도는 몇 년마다 갑절로 늘어나고 수십 년간 하늘로 치솟는다. 그러다 태어난 지 75년 정도가 지날 때 정점에 도달한 후 서서히 쇠퇴기에 접어들어 아주 오랜 기간에 걸쳐 점점 빈도가 줄어든다.

특이한 점은 1800년에 태어난 사람은 데뷔가 43세였다면, 20세기 중반에 태어난 사람은 29세로 낮아졌다는 것이다. 게다가 명성이 두 배가 되는 기간 역시 8년에서 3년으로 짧아졌다. 요즘엔 유명해지려면 10대 때부터 서둘러야 하는 것이다(아이돌 시대는 다 이유가 있는 법이다). 물론 데뷔가 빠른 만큼 절정기를 지나서 잊히는 속도 역시 빨라졌다. 물론 디킨스, 아인슈타인처럼 극도로 유명한 사람들은 당연히 예외다.

그런데 이런 데이터 시각화가 정말 인문학일까? 데이터의 나열이 반복될 뿐 이 책에는 데이터의 진실(왜 이런 데이터 모습이 나타나는가?)에 대한 탐구는 좀처럼 보이지 않는다. “무엇이 이런 변화를 일으켰을까? 우리는 모른다. 우리가 가진 것은 새로운 관찰도구의 디지털 렌즈를 통해 집단기억을 들여다보고 알아낸 발가벗은 상관관계들뿐”이라는 진술은 곧 이 책의 한계를 이룬다. 어쩌면 저자들은 인문학에 광범위하고 정확하지만 여전히 벌거벗은 채 해석을 기다리는 데이터를 제공하는 데 그친 것은 아닐까. ‘명성’과 ‘미엉성’ 등 말장난까지 말끔하게 처리한 역자의 번역 솜씨와 아름다운 데이터 그래프들은 눈을 뗄 수 없게 만든다. ‘빅데이터 인문학’에 대한 보다 깊은 성찰을 원한다면 국내 연구자 임태훈의 ‘검색되지 않을 권리’를 권하고 싶다.

장은수 <문학평론가>

기사 추천

  • 추천해요 0
  • 좋아요 0
  • 감동이에요 0
  • 화나요 0
  • 슬퍼요 0