데이터 과학자의 사고법 | 김용대 지음 | 김영사

왜 내가 탄 버스에만 사람이 많고, 내가 들어선 차선만 막힐까? 우리를 맥 빠지게 만드는 ‘머피의 법칙’. 진짜 운이 없는 걸까?

김용대 서울대 통계학과 교수는 ‘절대 아니다’라고 말한다. 머피의 법칙은 ‘운’이 아니라 ‘과학’, 확률과 통계를 딛고선 데이터 과학이라는 것이다. 김 교수의 설명은 이렇다. 버스 100대, 사람 100명이 있다고 가정하자. 출퇴근 혼잡한 시간 버스 1대에 99명이 탔고, 혼잡한 시간이 지나 나머지 99대는 텅텅 비어 그중 1대에만 1명이 탔다. 정부통계는 총 100대에 총 100명이 탔으니 평균 버스 1대에 1명이 탔다고 나온다. 99명은 생각한다. “왜 내 버스에만 사람이 많지. 이런, 머피의 법칙이군!”

정부통계 물가와 장바구니 물가의 차이도 데이터 과학은 답한다. 정부통계는 상품당 가격을 조사하는 데 비해, 장바구니 물가는 구입한 상품 가격을 바탕으로 하기 때문이다. 사람들이 많이 사는 상품은 가격이 오를 수밖에 없으니 장바구니 물가는 정부통계 물가보다는 높다.

새 책 ‘데이터 과학자의 사고법’은 머피의 법칙, 장바구니 물가처럼 우리의 일상은 이미 데이터 과학 안에 들어와 있다고 말한다. 데이터를 무시하고는 제대로 살아갈 수 없는 시대다. 게다가 그 어느 때보다 불확실성이 지배하는 시대, 이를 헤쳐가려면 데이터를 알아야 하고, 해석할 수 있어야 한다. 이에 책은 사람들이 일상에서 경험하는 사례를 중심으로 데이터 과학을 기본부터 한 단계 한 단계 찬찬히 소개해나간다.

그렇다고 ‘데이터 만능주의’를 이야기하는 것은 아니다. 최근 사람들이 가장 많이 사용하는 데이터, 바로 주식 데이터를 보자. 데이터에 근거해 투자한 사람과 경험과 직감에 의지해 투자한 사람 중 누가 돈을 더 많이 벌까. 데이터 과학자니 당연히 데이터에 근거한 사람이라고 할 것 같은데, 저자는 그렇지 않다고 말한다. 왜냐하면 데이터가 작동하는 현실이 매우 불확실하기 때문이다. 2019년 누가 2020년의 신종 코로나바이러스 감염증(코로나19) 팬데믹(세계적 대유행)을 예상할 수 있었는가 말이다. 저자는 데이터에는 늘 오차가 있고, 데이터에 기반한 판단에도 오류가 있을 수 있다며 데이터는 요술방망이가 아니라고 한다. 데이터 과학은 할 수 있는 것과 할 수 없는 것을 구분하고, 데이터의 오류 가능성까지 고려해 의사 결정을 해야 하는데, 데이터 과학을 모르면 그 구분이 불가능하다. 이 구분을 못 하면 불확실한 시대, 쏟아지는 데이터 속에서 가짜 뉴스에 휘둘리고, 음모론에 휩싸이고, 알고리즘의 노예가 될 수밖에 없다. 우리가 모두 데이터 과학자가 될 수 없고, 될 필요도 없지만, 모두가 데이터 과학자의 사고법은 가져야 한다는 것, 그것이 이 책이 말하는 핵심이다. 396쪽, 1만6800원.

최현미 기자 chm@munhwa.com
최현미

최현미 논설위원

문화일보 / 논설위원

기사 추천

  • 추천해요 0
  • 좋아요 0
  • 감동이에요 0
  • 화나요 0
  • 슬퍼요 0