모바일웹 | 지면보기 PDF | 2020.11.30 월요일
전광판
Hot Click
문화일반
[문화] 21세기 과학의 최전선, 궁극의 질문들 게재 일자 : 2020년 10월 20일(火)
백신접종 우선순위도 결정하는 ‘페이지랭크’… 구글은 神이 되려하나
  페이스북트위터밴드구글
▲  일러스트 = 토끼도둑 작가

(13) 네트워크 연구의 확장

페이지랭크 알고리즘, 인터넷 문서 연결구조로 중요도 평가… 독보적 검색엔진으로
교통망같은 상호작용·다중의 인간관계 연구에도 ‘네트워크 과학’ 활용
생물학·기술 데이터 수집되면서 전염병·경기예측까지… 어리석은 질문에 답해주는 세상


가장 인기 있는 회사는 어디일까? 요즘은 누구나 궁금한 것이 있을 때 검색 엔진에 물어본다. ‘가장 인기 있는’까지 입력하자 검색창에는 다음에 입력하려는 것이 무엇인지 알고 있다는 듯 ‘스포츠’ ‘게임’ ‘아이돌’의 연관 검색어가 나타난다. 추천 검색어를 모두 제치고 ‘회사’를 입력한다. 검색 결과에는 애플과 구글이 나온다. ‘가장 인기 있는 회사?’ 다시 생각해 보니 질문이 잘못됐다. 회사의 인기라는 것을 도대체 누가 어떻게 정한단 말인가? 이런 어리석은 질문에도 뭔가 답을 내는 검색 엔진이 신통하다. 누군가 생각했을 법한 질문에 대한 여러 응답이 검색된다.

최근 한 설문 회사에서 공학 전공 대학생들을 대상으로 가장 입사하고 싶은 직장을 조사했다. 결과에서는 구글이 제일 선호되는 기업으로 뽑혔다. 취직을 앞둔 사람들이 들어가고 싶은 기업이라 하니 적어도 젊은이들에게 ‘가장 인기 있는 회사’라고 할 수 있겠다. 다른 기업들의 순위를 봐도 앞서 검색 결과와 얼추 맞다. 구글의 모회사 알파벳은 2020년 기준 시가 총액 세계 4위로 1조 달러를 눈앞에 두고 있다. 정보기술(IT) 기업의 시가 총액이 세계 1위인 사우디아라비아 국영 석유 기업 아람코의 50%에 육박한다는 것이 믿기지 않는다. 이는 구글의 역사가 불과 23년밖에 되지 않았다는 것을 생각하면 더욱 놀랍다. 이런 구글 창업의 중심에는 바로 네트워크 과학이 있다.

구글이 도메인을 등록하고 검색 서비스를 시작한 것은 1997년이다. 당시에는 이미 라이코스, 야후, 알타비스타와 같은 유수의 검색 엔진들이 있었다. 라이코스와 알타비스타는 스스로 인터넷 사이트를 돌아다니며 정보를 수집하는 웹크롤러 기술을 바탕으로, 야후는 전문가들이 정리한 카탈로그 형식의 정보를 제공해 인기를 끌었다.

검색 엔진은 사용자가 특정 사이트들의 주소를 일일이 기억할 필요 없이 인터넷에서 필요한 정보를 빠르게 찾을 수 있도록 하는 나침반이 돼 줬다. 당시 최신 기술이었던 인터넷이 검색 엔진의 도움으로 사용하기 편리해지고, 정보 전달, 특히 광고에 유용하기에 웹 문서의 수는 폭발적으로 늘었다. 이에 따라 많은 정보 중에서 유용한 정보를 찾아주는 것이 중요하게 됐다. 그동안의 검색 엔진들은 수집한 문서의 내용을 분석해 특정 단어가 얼마나 자주 출현하는가를 기준으로 문서의 중요도를 결정했다. 반면 구글은 문서의 내용보다 문서의 연결 구조로 중요도를 평가했는데, 바로 페이지랭크(PageRank) 알고리즘이다.

인터넷의 웹 문서들은 웹브라우저에서 글과 그림이 원하는 위치에 보이고 다른 문서와 연결될 수 있도록 하는 문법에 따라 작성된다. 다른 문서와 연결된 링크를 클릭하면 다음 문서를 볼 수 있다. ‘가’라는 문서에서 링크를 눌러 ‘나’로 이동하는 관계를 한 점 ‘가’에서 ‘나’로 화살표를 연결해 표현할 수 있다. 이러한 연결 링크를 한데 모으면 거대한 인터넷 구조를 표현할 수 있다. 이렇게 점과 선으로 연결된 구조가 바로 네트워크다.

이제 이런 상상을 해 보자. N명의 사람이 각자 임의의 한 인터넷 문서를 보고 있다. 각 문서를 보고 있는 사람의 수를 중요하게 헤아리려 한다. 처음에는 마구 골랐기에 각 문서를 보고 있는 사람의 수가 비슷하다. 그 상태에서 1초가 지나면 각자 보고 있는 문서에서 링크 하나를 따라 다음 문서로 이동한다. 만약 문서에 링크가 없으면 다시 무작위로 한 문서를 고른다. 이런 과정을 한동안 반복하다 보면, 많은 사람이 함께 보고 있는 문서도, 그렇지 못한 문서도 있을 것이다. 구글의 공동 창업자 래리 페이지는 이런 상황에서 특정 문서를 보고 있는 사람의 비율을 그 문서의 중요도를 나타내는 ‘페이지랭크’로 정의하고, 네트워크에서 각 문서의 페이지랭크를 효율적으로 계산하는 방법을 개발했다.

이는 웹 문서의 내용으로 해당 문서의 중요도를 평가하는 것이 아닌 네트워크 구조만을 고려해 문서의 중요도를 평가하는 방식이다. 단어 빈도수 기반 알고리즘을 겨냥해 검색 결과의 상위에 노출되기 위한 방법은 너무 쉽다. 바로 특정 인기 검색어들을 광고하려는 사이트의 한구석에 숨겨 놓는 방식이다. 구글은 이를 피해 네트워크 구조에 따라 문서를 추천한다.

인터넷에서 페이지랭크는 좋은 네트워크 중심도가 됐다. 인터넷 구조는 헝가리 수학자 에르되시 팔과 레니 얼프레드가 증명한 것 같은 마구잡이로 연결된 구조가 아니었다. 인터넷의 연결선 수 분포가 멱함수 법칙을 따르는 척도 없는 네트워크 성질을 보인다는 사실을 안 것은 1999년이다. 래리 페이지는 인터넷 구조를 알기 2년 앞서 인터넷에서 중심 노드를 찾는 방법을 고안한 것이다.

이처럼 네트워크 과학에서는 네트워크를 이루는 요소의 내용보다는 네트워크 구조에서 나타날 수 있는 보편적 특징을 이해하고자 한다. 노드 하나하나의 특징이 아닌 연결 관계가 더욱 중요하다. 인터넷 구조에서 찾은 연결선수 분포는 우리 몸 안에서 중요한 기능을 하는 단백질들의 상호 작용 연결망에서도 보이고, 개인의 관계를 표현한 사회 연결망에서도 나타난다. 항공망과 세계 무역망, 소프트웨어들 사이의 의존성도 동일한 보편 특징을 보인다.

보편군의 특징을 파악해 얻은 일반 지식을 응용하는 방법은 물리학 연구에서 자주 보인다. 물리학에서는 최대한 덜어내어 가장 간단한 모형을 만들고 그 특징을 연구한다. 기존 모형에서 설명할 수 없는 점이 나타나면 다음 요소를 추가한다. 네트워크 연구에서도 연결선 수 분포를 설명하기 위한 모형에서, 군집 계수를 설명하기 위한 모형으로, 계층 구조와 커뮤니티 구조를 반영한 모형으로 발전해 나갔다. 특히 최근 네트워크 연구의 새로운 방향으로는 크게 두 가지가 있다.

하나는 한 층의 네트워크가 아닌 여러 층의 상호 작용하는 네트워크에 대한 연구다. 우리는 교통망을 이용할 때 항공망과 함께 도로망도 이용한다. 이처럼 여러 네트워크가 함께 상호 작용하는 경우가 많다. 전력망은 통신망과 함께 연결돼 있다. 사회 연결망 또한 가족, 학연, 지연 등 여러 종류의 관계가 겹쳐져 있다. 질병 네트워크 분석도 유전자 발현 네트워크 분석과 함께 이뤄지고 있다. 최근 다중 오믹스 분석(multi-omics analysis)이 대표적이다.

다른 하나는 둘의 관계가 아닌 셋, 넷, 다중의 관계에 대한 연구다. 네트워크 연구는 둘 사이의 관계를 링크로 표현한 것이다. 셋이 만나서 만들어지는 관계는 어떻게 표현하면 좋을까? 갑, 을, 병, 세 친구 사이의 우정을 생각해 보자. 이 관계가 갑-을, 을-병, 병-갑 이렇게 둘 사이의 세 관계로 모두 표현이 될까? 그런 경우도 있겠지만, 많은 경우 아닐 것이다. 이런 둘 이상의 관계를 위상 수학적 표현인 단체 복합체 구조로 확장하는 연구가 한편에서 진행 중이다.

최근 신종 코로나바이러스 감염병(코로나19) 사태로 네트워크 응용 연구 또한 활발하다. 사회 연결망 구조를 바탕으로 감염병 전파 모형의 여러 시나리오를 분석해 질병의 전파 양상을 예측하고, 감염병의 파장을 줄이기 위한 방법들, 사람들의 이동 자제, 마스크 쓰기, 감염자 격리 등의 효과를 평가한다. 특정 바이러스와 상호 작용하는 단백질 네트워크를 분석해 치료약 개발을 위한 대상 단백질을 찾고 있다. 생산된 백신이 부족할 때 누가 먼저 접종해야 감염병을 효과적으로 차단할 수 있을까 같은 정책 문제에도 네트워크 과학이 적용된다.

네트워크 연구의 확장은 최근 데이터 과학의 발전과 함께하고 있다. 얻기 어려웠던 다양한 생물학 데이터와 사회, 기술 데이터들이 수집되고 있다. 가장 많은 데이터를 확보하고 있는 기업 역시 구글인데, 일례로 구글은 하루에 전 세계 54억 건 이상의 검색을 처리한다. 사용자들은 원하는 검색 결과를 정확히 얻기 위해 구글 앞에 솔직해진다. 이러한 검색어 정보는 자연어 처리와 기계 학습, 인공 신경망 분석, 네트워크 분석을 통해 질병 통제국의 독감 경보나 미디어의 경제 불황 지표, 선거 결과 예측보다 앞선 정보를 준다.

크리스마스 영화에서 산타클로스는 전 세계 어린이들이 원하는 것을 실시간으로 알고 있는 것으로 나온다. 구글이 그러하듯 말이다. 최근 구글의 복무규정에서 “사악해지지 말자(Don’t be evil)”가 빠져 뉴스가 됐다. 이런 구글이 어떤 ‘신’으로 성장해 갈지는 아마 구글도 모를 것이다. 나에게 던져진 첫 질문을 다시 생각하면 말이다.

손승우 한양대학교 응용물리학과 교수


■ 용어설명

페이지랭크 알고리즘 : 구글에서 사용하는 웹 사이트의 순위를 결정하는 알고리즘으로 1996년 래리 페이지에 의해 발명됐다. 최근까지 미국 특허 번호 US6285999B1로 등록돼 있다가 2019년에 만료됐다. 네트워크상에서 특정 노드의 중요도를 평가하는 지표로 활용된다.

멱함수 법칙(power-law) 분포 : 함수 관계에서와 같이 거듭제곱으로 표현되는 관계다. 척도 없는 네트워크의 경우 거듭제곱 지수는 2에서 3 사이의 실수로 그 분포의 평균은 존재하나 분산과 표준편차가 발산하는 경우에 해당한다. 경제학 관련 문헌에서 두꺼운 꼬리 분포 혹은 파레토 분포로 표현되기도 한다.

척도 없는(scale-free) 네트워크 : 연결선 수 분포가 멱함수 법칙을 따르는 네트워크 모형이다. 항공망의 허브 공항과 같이 연결선이 아주 많은 노드가 존재하나 대부분의 작은 공항은 하나, 둘 정도의 아주 적은 연결선을 가지고 있다. 자연에 존재하는 많은 네트워크가 이에 해당한다.
[ 많이 본 기사 ]
▶ 여자친구 때린 40대 남성, 여친 가족 반격에 사망
▶ 함소원, 레이스 속옷 드러내고 “눈치 없는 남편과 오늘밤..
▶ 옵티머스 불똥 튄 이낙연… 측근 정자법위반 수사 파장
▶ 秋가 때릴수록 尹이 뜬다… 서울·중도층서 대선주자 1위
▶ 법원, ‘윤석열 직무배제 집행정지’ 심문 1시간 만에 종료
Copyrightⓒmunhwa.com '대한민국 오후를 여는 유일석간 문화일보' 무단 전재 및 재배포 금지
[ 구독신청:02-3701-5555 / 모바일 웹 : m.munhwa.com ]
모더나 “코로나 백신, 중증 예방률..
野, 김현미 ‘아파트 빵’ 발언에 “빵투아..
2살 아이, ‘아동 학대’ 조사 가정 냉장..
“이란 핵과학자, 원격조종 기관총에 ..
바이든 백악관의 ‘입’… 7명 ‘여인천하..
topnew_title
topnews_photo 여친 집에 창 유리 깨고 침입 난동…어머니·언니, 골프채 등으로 방어미국의 40대 남성이 헤어진 여자친구를 폭행하다가 방어 차원에서 ..
mark법원, ‘윤석열 직무배제 집행정지’ 심문 1시간 만에 종료
mark“총장임기 보장안되면 檢개혁 무산…권력시녀 만드는 愚 범해”
옵티머스 불똥 튄 이낙연… 측근 정자법위반 수사..
정총리, 文대통령에 ‘秋-尹 동반사퇴’ 필요성 거론
전두환, 유죄 선고에도 법정서 시종일관 ‘꾸벅꾸벅..
line
special news 함소원, 레이스 속옷 드러내고 “눈치 없는 남편과..
배우 함소원이 남편 진화를 유혹했다.함소원은 28일 자신의 인스타그램에 “날잡은 함마님. 눈치 없는 남..

line
직무배제 ‘尹 운명‘ 언제 결정될까…법원, 결정 서두..
秋가 때릴수록 尹이 뜬다… 서울·중도층서 대선주자..
검찰총장 대행 “秋장관님, 한 발만 물러나 달라”
photo_news
방송가, 홍진영 지우기…‘안다행’ 이어 ‘미우새..
photo_news
미·중·러 가오리 형상 ‘차세대 스텔스 전략폭격..
line
[Leadership 클래스]
illust
대선 앞 ‘깜짝 주자’… 이력은 화려했으나 전투력이 부족했다
[최우열의 네버 업-네버 인]
illust
셉튜플 보기 뒤 6개 홀서 버디 5개… 우즈의 미친 ‘회복 탄력성..
topnew_title
number 모더나 “코로나 백신, 중증 예방률 100%…3..
野, 김현미 ‘아파트 빵’ 발언에 “빵투아네트”..
2살 아이, ‘아동 학대’ 조사 가정 냉장고서 숨..
“이란 핵과학자, 원격조종 기관총에 영화처..
hot_photo
“젊은 유격수 김하성, 연평균 70..
hot_photo
안하는게 나았을 ‘핵주먹’ 타이슨..
hot_photo
이소룡 탄생 80주년…‘영웅 기리..
회사소개 | 광고안내 | 사업안내 | 이용안내 | 구독안내 | 독자참여 | 회원서비스 | 고충처리 | 개인정보취급방침 | 청소년보호정책(책임자:한형민) | Site Map
제호 : 문화일보 | 주소 : 서울시 중구 새문안로 22 | 등록번호 : 서울특별시 아01697 | 등록일자 : 2011년 7월 15일 | 발행·편집인 : 이병규 | 발행연월일 : 1991년 11월 1일
Copyright ⓒ 문화일보. All Rights Reserved. ☎ 02) 3701-5114