고우찬 카카오 비상대책위원회 재발방지대책 공동 소위원장이 7일 ‘이프 카카오 데브 2022’에서 서비스 장애 재발 방지 대책을 발표하고 있다. 카카오 제공
■ 개발자콘퍼런스 ‘이프…’개막
‘먹통 사태’ 재발방지 대책 논의 4600억 투입 데이터센터 구축
IT 엔지니어링 전담조직 마련 장애 대비 ‘재해복구위’도 신설
“서비스 안정화는 사회적 책임”
카카오가 지난 10월 발생한 ‘먹통 사태’의 재발을 막기 위해 데이터센터 등 인프라 하드웨어 설비부터 서비스 앱에 이르기까지 시스템 전체에 철저한 이중화 조치를 적용하기로 했다. 총 4600억 원의 예산을 투입해 경기 안산시에 짓고 있는 자체 데이터센터의 안정성을 강화하고, ‘재해복구 위원회’를 신설하기로 했다. 정보기술(IT) 엔지니어링 전담 조직과 비상대응계획(Business Continuity Plan)도 가동한다.
카카오는 7일 오전 개막한 개발자 콘퍼런스 ‘이프 카카오 데브 2022’를 통해 지난 10월 15일 경기 판교 SK C&C 데이터센터 화재로 인해 발생한 서비스 장애의 원인을 분석하고 이런 내용의 재발 방지 대책을 밝혔다. 남궁훈·고우찬 비상대책위원회 재발방지대책 공동 소위원장과 이확영 원인조사 소위원장, 이채영 비상대책위원회 재발방지대책 소위원회 부위원장 등 4명은 △Our Social Mission △1015 장애 원인 분석 △재발 방지를 위한 기술적 개선 △미래 투자와 혁신 계획 등 총 4개 주제로 발표를 진행했다.
먹통 사태의 원인에 대해서는 “데이터센터와 운영 관리 도구들의 이중화 조치가 미흡했으며 가용 인력과 자원도 부족했다”며 서비스 복구에 오랜 시간이 소요된 배경을 설명했다. 재발 방지를 위한 기술적 개선 사항에 대해 이 부위원장은 “데이터센터 이중화, 데이터와 서비스 이중화, 플랫폼과 운영 도구 이중화 등 인프라 하드웨어 설비부터 서비스 앱에 이르기까지 시스템 전체에 철저한 이중화를 적용하겠다”며 “모니터링 시스템 다중화, 데이터 다중 복제 구조 구성, 운영관리 도구 삼중화 등도 함께 추진할 방침”이라고 말했다. 장애 대비 훈련을 한층 강화하고, 자체 데이터센터의 경우 최악의 상황을 가정해 모듈 단위의 완전 셧다운이 가능하도록 대비하겠다는 뜻도 밝혔다.
고 소위원장은 “IT 엔지니어링 조직은 현재 개발 조직 산하에 있는데 앞으로 카카오 CEO 직할로 전담 조직을 확대 편성하는 방안을 검토 중”이라며 “데이터센터, 클라우드 개발 엔지니어 채용과 육성을 공격적으로 진행할 방침”이라고 말했다. 이어 “대규모 장애에 대비한 재해복구위원회를 신설해 대규모 장애에 즉각 대응할 수 있도록 할 것”이라고 덧붙였다. 카카오는 데이터센터 DR(Disaster Recovery) 체계도 구축하기로 했다. 남궁 소위원장은 “카카오 서비스의 안정화가 우리의 최우선 과제이며 사회적 책임이라는 것을 항상 명심하겠다”고 말했다.