(플랫폼제국, 영광의 이면①)일상 깊숙히 파고든 플랫폼…재난 대응은 처참
카카오 먹통에 재난 대응 시스템 헛점 노출…"10년 전 상황 반복" 지적
넷플릭스, '카오스 멍키' 시스템 운영…전문 엔지니어 상근
"디지털 세상, 역기능도 사전 고민 필요…기업 사회적 책무 잊지 말아야"
입력 : 2022-10-19 06:00:00 수정 : 2022-10-19 06:00:00
카카오톡이 10시간 이상 먹통이 되는 유례 없는 장애가 발생하면서 큰 혼란이 야기됐다. 지인 간의 소통에 문제가 생긴 것은 물론 카톡을 통해 식당 예약을 받거나 물품을 판매했던 자영업자, 카카오T 플랫폼으로 운행을 하는 택시·대리기사에 이르기까지 수 많은 사람들의 일상이 흔들렸다. 그만큼 카톡으로 대표되는 플랫폼 서비스가 우리 삶 깊숙히 들어와 있다는 방증이다. 산이 높으면 골도 깊다고 했다. 코로나19 팬데믹으로 가속화된 플랫폼 경제는 적지 않은 부작용도 노출하고 있다. 끝없이 치솟는 배달비, 플랫폼의 노동자 착취, 플랫폼 기업의 윤리 의식 결여 등 잡음들이 끊임없이 터져나오고 있다. 이번 사고로 재난 상황에 대한 준비가 미흡했음이 확인된 것도 마찬가지다. 이에 <뉴스토마토>는 4회에 걸쳐 플랫폼 제국 뒤에 가려진 그늘을 살펴본다.  (편집자주)
 
[뉴스토마토 김진양 기자] "판교 데이터센터가 메인 센터라 3만2000대의 서버가 있다. 전체 전원 공급이 차단된 상태여서 이중화 조치가 됐음에도 트래픽 전환에 많은 시간이 걸리고 있다."
 
양현서 카카오 ER실 부사장은 지난 16일 SK㈜ C&C 판교 데이터센터 화재 현장에서 열린 간담회에서 서비스 복구가 지연되고 있는 상황을 이 같이 설명했다. 그는 "카톡은 장애 발생 시 20분 내 해결이 목표인데, 이번에는 서버 손실량이 커서 장애가 길어지고 있다"고 말했다. 재난 대응에 대한 준비가 미흡했던 것이 아니냐는 질문엔 "리스크 시나리오를 준비했다고 생각하나 화재는 예상할 수 없는 사고였다"며 "3만2000대 서버 전체가 다운되는 것은 IT 역사상 유례가 없는 상황"이라고 항변했다. 
 
그럼에도 관련 업계에서는 이해할 수 없다는 반응을 보이는 이가 많다. 서버 전원 차단에 앞서 서버 운영사 측과 얼마만큼의 교감이 있었는지는 다퉈볼 문제라 하더라도 시스템 장애를 대비해 서버와 데이터 등을 미리 설치해둔 백업 사이트가 제대로 작동했다면 장기 먹통은 막을 수 있었을 것이란 지적이다. 
 
더욱이 카카오는 지난 2012년 LG CNS 가산데이터센터에서 전원장치 이상으로 서비스가 4시간가량 중단됐던 이력이 있다. 당시 카카오는 서버 분산 운영과 이원화 체계 구축을 중장기 과제로 검토하기로 약속하면서 "대륙별로 초절전 데이터센터를 분산 가동해 안전을 도모하겠다"는 포부를 밝히기도 했다. 하지만 10년이 지난 현재까지 카카오의 자체 데이터센터는 여전히 건립 중이다. 
 
지난 15일 SK㈜ C&C 판교 데이터센터에 화재가 발생해 소방 당국이 진화 작업을 진행 중이다. 이 사고로 카카오톡을 비롯한 카카오 주요 서비스가 중단됐다. (사진=연합뉴스)
 
구글의 경우 올해에만 미국 테네시, 버지니아, 오클라호마에 데이터센터를 신설했고 아이오와, 조지아 등의 기존 데이터센터를 업그레이드했다. 어떠한 재난 상황에서도 안정적 서비스를 구현하기 위해서는 삼사중의 데이터센터 다중화가 필수라는 판단에서다. 이 같은 안정장치는 지난 7월 유럽의 기록적 폭염으로 영국 데이터센터가 멈췄을 때 빛을 발했다. 냉각 시스템이 작동하지 않아 클라우드센터의 가동이 중단됐고 하드웨어 컴포넌트 손상을 막기 위해 데이터센터를 멈춘 후 '재해·재난 대응 매뉴얼'에 따라 대응했다. 완전한 복구까지 18시간가량이 소요됐는데, 일부 서비스 중단은 있었지만 전면 정지는 없었다. 
 
이에 반해 국내의 경우 이중화 조치는 돼 있었지만 실전 훈련이 부족한 것이 아니냐는 의구심도 나온다. 카카오 측은 "장애대응매뉴얼을 갖추고 있고 재해·재난 복구 대비 훈련도 진행하고 있다"고 알렸고 네이버도 "자체 데이터센터 '각 춘천'과 외부 데이터센터에서 예상된 시나리오에 따라 월별, 분기별로 진행하고 있다"고 전했다. 하지만 국내 소프트웨어(SW)업계에서는 '카오스 엔지니어링'이라 불리는 신뢰성 테스트가 제대로 이뤄지지 않고 있는 것이 현실이라고 입을 모은다. "한국은 대부분 SI나 서비스 중심으로 장사를 하다보니 QA(품질관리)는 테스트만 잘하면 된다"는 인식이 크다는 것이다. 이를 전담하는 인력을 채용하지 않은 것은 당연지사다. 
 
대조적으로 넷플릭스는 상근직 카오스 엔지니어를 고용하고 '카오스 멍키'라는 테스트를 주기적으로 실행한다. 서비스를 공급하는 인스턴스에 일부러 랜덤으로 장애를 일으켜 미래에 발생할 장애에 빠르게 대응할 수 있는 시스템을 구축하는 것이다. 데이터센터에 문제가 발생했을 때, 데이터센터가 위치한 건물에 문제가 발생했을 때, 해당 도시에 문제가 발생했을 때를 단계적으로 가정해 실서비스 타깃 고객 1%를 대상으로 실제 장애가 발생하도록 가상 훈련을 진행한다. 이 같은 훈련을 하는 이유에 대해 넷플릭스는 "스페어 타이어를 갖고 다니더라도 어떤 도구로 타이어를 교체해야 할 지, 어떻게 교체하는 것이 옳은 방법인지를 모두 알고 있는 것은 아니다"며 "만약의 상황에 대비하기 위해 이를 미리 파악하고 있는 것이 중요하다"고 비유했다. 
 
지난 16일 카카오T 앱 오류로 주차 서비스가 원활하지 않아 시민들이 불편을 겪었다. (사진=연합뉴스)
 
결국 이는 초연결 사회가 가속화 될수록 순기능과 함께 '디지털 재난'과 같은 역기능에도 사전에 고민하고 대응해야 한다는 제언으로 이어진다. '5G 초연결사회 , 완전히 새로운 미래가 온다'의 저자인 고삼석 동국대학교 석좌교수(전 방송통신위원회 상임위원)는 "디지털화 과정에는 반드시 빛과 그림자가 존재하기 마련인데, 그간에는 새로운 기술·서비스의 밝은 측면만 봐온 경향이 크다"며 "어두운 부분에 대해서는 너무 가볍게 생각했다"고 지적했다. 이어 그는 "진정으로 선진국으로 나아가기 위해서는 역작용, 부작용도 곰곰이 짚고 가봐야 한다"며 "이번 사태가 기업들과 정부에 많은 교훈을 남겼다"고 진단했다. 
 
김진양 기자 jinyangkim@etomato.com
 

ⓒ 맛있는 뉴스토마토, 무단 전재 - 재배포 금지



  • 김진양

안녕하세요. 뉴스토마토 산업1부 김진양입니다.