[AWS] 아마존 S3 저장소의 대재앙 발생은 ? 그리고 우린 어떻게 대처 해야할까?

작성자
Roronoa
작성일
2017-03-03 12:52
조회
1296
이번 S3 아마존 저장소의 대재앙은 미국시간으로 2월 28일 6시간동안 완전 다운이 되었다.

그 이후에 복구는 됬지만 심각한 속도저하는 여전히 나오고 있는 상태이다.

99.99 SLA를 보장하는 S3가 버지니아 US-EAST1 지역 전체가 다운된것은 처음있는 일이지만 사실 이 보다 작은 장애는 여러번 있어왔다.

많은 유저들이 아직도 S3 저장소만 다운된지 알고 있지만 S3가 다운되면 그에 연관된 대부분에 모든 시스템이 안된다. 쉽게 말해 완전히 모든게 다운된거라 할수 있다.

아마존 뿐만아니라 Azure도 마찬가지이며 이런 장애에 대해 아키텍쳐를 어떻게 짜고 대응할수 있는것이 시스템 엔지니어의 운명이 아닌가 한다. 상용서비스에 Multi-AZ 은 기본이라 생각하나, 비용적 측면에서는 stakeholder를 설득 시키는 부분은 쉽지 않다.

물론 이번 사건은 Multi-AZ로도 극복할수 없는 일이었다. 심지어 US-EAST1은 Zone  5개나 되는 아마존 최대의 데이터 센터였다. 방법이 없는건 아니다.

시작부터 아키텍쳐가 Geo-location 복제 가 되어 있다면 피해를 최소화 할수 있다. 실제 Geo-location 복제가 Sync  로 되어 있다면 Local 복제보다 느린 단점도 있다.

물론 누구나 아는 답이다. 문제는 비용이기 때문이다. 과연 고가용성은 어디까지 대처해야하는가에 답은 없다고 생각한다.

밑에 여러 링크들에서 보면 아주 잼있는 기사들이 많이 있으며 요약하면 답없다는 내용이다.

물론 맨 밑에 아마존의 공식입장은 아주 잼있는 답변이 있긴하다. 결론적으로 아마존 S3의 요금 처리 부분에서 서브 시스템을 바꾸다가 망했다는 내용인데 솔직히 이걸로 6시간 망하게 하기는 불가능하다고 생각되며, 다른 복합적인 말할수 없는 비밀이 있는듯 하다. 한명 엔지니어 책임으로 하드웨어적 문제를 인간실수였다라는 도망가려는 꼼수 냄새가 난다. 물론 내생각일뿐.... 현재 심각한 속도저하를 보여주고 있다.

http://www.networkworld.com/article/3175686/cloud-computing/amazon-s-s3-cloud-storage-service-isn-t-working.html

S3 대재항의 재해복구 교훈

https://virtualizationreview.com/articles/2017/03/01/disaster-planning-lessons-from-the-amazon-s3-outage.aspx

sucker punch 란

http://mashable.com/2017/02/28/aws-outage-amazon-internet/#cwdJc4EjhSqL

포춘 기사

http://fortune.com/2017/03/02/amazon-cloud-outage/

아마존의 공식 입장표명

https://aws.amazon.com/ko/message/41926/