Cocone Engineering 1주년 기념 인터뷰:신뢰성과 지속 가능성을 지탱하는 인프라
-
2025년 11월 20일
서비스의 미래를 뒷받침하는 탄탄한 인프라 설계와 운영
많은 사용자가 이용하는 서비스의 안정성은 눈에 보이지 않는 인프라 위에서 이루어지고 있습니다.
새로운 기술이 속속 등장하고 있는 지금, 어떤 생각과 방향으로 인프라를 설계하고 운영하느냐가 서비스의 미래에 큰 영향을 미칩니다.
이번에는 Cocone Engineering(이하 CE)에서 인프라 분야를 선도하고 있는 윤성원 님에게 현재의 도전, 중요하게 생각하는 가치관, 그리고 앞으로의 비전에 대해 들어보았습니다.

윤성원: CE의 Infrastructure Division을 책임지고 있는 기술 리더
‘단순하고 예측 가능한 시스템’을 만드는 것을 중요하게 생각하고 있습니다.
복잡한 구조보다 누구나 쉽게 이해할 수 있고, 움직임을 예측할 수 있는 시스템이라면 문제가 발생했을 때 바로 원인을 파악해 대처할 수 있습니다. 이러한 단순함이야말로 오래도록 안정적으로 운영되는 서비스의 토대가 됩니다.
이를 위해 특별히 의식하고 있는 포인트는 크게 세 가지입니다.
첫째, 자동화입니다.
사람의 손으로 하는 작업은 아무래도 실수가 일어나기 쉽기 때문에, 반복 작업이나 배포(deploy) 등은 모두 코드 기반으로 자동화하고 일관되게 관리하고 있습니다.
둘째, 관측 가능성(Observability)입니다.
시스템은 처음부터 로그, 메트릭(metrics), 추적(trace) 정보를 기록할 수 있도록 설계해야 합니다. 이것이 없으면, 문제가 발생했을 때 원인을 적절하게 추적하기가 어려워집니다.
셋째, 보안과 비용 효율성입니다.
보안은 나중에 추가하는 것이 아니라, 설계 단계부터 자연스럽게 통합하는 것을 중요하게 생각합니다. 또한, 비용적인 측면도 개발부터 운영까지 전반적으로 효율적으로 관리하고 있습니다.
이러한 기본을 지키는 것이 궁극적으로 ‘안심하고 신뢰할 수 있는 인프라 구축’으로 이어진다고 생각합니다.
가장 큰 노력은 컨테이너 기반 인프라를 본격적으로 도입해 운영을 시작한 것입니다.
이를 통해 애플리케이션을 보다 빠르고 안정적으로 배포할 수 있는 환경을 마련함과 동시에IaC(Infrastructure as Code)를 도입하여 인프라 관리 체계를 자동화했습니다.
또한, 기존 레거시 환경의 현대화 작업에도 집중했습니다. 특히 서비스 안정성에 큰 영향을 미치는 데이터베이스의 기술적 부채를 일부 해소하여 성능 개선과 장애 위험 감소를 실현했습니다.
그리고, 개발 효율성을 높이기 위해 AI 툴을 도입하는 한편, 이에 따른 잠재적 리스크를 관리하기 위한 보안 및 거버넌스 체계도 강화시키고 있습니다.
새로운 기술의 장점을 최대한 활용하면서도 서비스의 안정성과 균형을 유지하는 것을 항상 염두에 두고 있습니다.
IaC(Infrastructure as Code): 수동 프로세스나 설정 대신, 코드를 사용하여 컴퓨팅 인프라를 프로비저닝하고 지원하는 기능을 가리킵니다.
제가 생각하는 인프라의 지속가능성은 예상치 못한 변화 속에서도 흔들리지 않는 안정성과 성장 가능성을 확보하는 것이라고 생각합니다.
이를 위해서는 정기적인 아키텍처 검토와 기술 부채 관리가 필수적입니다. 오래된 기술 스택을 무리 없이 현대화함으로써 변화에 대응할 수 있는 유연성을 유지할 수 있습니다.
또한, 클라우드 리소스 사용 현황을 지속적으로 분석 및 최적화하여 트래픽 증감 및 비즈니스 성장에 따라 합리적인 비용 구조를 유지하도록 노력하고 있습니다.
궁극적으로는 특정 데이터센터나 클라우드 리전에 문제가 발생해도 서비스가 중단되지 않는 높은 복원력을 가진 글로벌 인프라를 구축하는 것을 목표로 하고 있습니다.
‘AI는 인프라 운영과 보안의 방식을 근본적으로 바꿀 것’이라고 생각합니다.
지금까지 사람의 경험과 개별적인 판단에 의존했던 부분이 AI를 통해 미세한 이상 징후를 더 빠르고 정밀하게 분석, 대응할 수 있게 될 것입니다.
운영 측면에서는 장애를 사전에 예측하고 자동으로 복구하는 AIOps(Artificial Intelligence for IT Operations)를 실현하고, 보안 측면에서는 지능형 공격을 자동으로 방어하는 자율적인 보안 체계로 발전할 것으로 보고 있습니다.
우리 CE 조직의 비전도 이에 부합합니다. 단기적으로는 운영과 보안 영역에 AI 기반 이상 징후 탐지 시스템을 도입해 예측 정확도를 높이는 데 집중하고, 장기적으로는 AI가 문제 탐지뿐만 아니라 해결까지 대응하도록 자동화해 사람의 개입을 최소화하는 것이 목표입니다.
이를 통해 엔지니어들이 반복적인 장애 대응이나 위협 분석 업무에서 벗어나 서비스 본연의 가치를 높이는 창의적인 업무에 몰입할 수 있는 환경을 만들고자 합니다.
AIOps(Artificial Intelligence for IT Operations): 자연어 처리나 머신러닝 모델 등 인공지능(AI) 기능을 적용하여, IT 서비스 관리 및 운영 워크플로우를 자동화, 간소화, 최적화하는 것을 의미합니다.
인프라 부서의 역할은 단순히 시스템을 안정적으로 운영하는 것뿐만 아니라, 모든 개발자들이 혁신에 집중할 수 있는 기술 플랫폼을 제공하는 것이라고 생각합니다.
현재 목표는 일일 활성 사용자(DAU) 1억 명 규모를 지원할 수 있는 글로벌 인프라를 구축하는 것입니다.
이를 위해 멀티 리전을 통한 액티브-액티브 구성으로 확장하고, 주기적인 카오스 엔지니어링 훈련을 통해 시스템의 복원력을 강화할 계획입니다.
보안 측면에서는 제로 트러스트 아키텍처로 전환하여 기밀 정보 관리 체계를 더욱 고도화합니다. 그리고, 정책 코드화(Policy as Code)를 도입하여 최소 권한 원칙을 유지하면서 개발 속도와 보안을 동시에 확보합니다.
또한, 팀이나 지역에 국한되지 않고 조직 전체가 함께 성장하는 기술 문화를 확산시키고자 합니다. 각 거점의 성공 경험을 투명하게 공유 및 확산하여 CE 전체의 기술 수준을 끌어올리는 것이 앞으로의 중요한 과제입니다.
카오스 엔지니어링: 시스템에 의도적으로 장애나 오류를 주입함으로써, 시스템의 안정성, 회복력,탄력성을 실험하고 강화하는 기법을 가리킵니다.
정책 코드화(Policy as Code): 보안이나 컴플라이언스 정책을 사람이 이해하는 문서나 수동 프로세스 대신, 기계가 읽을 수 있는 코드로 정의하고 자동화하여 관리하는 기법을 가리킵니다.
마지막으로
안정성과 혁신을 동시에 추구하는 기술 플랫폼의 미래
이번 인터뷰를 통해 CE의 인프라팀은 ‘단순하고 튼튼한 기반을 만든다’는 방향으로 IaC, AIOps, 카오스 엔지니어링 등 최신 기술을 적극적으로 도입하며 미래를 대비하고 있음을 알 수 있었습니다.
단순한 안정적 운영을 넘어 개발자들이 보다 가치 있는 기능 개발에 집중할 수 있는 기술 플랫폼을 구축하고자 하는 비전은 CE의 지속 가능한 성장을 위한 흔들림 없는 토대가 될 것입니다.