본문 바로가기
보도자료

잠깐만 끊겨도 기업 리스크 극대화... 실시간 장애 예측 중요

by eNsecure 2022. 12. 27.

서비스 연속성과 지연 민감도 안정화 위해 실시간 서비스 모니터링 선행 중요
엔시큐어, ‘엔젠오네스’ 개발...서비스 장애 요인 상세화 분석 제공에 초점
네트워크 전체는 물론 스마트팩토리, 스마트시티, OT, 클라우드 등 다양한 분야에 접목

 

 

2022년 10월 IDC 화재로 A기업 대량 서비스 장애, 2021년 12월 트래픽 통신 장애로 B기업 이틀 연속 결제 오류, 2021년 12월 트래픽 관리법 소개 중 트래픽 몰려 C기업 행사 취소, 2021년 12월 방역패스 QR코드 접속 먹통. 이처럼 트래픽 문제로 인한 서버 장애 사고가 끊임없이 발생하고 있다.

 

▲트래픽 문제로 인한 서버 장애 발생 사례[자료=엔시큐어]

 

기업에서 실시간 장애로 인해 업무 프로세스와 서비스가 마비되면, 브랜드 가치와 명성이 하락하고 사고 원인 추적 및 신속한 대응이 어렵다. 최근 급변하는 디지털 환경에서 인터넷 트래픽 관련 사고는 갈수록 증가하는 추세로, 신속한 장애 해결의 필요성이 대두되면서 실시간 장애 예측 진단 시스템이 더욱 주목받고 있다.

 

이에 본지는 최근 실시간 장애 예측 진단 시스템 ‘엔젠오네스(eNgenAUNES)’를 개발한 엔시큐어 전략기획본부 장원근 상무이사, 전략사업1본부 이창훈 본부장과의 인터뷰를 통해 실시간 장애 예측 진단 시스템의 개발 배경과 기술, 그리고 관련 트렌드에 대해 들어봤다.

 

최근 엔시큐어에서 ‘엔젠오네스’라는 실시간 장애 예측 진단 시스템을 최근 출시했는데요. 실시간 장애 예측 진단 시스템 개념에 대해 설명해 주신다면?
이창훈 본부장: 실시간 장애 예측 진단 시스템은 실시간으로 네트워크와 애플리케이션 성능을 모니터링해 감시, 진단, 분석 등을 통해 장애와 성능 저하 문제를 예측하는 솔루션입니다. 서비스 이용 과정에서 네트워크 회선과 서비스를 구성하는 서버 구간, WEB 구간, WAS 구간, DB 구간, APP 구간 등에 오고 가는 트랜잭션 데이터를 실시간으로 분석해서 서비스의 지연량과 지연의 원인이 되는 상태를 알고리즘으로 분석해 서비스 장애 위험을 실시간으로 파악하고 분석합니다.

 

실시간 장애 예측 진단 시스템을 개발하게 된 배경이 궁금합니다.
장원근 상무이사: 최근 서비스 체계는 디지털 환경의 급격한 변화에 따라 실시간 서비스 연속성이 보장돼야 합니다. 이 때문에 실시간 모니터링이 매우 중요하죠. 하지만 기존 IT 인프라 모니터링 방식으로는 실시간 서비스 민감도 지원에 한계가 있습니다. 그래서 실시간 서비스 연속성과 민감도 향상을 위해 ‘엔젠오네스’를 개발하게 됐고, 실시간 모니터링과 연관성 분석을 통해 서비스 장애 요인을 상세화하는 데 초점을 맞췄습니다. 개발자가 네트워크 패킷을 모니터링해 장애 지표를 뽑아 보여주는 코어 기술로 네트워크 전체 시장 뿐만 아니라 스마트 팩토리, 스마트시티, OT, 클라우드 등 다양한 분야에 접목할 수 있습니다.

 

실시간 장애 예측 진단 시스템이 갖춰야 할 조건은 무엇인가요?
이창훈 본부장: 5가지를 제시할 수 있는데요. 먼저 애플리케이션 이용 트랜잭션 패킷을 클라이언트, 서버와 애플리케이션 URL 단위까지 위험을 실시간으로 측정하는 게 중요합니다. 둘째, 네트워크 구간에 발생하는 서비스 지연의 속도와 원인에 대해 상세히 분석해 네트워크 서비스의 질이 향상되도록 지원돼야 합니다. 셋째, 주요 업무 서버의 애플리케이션 연관성을 도식화해 서버맵으로 연관된 장애 위험 확산 범위를 한 눈에 파악할 수 있어야 합니다.

 

특히, 사후에 서버맵을 이용해 과거 상황을 리플레이해 볼 수 있어야 해요. 넷째, 장애가 클라이언트의 영향으로 유발되는지 식별될 수 있어야 합니다. 그래야 인프라 담당자의 업무 감소는 물론 효율적으로 업무를 수행할 수 있는 기반이 마련됩니다. 마지막으로 트랜잭션 정보를 100개 이상의 측정값으로 저장해 사후 분석시 명확한 상황을 식별하고 이로 인해 실시간 위험도 측정, 서버맵과 리플레이, 경고 알림, 클라이언트 영향에 의한 서비스 지연 상황 등을 식별 및 분석하게 됩니다.

 

실시간 장애 예측 기술에 대한 자세한 설명 부탁드립니다.
장원근 상무이사: 실시간 장애 예측 기술은 엔시큐어에서 자체 개발한 엔젠리스크(eNgenRISK) 알고리즘으로 서비스 요청 세션 단위별로 서비스 처리 통신 지연이 증가하는 상황을 실시간 분석하는 기술입니다. 서버의 OS 수준에서의 부하 증가나 장애로 인한 문제, 애플리케이션 프로세스의 처리, 응답, 지연에 의한 문제, 클라이언트의 성능이나 클라이언트 네트워크 구간의 성능으로 인한 문제 등에 대해 분석합니다.

 

▲(좌측)엔시큐어 전략기획본부 장원근 상무이사와 전략사업1본부 이창훈 본부장(우측)[사진=보안뉴스]

 

포털, 증권 및 금융, 게임사 등의 분야는 특히 실시간 장애가 발생하지 않도록 하는 게 중요할 것 같은데요. 실시간 장애 예측 진단 시스템의 필수 요소는 무엇인가요?
장원근 상무이사: 기존에는 IT 인프라의 각 객체별 성능이나 장애 중심으로 관리되거나 모니터링 체계가 운영됐어요. 하지만 최근에는 IT 인프라 기반에서 제공되는 다양한 서비스의 연속성과 안정성이 중요해지고 있죠. 사용 기업 역시 서비스에 대해 민감하게 생각하고요. 이 때문에 서비스의 연속성과 지연 민감도 안정화를 위해 실시간 서비스 모니터링은 반드시 선행돼야 합니다

 

최근 발생한 온·오프라인 상에서의 장애 발생으로 인해 장애관리 시스템에 관심이 모아지고 있는데, 최근 장애관리 시스템 트렌드에 대해 설명해 주신다면?
이창훈 본부장: 법원, 증권사 등과 같은 실시간 서비스 제공 기업은 IT 인프라 구성 객체의 구성, 성능, 장애 등을 모니터링하는 각각의 포인트 솔루션을 운영하고 있습니다. 하지만 각각의 포인트 솔루션이 잘 운영되고 있는지, 어느 포인트 솔루션에서 장애가 발생했는지 총괄적으로 관리되지 못하고 있는 실정입니다. IT 인프라 상에서 제공되는 다양한 서비스의 실시간성, 연속성 보장은 반드시 최상위 서비스 모니터링 시스템으로 운영돼야 합니다.

 

뿐만 아니라 IT 인프라 구성 중 보안장비의 장애도 서비스 지연과 장애에 큰 영향을 미치기 때문에 보안장비의 서비스 장애 모니터링을 통합 관리해야 합니다. 또한, 기업에서는 화재와 같은 물리적인 장애 발생을 대비해 이와 관련된 소프트웨어 활용방법 연구도 중요합니다. 이를테면 소프트웨어 서비스나 솔루션을 통해 알림으로 사전에 사고를 방지할 수 있습니다.

 

 

 

2022.11.02 13:39 보안뉴스 김경애 기자

https://www.boannews.com/media/view.asp?idx=111182

댓글