05-15 00:56
Notice
Recent Posts
Recent Comments
관리 메뉴

Scientific Computing & Data Science

[Data Science / Articles] '빅 데이터 분석으로 VDI 오류를 찾아낸' 시애틀 아동 병원 이야기 본문

Data Science/Articles

[Data Science / Articles] '빅 데이터 분석으로 VDI 오류를 찾아낸' 시애틀 아동 병원 이야기

cinema4dr12 2014. 6. 3. 10:27

원문 : http://www.ciokorea.com/news/21148

미국 시애틀 아동 병원은 데스크톱 가상화를 도입하고 시간이 흐른 후, 매일 비슷한 시간에 시스템의 성능이 저하되는 새로운 문제를 겪게 됐다. 원인을 찾아내고자 TFT를 구성했으나 정확한 원인을 찾지 못했다. 이 성능 저하 문제를 찾아준 것은 다름 아닌 빅 데이터 분석이었다. 


몇 년 전, 미국 시애틀 어린이 병원(Seattle Children's Hospital)은 대대적으로 데스크톱 가상화(VDI)를 도입했다. 그러나 얼마 지나지 않아, 설명하기 어려운 VDI의 '유령'이 IT 부서에 큰 골칫거리를 초래하기 시작했다.

이 회사의 CIO인 웨스 라이트는 "아침 8~10시 사이에 성능이 떨어지는 문제가 발생하기 시작했다. 더 자세히 말하면, 매번 다른 시간 대에 성능이 저하됐으며, 성능이 저하되지 않는 날도 있었다. 이 문제를 파악하기 위해 몇 차례 팀을 구성했다. 그러나 그 이유를 알 수 없었다"고 밝혔다.

107년의 역사를 가진 시애틀 어린이 병원은 워싱턴, 알라스카, 몬타나, 아이다호 주의 소아과 의사들이 환자를 보내는 2, 3차 진료기관이다. 40명으로 구성된 IT 부서는 시애틀 어린이 병원 연구소(Seattle Children's Hospital Research Institute) 산하 9개 연구실을 포함, 25개에 달하는 장소에서 근무하는 8,500명 이상의 사용자를 대상으로 100여 애플리케이션을 지원하고 있다.

병원의 상당 수는 상시 여러 장소를 이동하면서 근무하는 간호사와 임상의들이다. VDI를 도입하기 전에는 새 장소에 도착할 때마다 각 기기에서 로그인 해야 했다는 의미다.

라이트는 "VDI를 도입하기 전에는 기기에 로그인 해 작동시키기까지 2분 30초 가량이 소요됐다"고 말했다.


간호사와 임상의의 로그인 시간을 줄여준 VDI

고정 근무자에게 2분 30초라는 시간은 크게 '나쁘지' 않은 경우가 많다. 그러나 여러 장소를 이동하는 병원 근무자들에게 이 시간은 상당한 비용이 된다. 예를 들어, 간호사는 12시간 근무하면서 40여 장소에서 로그인 하는 경우도 있다. 12시간 근무 동안 로그인에만 1.5시간을 소비하는 것이다. 이런 간호사가 수천 명이다. 병원이 VDI를 도입해 변화를 추진할 수 밖에 없었던 이유가 여기에 있다.

라이트는 이에 대한 해결책으로 시트릭스의 젠데스크탑(XenDesktop)을 선택했다. IT 부서는 처음에는 멀리 떨어진 장소 중 한 곳에 근무하는 약 250명의 사용자를 대상으로 이 기술을 도입했다. 그러나 사용자의 요구로 병원 전체로 확대했다.

라이트는 "응급 병동에서 가장 강하게 요구했다. 조금 주저했다. 그곳의 작업과 시간은 아주 중요한 의미를 갖고 있었기 때문이다. 그러나 결국은 응급 병동에도 도입했다"고 말했다.

결과는 인상적이었다. 이동 근무자들이 새 장소에 도착하면, 그곳에 위치한 기기에서 젠데스크탑 인스턴스에 로그인 한다. 로그인 시간이 약 2.5분에서 12초로 줄었다. IT 부서는 단기간에 시트릭스 환경을 통해 윈도우 7 데스크톱 3,000개를 설치했다.

그러나 이때 '유령'이 모습을 드러내기 시작했다. 오전이 되면 불규칙한 패턴으로 로그인 시간이 몇 초에서 15분까지 늘어났다.


최종 사용자 성능 문제 찾기, 효과 없어

엔터프라이즈 애플리케이션 담당 이사인 팀 홀트는 "상상할 수 있는 모든 기술로 구성된 환경을 보유하고 있었다. 그 결과, 최종 사용자 측면에서 성능 문제를 해결하기가 아주 아주 어려웠다"고 말했다.

라이트와 IT 부서는 성능 문제를 초래한 이유를 찾으려 노력했지만 허사로 돌아갔다.

홀트는 "특정 기술 때문에 문제가 시작됐을 것이라고 생각해, 이를 파악하려 시도했지만 허사였다. 네트워크가 출발점이었다. 그러나 많은 시간을 소비했지만 네트워크는 기대대로 작동하고 있음이 증명됐다. 이후 다른 기술을 조사했다. 그 기술이 원인이 아니면, 또 다른 기술을 조사해야 했다"고 말했다.

라이트는 에이전트와 네트워크 탐지 기술은 선택 사항이 아니었다고 말했다 (그는 이것들도 효과가 없었을 것이라고 덧붙였다.).

라이트는 "가상 데스크톱에 에이전트를 추가시키고 싶지 않았다. 애플리케이션은 성능을 저하시키기 때문이다 (심지어는 안티바이러스도 실행시키지 않는다 - 지속성이 없는 이미지기 때문이다). 이는 성능을 낮추거나 들쑥날쑥하게 만든다. 가상 데스크톱에 애플리케이션을 추가한다고 가정하자. 그러면 가상 데스크톱 각각의 성능 특성을 파악하지 못한다. 데스크톱 A의 에이전트와 데스크톱 B의 에이전트가 다르게 작동하기 때문이다. 그러면 표준화가 상실된다"고 말했다.


여러 단계에 걸쳐 가시성 제공한 유선 데이터 분석

이런 상황에서 라이트의 선임 엔지니어 한 명이 시애틀에 본사를 두고 있으며 실시간 유선 데이터(Wire data) 분석 서비스를 제공하는 엑스트라호프 네트웍스(ExtraHop Networks)와 계약하자고 제안했다. 엑스트라호프 오퍼레이셔널 인텔리전스(ExtraHop Operational Intelligence) 플랫폼은 양방향 트랜잭션 페이로드를 포함, L2에서 L7까지의 커뮤니케이션 일체를 분석하는 기능을 갖고 있다.

엑스트라호프는 유선 속도에 따라 최대 20Gbps까지 유선 데이터 분석을 실시할 수 있다. 유선 데이터 트래픽을 수신하면, 모든 엔드포인트를 대상으로 TCP 상태 머신을 재창조하고, 세션과 플로우, 트랜잭션을 재구성한다. 암호화된 트래픽의 경우, 유선 속도로 대량 해독을 실시해 풀스트림을 재구현 할 수 있다.

이 단계에서 애플리케이션 수준의 매트릭스와 인프라, 네트워크, 모든 티어를 대상으로 한 트랜잭션 매트릭스를 추출해 L2에서 L7까지 콘텐트와 페이로드를 분석한다. 그리고 MAC 주소, IP 주소, 네이밍 프로토콜, 트랜잭션 유형, 기타 요소에 대한 지속적인 휴리스틱 분석(Heuristic Analysis)을 토대로 장치를 식별해 분류한다. 그리고 트렌드 기반의 얼럿(alerts)을 생성하는 스트리밍 데이터스토어에 매트릭스를 기록한다.

라이트는 엑스트라호프에 병원에 대한 개념증명(POC)을 실시해 달라고 요청했다. 그는 엑스트라호프가 자신의 팀이 몇 달을 소비하도록 만든 VDI의 '유령'을 찾아줄 수 있을 것으로 기대했다. 그리고 엑스트라호프는 즉시 그 가치를 증명해 보였다. 특정 의사 한 명이 아침에 로그인 할 때마다 (때로는 아침에 가장 먼저 한 일이었고, 때로는 컴퓨터가 필요하지 않은 업무를 한 직후), 스토리지 티어에 심각한 경합(Contention)이 발생했다.

2GB의 개인 프로파일 사진을 시트릭스 프로파일로 옮기면서 발생한 문제였다.

라이트는 "이 의사가 로그인 할 때, 시스템이 사진들을 스핀업 하면서 발생한 문제였다. 10~20분간 백업한 것이다"고 말했다.

덕분에, IT 부서는 상황에 맞게 문제를 해결할 수 있는 여러 단계에 걸친 가시성을 갖게 됐다. 내 사진(My Picture) 폴더를 사용하지 못하도록 금지했고, 사용자에게 도움이 되는 다른 최적화 작업을 수행했다.

시스템 인프라 팀의 선임 엔지니어인 브루스 풀톤은 "엑스트라호프에 비교할만한 기술을 본적이 없었다. 다양한 애플리케이션에서, 출발부터 끝까지 트랜잭션의 플로우를 확인할 수 있는 기술이다. 과거 사용했던 기술로는 처음부터 끝까지의 가시성을 확보할 수 없었다"고 말했다.

라이트는 엑스트라호프 플랫폼이 비싸기는 하지만, 예산에 반영을 할 수 있었다고 말했다. 그러면서 엑스트라호프가 없는 상황을 상상할 수 없다고 덧붙였다.

그는 "우리의 가상 데스크톱 도입 사례에 대해 여러 차례 이야기 한다. 그때마다 가상 데스크톱과 함께 엑스트라호프 같은 기술을 배치하라고 강조한다. 이는 VDI의 '유령'이 초래하는 문제를 해결해준다"고 말했다.


개발자들에도 도움을 준 유선 데이터 분석

그는 "이와 관련해서는 고정관념의 틀에서 벗어나 생각해야 한다. 기술 담당자들을 위한 단순한 모니터링 툴이 아니다. 애플리케이션 담당자, 개발자, 중소기업 모두를 교육시킬 필요가 있다. 최종 사용자가 사용하는 애플리케이션과 데이터베이스의 성능 증가를 인정할 것이다. 물론 모니터링에도 도움이 된다. 이들은 다른 누구보다도 애플리케이션이 더 빠르게, 우수하게, 튼튼하게 실행되기를 원한다"고 말했다.

이는 시애틀 어린이 병원의 IT 담당자들이 복잡한 애플리케이션이 어떻게 작동하는지 이해하는데 도움을 줬다고 홀트는 덧붙였다.

홀트는 "과거 특정 환경에서 발생하는 문제를 속속들이 설명할 수 있냐고 물으면, 여기에 제대로 된 대답을 내놓을 수 있는 사람이 사실상 한 사람도 없었다”고 전했다. 이어서 그는 “서너 애플리케이션 로그인을 예로 들 수 있다. 그러나 엑스트라호프를 도입한 이후, 최소 15명의 직원들이 이를 자세히 설명할 수 있으며, 이 숫자는 계속 늘어나고 있다"고 말했다.

Comments