01-05 13:11
Notice
Recent Posts
Recent Comments
관리 메뉴

Scientific Computing & Data Science

[Data Science / Articles] 데이터 과학자와 BI 전문가와의 차이 그리고 데이터 과학자가 되는 법 본문

Data Science/Articles

[Data Science / Articles] 데이터 과학자와 BI 전문가와의 차이 그리고 데이터 과학자가 되는 법

cinema4dr12 2014. 4. 6. 18:30

원문 : http://www.ciokorea.com/news/16936

통계와 컴퓨터 과학의 깊은 지식에 훈련의 초점이 맞춰지면서, 데이터 과학자는 전통적인 데이터 분석가들에게 있어서 완전히 새로운 장이 열렸다.

CIO들에게 그들의 전략적 우선순위를 꼽아보라고 한다면, 대부분 '빅 데이터'를 최우선 혹은 그 다음 순위로 대답할 것이다.

CIO들이 말하는 가장 큰 도전과제 가운데 하나는 바로 기업으로 들어오는 복잡한 데이터의 점점 늘어가는 볼륨을 분석하고 사업적 가치를 짜내는데 필요한 인재를 찾는 일이다.


기업은 좋은 데이터 과학자들을 필요로 한다, 그것도 아주 많이

이 주제에 대해 가장 자주 언급되는 보고서 가운데 하나인 맥킨지 글로벌 인스티튜트(McKinsey Global Institute)의 보고서는 2018년까지 IT 인력 시장에 19만 명의 데이터 과학자 부족현상이 발생할 것이라고 예상한 바 있다.

그러나 이런 수요가 많은 빅 데이터 전문가가 되려면 정확히 어떻게 해야 하는 걸까? 훈련이 필요할까, 자격증이 필요할까, 아니면 둘다 필요할까? 빅 데이터 전문가가 단순히 전통적인 비즈니스 인텔리전스 전문가들이 밟아야 할 자연스러운 경력 단계인걸까? 컴퓨터 과학 학위가 필요할까?

최소한 지금까지 상황을 볼 때, 이런 질문들에 대한 정답은 없다. 그 대신, 빅 데이터 분야에 일대 변혁이 일어나고 있는 것은 분명하다.

미국 매사추세츠 웨스턴에 위치한 바이오젠 아이덱(Biogen Idec) CIO 그렉 메이어스는 "빅 데이터는 아이들의 축구 경기와 비슷하다. 모두가 공을 차고 있지만, 아무도 그들이 정확히 무얼하고 있는지는 모른다. 이로 인해 사람들 사이의 엄청난 경쟁이 생겨났다"고 말했다.

미국 노스캐롤라이나 주립대(North Caronlina State University) 고급 분석 연구소(Institute for Advanced Analytics) 연구소장 마이클 라파 역시 "빅 데이터는 아주 유동적인 영역이며, 자신이 속한 산업이나 자신이 이야기하는 기업에 따라 빅 데이터의 현실은 각기 다르다"고 말하며 메이어스의 주장에 동의했다.

하나로 정의하기 어려울 수 있지만, 학계, 업계, 비즈니스 전문가들은 모든 데이터 과학자들이 수행할 필요가 있는 기본적인 작업들과 이를 잘 수행하기 위해 요구되는 특유의 기술들이 존재한다는데 동의한다.

주요 지식 분야들로는 데이터 클러스터링, 데이터 상관성, 데이터 분류, 변칙 감지 등이 있다.

또는 예측적 보안 분석 제공업체 레드 램다(Red lambda)의 데이터 과학자이자 CTO인 롭 버드처럼, "데이터를 단순화시키고, 관계를 찾고, 이상한 것들을 잡아내고, 예측을 내놓는 것"으로 볼 수도 있다.


데이터 과학 vs. 비즈니스 인텔리전스, 무엇이 다른가?

'데이터 과학'과 '비즈니스 인텔리전스'라는 용어는 빅 데이터와 연계되어 많이 사용되는 것으로 보이지만, 이들은 완전히 별개의 지식분야다.

전문가들은 데이터 과학이 미래 예측에 관한 것인 반면, 비즈니스 인텔리전스는 정적 보고서 생산에 관한 것이라고 구분했다.

"전통적인 비즈니스 인텔리전스 전문가들은 트렌드와 표준편차에 대한 보고를 할 때조차 있는 그대로의 정보를 효과적으로 보고한다"고 넷플릭스(Netflix) DVD 비즈니스 인텔리전스와 분석 책임자 앤드류 뎀프시는 말했다. "비즈니스 인텔리전스 전문가들은 새로운 정보의 조각을 발견해 내는 일을 하는 게 아니다. 그저 현재의 데이터만을 다룰 뿐이다."

뎀프시는 "그러나 데이터 과학에서는 미스터리 요소가 가미된다. 예를 들어, 넷플릭스는 "어떤 고객들이 왜 업체를 갈아 타는지, 갈아 탈 가능성이 있는지를 파악하기 위해 축적된 기존 데이터를 살펴본다"고 설명했다.

뎀프시는 "평균적으로 볼때 수많은 사람들이 비슷한 시청 습관을 가지고 있기 때문에 불확실성이 더 크지만, 개인적 단계로 보면 똑같은 사람은 어느 누구도 없다"고 덧붙였다.

데이터 과학과 비즈니스 인텔리전스 사이의 또 다른 주요 차이점은 데이터 그 자체에서도 찾을 수 있다.

그렉 메이어스는 "우선 순수한 데이터 양에서 다르다. 아주 많은 데이터 속에서 예외를 찾아내기 위해서는, 보고하기보다는 이를 충분히 이해해야 한다"고.

바이오젠 아이덱은 데이터의 신호들을 전체 제조 과정에 걸쳐 계속적으로 확인하고 허용수준을 넘어서는 것들을 잡아낸다. 변칙이 감지되면, 완전히 다른 작업 절차가 촉발된다.

메이어스는 "이는 모두 우리의 제조과정을 최대한 제어하기 위함"이라고 말했다. 또한 "우리는 여러 배치에 걸쳐 데이터를 확인해 분석 절차를 성숙시켜왔기 때문에, 우리는 특정 대상의 변동성을 줄이기 위해 트렌드를 본다"고 설명했다.

또다른 도전 과제는 빅 데이터의 변동성에 대처하는 것이다.
콘태전트(Kontagent) 데이터 과학자 조시 윌리엄스는 "전형적인 데이터 인텔리전트 시스템은 고객 프로필과 같이 고도로 구조화된 데이터를 가지는 게 보통이다. 그 데이터의 상관성을 보여주고 이에 대한 회귀분석을 함으로써 분석을 하는 것"이라고 말했다.

이와 반대로 오늘날의 빅 데이터 환경 속에서는 "복잡한 데이터가 엄청나게 주어지기 때문에, 자신이 살펴보고 있는 특성들이 결과물에 어떻게 관련되어 있는 지조차 알 수 없다"고 말했다.

윌리엄스는 "최종 결과는 데이터 과학이 훨씬 더 탐구적이다. 데이터 과학은 자신의 발등을 찍기 쉽기 때문에 더욱 엄격해져야 한다. 분석도 훨씬 어렵기 때문에 기계 학습에 관련된 연구도 그렇게 많이 진행되고 있다"고 덧붙였다.


데이터 과학자 육성, 대학들이 나서다

이런 작업들을 수행하는데 필요한 기술들은 통계, 수학, 컴퓨터 과학 등을 포함한 전통적인 학술적 지식 분야들도 해당된다. 이는 뉴욕 대학교(New York University)와 노스캐롤라이나 주립대학교를 포함한 몇몇 학교들이 전문화된 데이터 과학자 인증과 학위 과정을 제공하는 이유다.

라파는 "그간 데이터는 지금까지 수집의 대상으로 깔끔한 행과 열 속에 들어있는 것이었다"며, "시간과 노동력, 비용이 많이 들어가는 실험을 했고, 보유 데이터 양도 크지 않아 샘플 크기를 다뤘다"고 설명했다.

이제 이와는 반대로, 직원들, 협력업체, 고객들과의 모든 접점에서 데이터가 흘러 들어온다.

라파는 "빅 데이터는 그 모든 데이터를 한데 모아 이를 사업이나 재고 수준 최적화나 더 나은 대상 고객을 포착하기 위해 사용하는 것이다. 그게 모든 과정의 요령이다. 대규모 데이터 양을 잘 다룰 수 있고, 그 데이터를 분석하기 위한 수학과 통계 지식을 갖춘 인재가 필요하다"고 말했다.

2005년부터 데이터 과학에 대한 중요성을 인지한 노스캐롤라이나 주립대는 다양한 학술 분야의 교수진을 끌어 모아 데이터 과학을 '아주 통합적인 방식으로' 가르치는 고급 분석 연구소를 창설했다고 말했다.

라파는 "학생들은 통계, 금융, 경영의 기술 강좌를 수강하고, 소통과 팀워크 기술을 배우는데, 이는 경영진들에게 기술 능력보다도 중요하다"고 말했다. 라파는 "팀워크 기술은 한 사람에게서 자신이 필요한 모든 데이터 과학자적인 기술을 끌어낼 수 없기 때문에 핵심적인 기술"이라고 설명했다.

데이터 과학자들은 전형적으로 팀 단위로 일한다. 예를 들어 IBM은 MBA 학위자들과 통계학자들을 함께 경영진들이 데이터로부터 얻고자 하는 답변을 얻을 수 있는 질문을 결정을 돕는 자체 우수 데이터 분석 센터(Data Analytics Center of Excellence)에 배치시킨다.

우수 데이터 분석 센터 CIO 지넷 호란은 사업 지식과 분석의 결합을 통한 매출 창출이 이 센터의 목표라고 말했다.

IBM이 진출한 170개 국가들의 판매 범위를 최적화한 한 프로젝트는 그 모델이 적용된 지역에서 10%의 성과 향상을 거뒀다.

이 노스캐롤라이나 주립대 집중 프로그램은 학생들이 일주일에 5일 동안 하루 종일 수업을 들으며 10개월간 진행되는데, 이를 마치면 졸업생들에게 석사 학위를 수여한다.

졸업 논문을 마무리하는 대신 학생들은 팀 단위로 GE, GSK(GlaxoSmithKline)를 포함한 주요 기업들의 실제 데이터를 가지고 실습 프로젝트를 완료한다.

프로그램 수강 학생의 70%는 직장에서 복귀하는 이들로, 대다수가 기업의 학비 지원을 받는다. 대부분의 학생들은 최소한 2년 이상의 직장 경력이 있으며, 평균 연령은 29세다. 프로그램 학비는 노스캐롤라이나주 주민들에게는 2만 1,000달러, 이에 해당하지 않으면 3만 6,000달러다.

뉴욕대의 새롭게 출범한 데이터 과학 2년 석사 과정 역시도 수학, 컴퓨터 과학, 통계를 접목한 종합적인 과정이다.

뉴욕대의 데이터 과학 센터(Center for Data Science) 경영이사 로이 로렌스는 "이는 데이터 과학을 잘 하기 위해서 이 세 분야 모두에 전문성이 필요하기 때문"이라고 설명했다.

로렌스는 데이터 과학자들 역시 '애플리케이션 지식(application knowledge)'이 필요하다는 점을 강조했다. 애플리케이션 지식 없이는 특히 비즈니스에서 무슨 작업을 하고 어떤 테스트를 해야 하는 지에 대한 직관이 생기지 않는다.

로렌스가 애플리케이션 지식이라고 말하는 이것을 다른 전문가들은 영역 전문성(domain expertise)라고 부른다.

그러나 어떻게 부르던 상관없이 데이터 과학자가 이제 모든 비즈니스 분야에서 필수적이라는 사실에는 모두가 동의했다. 그러나 로렌스는 "데이터의 양과 복잡성이 산업에 따라 편차가 크기 때문에, 데이터 과학 기술이 꼭 산업-전이적이지는 않다"고 덧붙였다.

조시 윌리엄스는 "우리는 자릿수가 큰 볼륨을 다루지만, 이보다도 데이터가 훨씬 풍부하고 복잡해졌다는 점이 진정 중요한 부분"이라고 말했다.


데이터 과학자가 되기 위한 조건

영역 전문성을 취득할 수 있는 최적의 장소는 바로 직장이다. 그러나 그들의 기술적 능력을 향상시키는데 관심이 많은 사람들을 위해 대학 과정 이외의 옵션도 존재한다.

뉴욕대학의 로렌스는 "온라인 강좌 가운데서도 수많은 훌륭한 수학과 통계 과정이 있고, 많은 컴퓨터 과학 강좌들 역시 온라인에 올라와 있다"고 말했다. 부수적으로, 클라우데라(Cloudera)와 같은 빅 데이터 시장의 개발업체들은 미래의 빅 데이터 전문가들을 위한 광범위한 훈련 프로그램을 개발하고 있다.

클라우데라는 강사가 이끄는 훈련 프로그램을 실제 교실과 온라인 모두에서 제공한다. 이 훈련은 개발자, 분석가 등의 전문가적 역할과 애플리케이션에 따라 나뉘어져 있다. 예를 들어, 클라우데라의 빅 데이터 플랫폼상에 추천 시스템을 개발하는 강좌를 수강할 수 있다.

클라우데라의 가장 인기있는 강좌들 가운데 하나는, 자바(Java)를 주로 사용하는 개발자들을 위한 것이다.

클라우데라 교육 서비스 부회장 사라 스프레늘은 "그들이 웹 로그(Web log)를 받아 맵리듀스(MapReduce) 애플리케이션을 작성할 수 있는데, 이제는 웹 로그가 저장 분석이 가능해서 아주 빈번하게 사용되고 있다"고 말했다.

스프레늘은 "그러면 이들은 웹 페이지에 접속하는 다양한 IP 주소의 회수 세기 등 단순한 분석을 수행한다. 거기에서부터, 그들의 지리적 웹 활동이 어디에서 오는지를 지도상에서 볼 수 있도록 확대시킬 수 있다"고 설명했다.

클라우데라는 2012년에 1만 5,000명의 개발자를 훈련시켰다고 보고했으며, 매주 새로운 강좌를 전세계에서 제공하고 있다.

스프레늘은 "우리가 목표로 하는 대상은 그들 스스로를 데이터 과학자라고 아직 여기지 않는 이들"이라며, "이들은 소프트웨어 공학자, 통계학자 등이며, 새로운 빅 데이터 주도적 환경 속에서 활동하기 위한 기술을 필요로 하는 이들"이라고.

이 훈련은 클라우데라의 빅 데이터 플랫폼에 전적으로 초점을 맞추고 있지만, 기계 학습, 분류, 클러스터링과 같은 더욱 기본적인 빅 데이터 개념도 다루고 있다고 말했다.

또한 스프레늘은 "인증서도 발급하는데 이 인증서가 링크드인(LinkedIn) 프로필과 빅 데이터 전문가를 채용하고자 하는 직종 설명에 등장하기 시작했다"며, "이렇게 새로운 기술에 있어서 인증서는 구직자가 책에서 몇 페이지 읽은 것보다 훨씬 많은 것들을 제공할 수 있다는 어느 정도의 안도감을 제공한다"고 덧붙였다.

Comments