12-29 20:02
Notice
Recent Posts
Recent Comments
관리 메뉴

Scientific Computing & Data Science

[Data Science] 빅데이터 워크플로우 본문

Data Science/Posts

[Data Science] 빅데이터 워크플로우

cinema4dr12 2014. 3. 19. 09:58

빅데이터 워크플로우를 이해하려면, 먼저 프로세스가 무엇인지 그리고 이것이 데이터-집약적 환경에서 워크플로우와 어떤 관련이 있는지를 이해해야 한다. 프로세스는 기업이나 기관들에서 의사결정 및 업무목표 규정에 유용한 고수준의 전체 구조로 설계된다.

이와는 대조적으로, 워크플로우는 업무에 대한 개별적인 방향성을 두고 프로세스 보다 더욱 특정의 데이터를 요구한다. 프로세스는 프로세스의 전반적 목표에 상응하는 하나 이상의 워크플로우로 구성된다.

방법론적 시각에서 볼 때 빅데이터 워크플로우는 표준 워크플로우와 유사하다. 사실 어느 워크플로우든 업무 목표를 달성하기 위해서는 각 단계에서 데이터가 필요하다. 헬스케어 상황에서의 워크플로우를 예로 들어보자.

가장 기초적인 워크플로우는 "채혈" 프로세스이다. 채혈은 전반적인 진단 프로세스를 마무리하는데 필요한 작업이다. 만약 사고가 발생했는데 채혈을 하지 않거나 그 채혈 테스트로부터 얻은 데이터가 유실된다면 전체적인 활동의 진실성이나 신뢰성에 직접적인 영향을 미칠 것이다.

빅데이터 소스에 의존하는 워크플로우를 소개할 때 어떤 것을 예상할 수 있겠는가? 기존의 워크플로우를 사용할 수 있다하더라도 표준 소스를 빅데이터 소스로 교체하는 것만으로 프로세스나 워크플로우가 올바르게 작동한다고 결론 내리기 어렵다. 표준 데이터 처리 방식은 빅데이터의 복잡성을 다룰 수 있는 처리 방식이나 성능을 가질 수 없기 때문에 빅데이터 처리에 대해 적합하지 않을 것이다.

헬스케어 예제는 환자로부터 채혈 후 분석에 대한 요구에 초점을 둔다. 표준 데이터 워크플로우 상에서 피는  유형별로 분류되고 헬스케어 검사진의 요구에 따라 특정 화학 검사를 실시한다.

이 워크플로우로 특정 생체표식이나 유전변이를 식별하는데 필요한 테스트를 이해할 수 있을 것 같지는 않다. 만약 생체표식 및 돌연변이에 대해 빅데이터 소스를 공급했다면, 워크플로우는 실패했을 것이다. 이는 빅데이터 방식이 아니며 빅데이터를 지원하려면 수정 및 재작성이 불가피하다.

워크플로우와 빅데이터의 효과를 이해하는 가장 좋은 연습은 다음과 같다:

  • 이용할 빅데이터 소스를 정의한다.

  • 빅데이터 유형을 당신의 워크플로우 데이터 유형에 맵핑한다.

  • 당신의 워크플로우를 지원할 수 있는 처리 속도와 저장공간에 접근할 수 있도록 한다.

  • 데이터 유형에 가장 적합한 데이터 저장소를 선택한다.

  • 빅데이터를 수용할 기존의 워크플로우를 수정하거나 새로운 빅데이터 워크플로우를 생성한다.


각자의 빅데이터 워크플로우를 구축하면, 이것을 세밀하게 조정할 필요가 있는데 당신의 분석을 훼손하지 않기 위해서이다. 예를 들어, 많은 빅데이터 소스들은 이러한 소스들의 요소들에 대해 잘 정의된 데이터 정의와 메타데이터를 포함하지 않는다. 가끔 이러한 데이터 소스들은 정돈되지 않았다. 당신이 사용하고자 하는 소스들에 대한 지식의 올바른 수준을 파악할 필요가 있다.


Comments