일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 딥러닝
- data science
- openCV
- R
- 김양재 목사
- Statistics
- 인공지능
- 빅데이터
- node.js
- WebGL
- 우리들교회
- 김양재
- Big Data
- 확률
- 통계
- 빅데이타
- MongoDB
- 김양재 목사님
- 몽고디비
- 데이터 과학
- No SQL
- 빅 데이타
- Machine Learning
- Artificial Intelligence
- Deep learning
- nodeJS
- 빅 데이터
- probability
- 주일설교
- c++
- Today
- Total
Scientific Computing & Data Science
[Data Science] 빅데이터에서의 전통적 ETL의 역할 본문
ETL 도구들은 하나의 빅데이터 환경에서 얻은 데이터를 다른 데이터 환경으로 이전하는데 필요한 세 가지 중요한 기능(추출(Extract), 변형(Transform), 불러내기(Load))을 결합한다. 전통적으로, ETL은 데이터 웨어하우스 환경에서 일괄 처리 작업을 하는데 사용되어 왔다. 데이터 웨어하우스는 사업자들에게 사업 중점에 관계되는 데이트에 대한 분석과 리포트를 강화하는 수단을 제공한다. ETL 도구들은 데이터 웨어하우스가 요구하는 포맷으로 데이터를 변형한다.
변형은 사실상 데이터가 데이터 웨어하우스에 로딩되기 전 중간 위치에서 실행된다. IBM, Informatica, Pervasive, Talend, Pentaho를 포함한 많은 소프트웨어 벤더들이 ETL 소프트웨어 툴을 제공한다.
ETL은 다음 세 가지 중요한 기능들을 수행함으로써 통합 인프라 구조를 제공한다:
추출: 소스 데이터베이스로부터 데이터를 읽는다.
변형: 타겟 데이터베이스의 요구사항에 맞게끔 추출된 데이터의 포맷을 변환한다. 변형은 규칙을 활용하거나 다른 데이터와 합치는 것으로 수행된다.
로드: 타겟 데이터베이스에 데이터를 쓴다.
그러나, ETL은 전통적 데이터 웨어하우스 이상의 통합을 지원하도록 진화하고 있다. ETL은 거래 시스템, 운영 데이터 저장소, BI 플랫폼, MDM 허브, 클라우드, 하둡 플랫폼에 이르는 통합을 지원한다. ETL 소프트웨어 벤더들은 빅데이터 추출, 변형, 하둡과 전통적 데이터 관리 플랫폼 간의 로딩을 제공할 수 있도록 솔루션을 확장하고 있다.
기타 데이터 통합을 위한 ETL과 소프트웨어 도구들은 데이터가 신뢰를 확보할 수 있도록 데이터를 다양한 시각에서 클리닝, 프로파일링, 모니터링과 같은 처리를 하고 있다. ETL 도구들은 데이터 품질 도구와 데이터 클리닝, 데이터 맵핑, 데이터 이력 식별을 위한 관련 도구를 통합한다. ETL을 통해 통합에 필요한 데이터만을 추출할 수 있다.
ETL 도구들은 정형 및 비정형 구조의 데이터를 하둡으로 변환하고 로딩하기 위해 필요한 것이다. 고급 ETL 도구들은 데이터의 공통 변형 프로세스 통합 방식을 단순화 할 수 있도록 병렬로 다중의 파일들을 하둡으로 쓰거나 하둡으로부터 읽을 수 있다. 어떤 솔루션들은 하둡이나 전통적 그리드 인프라 구조에서 실행되는 거래 및 인터랙션 데이터 모두에 대한 선처리 된 ETL 변형 라이브러리와 연동된다.
데이터 변형은 데이터의 포맷을 바꾸는 처리이며 이는 다른 어플리케이션들이 사용할 수 있도록 하기 위함이다. 이것은 데이터가 저장된 포맷으로부터 데이터를 사용하는 어플리케이션이 필요로 하는 포맷으로 변화됨을 의미한다. 또한 어플리케이션이 처리에 필요한 데이터를 얻을 수 있도록 맵핑 인스터럭션을 포함한다.
데이터 변형 처리는 비정형 데이터의 엄청난 양적 성장으로 인해 훨씬 더 복잡해졌다.고객 관계 관리 등과 같은 비즈니스 어플리케이션은 데이터가 어떻게 저장될 것인가에 대한 특정 요구조건을 갖는다. 데이터는 관계형 데이터베이스의 조직화 된 행과 열로 구조화 되는 경향이 있다. 데이터가 정형화 된 포맷 요구조건을 따르지 않는다면 반정형 구조 또는 비정형 구조이다.
이메일 메시지에 포함된 정보는 예를 들어 비정형 구조로 생각할 수 있다. 몇몇 기업의 가장 중요한 정보는 문서, 이메일, 메시지, 복잡한 메시지 포맷, 고객 지원 정보, 거래 정보, ERP와 CRM과 같은 패키지 어플리케이션으로부터의 정보 등과 같은 비정형 또는 반정형 구조로 되어 있다.
데이터 변형 도구들은 비정형 구조 데이터와 궁합이 잘 맞는 편은 아니다. 결과적으로, 비즈니스 프로세스 의사 결정을 위해 비정형 구조 데이터를 필요로하는 기업들은 요구 데이터 통합을 수행하기 위해 엄청난 양의 수동 코딩을 해야하는 상황을 맞이한다.
의사 결정에 대해 비정형 구조의 데이터에 대한 중요성이 날로 높아지기 때문에, 주요 벤더들의 ETL 솔루션들은 비정형 구조 데이터로 변형하는데 있어 표준화 된 접근법을 제공함으로써 보다 쉽게 운용상의 구조화된 데이터와 통합할 수 있도록 한다.
'Data Science > Posts' 카테고리의 다른 글
[Data Science] 빅데이터를 위한 CEP 사용하기 (0) | 2014.03.15 |
---|---|
[Data Science] 데이터 스트림에 있어 메타데이터의 중요성 (0) | 2014.03.14 |
[Data Science] 빅데이터 파라독스 (0) | 2014.03.05 |
[Data Science] 빅데이터 팀 구성하기 (0) | 2014.02.08 |
[Data Science] Terms for Big Data (0) | 2014.02.08 |