일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- probability
- Artificial Intelligence
- 김양재
- 김양재 목사님
- R
- 딥러닝
- Machine Learning
- 통계
- c++
- No SQL
- 빅데이타
- WebGL
- 확률
- nodeJS
- 주일설교
- node.js
- 데이터 과학
- 인공지능
- 김양재 목사
- MongoDB
- 빅 데이터
- openCV
- 빅데이터
- 우리들교회
- 빅 데이타
- 몽고디비
- Deep learning
- Big Data
- data science
- Statistics
- Today
- Total
목록Data Science/Posts (42)
Scientific Computing & Data Science
기존의 분석 도구와 분석 기술들도 빅데이터 활용에 있어 매우 효과적이다. 그러나, 이 도구들의 일부인 알고리즘 또한 방대한 양의 잠재적으로 실시간 데이터와 이질적 데이터와 연동되어야 한다. 그리고 분석 도구를 제공하는 벤더들은 이들의 알고리즘이 분산 실행에도 적합한지 확인할 필요가 있다. 이러한 복잡성 때문에 새로운 종류의 도구들이 빅데이터 활용을 위해 등장할 것으로 기대된다.다음은 이러한 종류의 레퍼런스 아키텍쳐에 대하여 세 가지 종류로 분류한 것이다. 의사결정자들은 사업을 전개하는데 있어 이 아키텍쳐들을 독립적으로 혹은 복합적으로 사용할 수 있다.리포팅 도구 및 대쉬보드: 이들은 다양한 소스로부터 얻은 정보들을 사용자가 쉽게 알아볼 수 있도록 하는 표현용 도구들이다. 전통적 데이터 세계에서 대들보 역..
당신의 사업은 다양한 형태의 데이터를 가지고 무엇을 하고 있는가? 빅데이터는 해결하고자 하는 문제에 따라 전통적 또는 최신의 다양한 데이터 분석 방법을 요구한다. 어떤 분석 방법은 전통적 데이터 웨어하우스를 사용할 것이고, 어떤 분석 방법은 최신의 예측 모델을 포함한 분석 방법을 이용할 것이다. 비즈니스의 미래를 성공적으로 계획하려면 많은 다양한 방법을 이용하여 빅데이터를 전체적으로 다룰 수 있어야 한다. 빅데이터를 위한 분석적 데이터 웨어하우스와 데이터 시장활용할 수 있는 방대한 양의 데이터를 분류한 후, 기업은 특정 패턴을 띄고 있는 데이터의 부분집합을 가지고 비즈니스에 활용 가능한 형태로 만드는 것이 실용적이다. 이러한 데이터 웨어하우스 및 데이터 시장은 압축, 멀티레벨 분류, 초병렬 처리 아키텍쳐..
기업들이 고객과 협력사들을 만족시키는데 있어 차이를 만들 수 있는 빅데이터는 더이상 과거의 데이터베이스에서 해답을 찾기 어렵다. 이전과는 다른 소스로부터의 비정형 구조 데이터의 가치는 분명해졌다. 비즈니스 리더들은 고객 지원 시스템의 텍스트 형태든 소셜 미디어 사이트든간에 비정형 구조의 정보를 신속히 분석하지 못한다면 중요한 통찰력을 얻는 것은 불가능하다. 빅데이터는 어떻게 기업들을 민첩하게 그리고 이윤을 창출할 수 있게 하는가기업들이 방대한 양의 데이터를 분서하고 이에 대한 결과를 실시간으로 고객의 의사 결정 프로세스와 비교할 수 있다면, 사업은 어마어마한 이윤을 창출할 것이다. 따라서, 비즈니스 프로세스의 일부로서 비정형 및 정형 구조의 데이터를 결합하여 활용하면 비즈니스 역량을 민첩하고 재빠르게, ..
일단 빅데이터를 수잡하였다면 다음으로 할 일은 무엇일까? 오늘날에는 고객의 충성도가 무엇보다도 중요한데 서비스 제공자와의 상호작용에 있어 선택권은 늘 고객에게 주어지기 때문이다. 이것은 어느 산업을 막론한 진실이다. 구매자는 보다 다양한 선택권을 가지고 있으며 구매 결정에 있어 점점 더 많은 연구를 하고 있으며 모바일 기기로 구매 결정을 하고 있다.급변하는 모바일 주도 시장에서의 경쟁력을 갖추려면 각 고객에 대해 더욱 깊이 알아야 하며 고객 맞춤형 지식으로 무장하여 고객과의 반응에 주목해야만 한다. 구매자가 구매 결정을 하는 동안 무엇을 제공하는 것이 적절할까? 당신의 고객 서비스 대표가 고객이 당신의 회사에 대해 가지고 있는 가치와 구체적 요구사항에 대한 맞춤형 지식을 갖추었다고 판단할 수 있는 근거는..
빅데이터 시장에서 텍스트를 분석하는 도구에 대해 알아보기로 하겠다. 일부는 유명하지 않으며 다른 일부는 이름만 들으면 누구나 아는 것들이다. 일부는 빅데이터 텍스트 분석용이라고 불리우며, 다른 일부는 단지 텍스트 분석용으로 일컬어진다. Attensity Attensity는 10년 이전부터 제품을 개발하고 판매하는 원조 텍스트 분석 기업 중 하나이다. 그 당시, 150개가 넘는 기업 고객들을 보유하고 있었으며 세계 최대의 NLP 개발 그룹이었다. Attensity는 텍스트 분석을 위한 다양한 엔진을 제공한다. 이들 엔진은 자동 분류, 개체 추출, 완벽 추출을 포함한다. '완벽 추출'은 Attensity의 핵심 기술이며 파싱된 텍스트로부터 자동으로 정보를 추출하고 추출된 정보를 조직화한다. 이 기업은 소셜 ..
오늘날 마켓에는 수많은 벤더들이 비즈니스를 위한 빅데이터 솔루션 니즈의 증가에 대응하고 있다. 빅데이터 솔루션을 제공하는 몇몇 흥미로운 기업들에 대해 소개하고자 한다:IBM은 빅데이터에 대해 기업용 솔루션 개발에 초점을 맞추고 있으며 IBM이 보유한 분석법을 임베드하거나 번들형을 포함한 플랫폼 통합형 솔루션을 제공하고 있다. IBM 제품들은 빌트입 데이터 마이닝을 갖는 웨어하우스 (InfoSphere warehouse)를 포함한다. IBM의 새로운 PureData Systems(통합형 시스템 플랫폼으로 고급 분석법 기술을 패키지화)는 다양한 통합 분석 패키지를 포함한다. IBM의 InforSphere Streams 제품은 사회과학 전문 통계 소프트웨어(SPSS)와 밀접하게 통합되어 실시간 데이터에 기반한..
빅데이터의 도전적 과제를 해결하는데 있어 연산 및 데이터에 집중적인 어플리케이션 사용과 함께 고도로 분산된 데이터 저장소 관리가 필요하다. 가상화는 빅데이터 플랫폼을 현실로 만들어 줄 수 있는 효율성에 힘을 실어준다. 가상화가 빅데이터 분석에 대한 기술적 요구사항은 아니더라도 소프트웨어 프레임웍은 가상화 환경에서 보다 효율적이다.가상화는 빅데이터 환경에서 요구하는 확장성 및 운영 효율성을 지원하는 세 가지 특성을 지닌다:분할: 가상화에 있어 많은 어플리케이션과 운영 시스템들은 활용가능한 자원을 분할함으로서 단일 물리적 시스템만으로도 지원된다.분리: 각 가상머신은 물리적 호스트 시스템과 기타 가상화머신으로부터 분리된다. 이러한 분리로 인해 만약 하나의 가상 인스턴스가 충돌할 경우, 다른 가상머신과 호스트 ..
빅데이터 분석의 장점 중 한 가지는 아마도 사기 예방일 것이다. 수많은 평가를 통해 보험 회사가 지급하는 보험료의 적어도 10퍼센트는 사기에 대한 것이며, 전세계의 사기 피해로 인한 보상은 수백만에서 수억 달러 규모에 이른다. 보험 사기가 새로운 문제는 아니지만 문제의 심각성은 나날이 증가하고 있으며 보험 사기의 가해자의 수법 또한 정교해지고 있다. 그렇다면 과연 보험 회사가 사기를 감지하는 방안에 있어 빅데이터가 할 수 있는 역할은 무엇일까? 보험 회사는 가급적 초기에 사기를 방지하려고 한다. 월급, 의료비 청구, 변호사 비용, 인구 통계, 날씨 데이터, 콜센터 기록, 음성 데이터 기록 등의 과거 데이터 및 실시간 데이터를 기반으로 한 예측 모델을 개발하여 회사들은 초기 단계에 사기성이 있는 수상한 클..
맵 리듀스는 빅데이터에 있어 이상적인 소프트웨어 프레임웍이다. 왜냐하면 프로세서 분산 그룹 상에서 방대한 양의 비정형(unstructured) 데이터를 병렬로 처리할 수 있는 프로그램을 개발할 수 있는 도구이기 때문이다. 빅데이터를 위한 맵 함수맵(map) 함수는 다년간 많은 함수형 프로그래밍 언어의 일부였다. 맵은 데이터 요소의 처리 항목에 있어 핵심 기술로 새로운 활력을 불어 넣었다.함수형 언어의 운용자들은 데이터의 구조를 변경하지 않았다; 이들은 결과 출력을 위해 새로운 데이터 구조를 만들어냈다. 본래의 데이터 자체 또한 변경되지 않았다. 따라서 맵 함수를 무사히(?) 사용할 수 있는데 이는 여러분의 소중한 데이터에 어떤 해도 가하지 않을 것이기 때문이다.함수형 프로그래밍의 또다른 장점은 데이터의 ..
하둡(Hadoop, 이하 하둡)은 HDFS (하둡 분산 파일 시스템, Hadoop Distributed File System)와 맵 리듀스(Map Reduce, 이하 맵 리듀스)를 이용하여 하드웨어 클러스터(즉, 분산 컴퓨팅 환경) 상에서 빅데이터를 분석하는 오픈-소스 소프트웨어 프레임웍이다.하둡 분산 파일 시스템(HDFS)은 기업들이 간단하고도 실용적인 방식으로 거대한 양의 데이터를 보다 쉽게 관리할 수 있도록 개발된 것이다. 하둡은 큰 문제를 보다 작은 요소를 분할하여 신속한 분석과 비용에 있어서도 효과적이도록 하였다. HDFS는 빅데이터 환경에 있어 파일 관리를 위한 다목적의 탄력있는 클러스터 접근법이다.HDFS는 파일 관리의 최종 목적지가 아니다. 이는 데이터 볼륨과 벨라서티(velocity)가 ..