01-07 07:24
Notice
Recent Posts
Recent Comments
관리 메뉴

Scientific Computing & Data Science

[Data Science] 텍스트 분석 도구 본문

Data Science/Posts

[Data Science] 텍스트 분석 도구

cinema4dr12 2014. 1. 11. 00:19

빅데이터 시장에서 텍스트를 분석하는 도구에 대해 알아보기로 하겠다. 일부는 유명하지 않으며 다른 일부는 이름만 들으면 누구나 아는 것들이다. 일부는 빅데이터 텍스트 분석용이라고 불리우며, 다른 일부는 단지 텍스트 분석용으로 일컬어진다. 

Attensity 

Attensity는 10년 이전부터 제품을 개발하고 판매하는 원조 텍스트 분석 기업 중 하나이다. 그 당시, 150개가 넘는 기업 고객들을 보유하고 있었으며 세계 최대의 NLP 개발 그룹이었다. Attensity는 텍스트 분석을 위한 다양한 엔진을 제공한다. 이들 엔진은 자동 분류, 개체 추출, 완벽 추출을 포함한다. '완벽 추출'은 Attensity의 핵심 기술이며 파싱된 텍스트로부터 자동으로 정보를 추출하고 추출된 정보를 조직화한다.

이 기업은 소셜 및 멀티채널 분석 및 내부로부터 외부 소스로부터 텍스트를 분석하는 업무에 주안점을 두고 있다. 최근 소셜 미디어의 방대한 스트림을 수집하는 소셜 미디어 기업인 Biz360을 인수하였다. 이 기업은 방대한 양의 실시간 텍스트를 처리하는 고성능 기술을 제공하는 그리드 컴퓨팅 시스템을 개발하였다.

Attensity는 데이터 저장을 위해 하둡 프레임웍을 사용한다. 또한 인바운드(inbound) 데이터에서 튀는 데이터를 인지하여 처리하고 필요할 경우 다중의 서버 간 처리를 제어하는 데이터 시스템을 보유하고 있다.

Clarabridge

또다른 순수 텍스트 분석 툴 벤더인 Clarabridge는 사실 비정형 데이터 처리를 실현한 비즈니스 인텔리전스(BI) 회사 (Claraview라 불리움)의 스핀오프이다. 이 기업의 목표는 전체적으로 고객을 관찰하고 핵심 사용자 경험을 집어내어 수량화가 가능한 비즈니스 가치를 뽑아낼 수 있도록 기업 고객을 돕는 것과 조직 구성원 모두가 실시간으로 액션을 취하고 상호협조할 수 있도록 돕는 것이다.

이는 감정의 실시간 결정, 고객 피드백 데이터 / 텍스트 및 Clarabridge 시스템으로의 미래 프로 프로세싱에 대한 문자 그대로 전달하는 것을 포함한다.

현재 Clarabridge는 떠오르는 이슈와 관련된 텍스트 피드, 정서, 만족정도의 변화를 일으키는 것을 분별하기 위해 단 한 번의 클릭으로 기저 인과 분석 기술을 포함한 세련되고 흥미로운 기능을 고객에게 제공하고 있다. 또한 서비스로서의 소프트웨어(SaaS, Software as a Service)의 솔루션을 제공하고 있다.

IBM

거대한 소프트웨어 기업인 IBM은 Smarter Planet 전략 하에 텍스트 분석 분야에 있어 다양한 솔루션을 제공하고 있다. Watson과 IBM SPSS 외에도 IBM은 기업 서치를 포함한 IBM 콘텐츠 분석 도구를 제공하고 있다. IBM 콘텐츠 분석 도구는 IBM 연구소에서 실행한 작업을 기반으로 개발되었다.

IBM 콘텐츠 분석 도구는 콘텐츠를 분석된 정보로 변환하여 정형 구조 데이터가 BI 툴셋에서 분석되는 방식과 유사한 방식으로 세부 분석에도 활용된다. IBM 콘텐츠 분석 도구와 기업 검색은 한때 두 개의 분리된 제품이었다.

융합된 솔루션은 독립형 콘텐츠 분석 니즈 뿐만 아니라 텍스트 분석을 사용하는 향상된 기업 검색을 타겟으로 한다. ICAES는 IBM InfoSphere BigInsights 플랫폼과 긴밀하게 통합되어 매우 큰 규모의 검색과 콘텐츠 분석도구 컬렉션을 실현하였다.

OpenText

캐나다에 근거지를 갖고 있는 기업인 OpenText는 기업 정보 관리 솔루션의 선두주자로 알려져 있다. Open Text의 비전은 관리, 보안, 기업의 비정형 구조 데이터로부터의 가치 추출에 대한 혁명을 이끌고 있다. 이 기업은 "시멘틱(semantic) 미들웨어"를 제공하고 있다.

이 기업에 따르면, 시멘틱 기술 진화는 언어, 포맷, 산업 도메인을 걸쳐 획득되는 방대한 규모의 데이터 세트에 대한 높은 정확도의 실시간 분석을 할 수 있는 역량에 기반한다고 주장한다. 시멘틱 미들웨어에 대한 아이디어는 시멘틱이 다양한 수준에서 노출될 수 있으며 비즈니스 이슈를 설명하기 위한 다양한 기술과 연계될 수 있다.

즉 다시 말해 텍스트 분석법은 수요가 있는 곳에서 활성화되고 사용될 수 있다는 것이다.

SAS

SAS는 긴 세월동안 복잡한 빅데이터 문제를 해결해 왔다. 수년전, SAS는 텍스트 분석 도구 벤더인 Teragram는 매입하여 분석에 있어 정형 구조 및 비정형 구조 데이터 모두를 사용하는 전략과 설명 및 예측 모델링에 대해 이 데이터를 통합하는 전략을 고도화하였다. 현재는, SAS의 텍스트 분석 역량은 SAS의 전체  분석 플랫폼의 일부일 뿐이며 텍스트 데이터는 데이터의 또다른 소스로 여겨지고 있다.

SAS는 고성능 분석 도구의 영역에서 혁신을 거듭하며 성능이 고객의 기대에 부응하도록 하고 있다. 목표는 해결하는데 몇 주 또는 며칠이 걸리던 문제들을 몇 분안에 해결하는 것이다.

예를 들어 SAS 고성능 분석 서버는 수집된 데이터 일부가 아닌 전체 데이터를 사용하여 분석 모델을 개발할 수 있도록 하는 인-메모리 솔루션이다. SAS는 이러한 분석의 일부로서 수천개의 변수와 수백만건의 문서를 사용할 수 있도록 한다. 솔루션은 하둡 분산 파일 시스템(HDFS)을 이용한 하드웨어에서 뿐만 아니라 EMC Greenplum 또는 Teradata 기기에서도 구동된다.

Comments