01-01 14:11
Notice
Recent Posts
Recent Comments
관리 메뉴

Scientific Computing & Data Science

[Basic] 빅 데이터로 인한 사회 및 경제의 변화 본문

Data Science/Posts

[Basic] 빅 데이터로 인한 사회 및 경제의 변화

cinema4dr12 2014. 3. 16. 17:57

원문: http://blog.naver.com/97jkkim?Redirect=Log&logNo=20205913188



.서론

 

1. 연구목적

2. 빅 데이터의 개념

 

.본론

 

1. 빅 데이터가 몰고 온 새로운 물결

1) 빅 데이터 이용의 사례들

 

2. 빅 데이터와 사회변화

1) 비용의 절감

2) 컴퓨터 프로그램의 발달

3) 빅 데이터의 등장으로 인한 학자의 역할 변화

 

3. 빅 데이터의 리스크

1) 사생활의 침해

2) 예측과 범죄

3) 기만하는 데이터

 

4. 빅 데이터의 리스크 해결

1) 정보제공 동의에서 책임으로

2) 범죄 예측과 그 처벌에 대한 통제

3) 빅 데이터 전문가의 등장

4) 빅 데이터 의 통제

 

.결론

 

1. 빅 데이터로 인한 사회 및 경제의 변화

1) 빅 데이터로 인한 사회 및 경제의 변화

 



.서론

 

2009년 새로운 인플루엔자 바이러스가 발견되었다. 그리고 그것은 아마 매우  사건일 것이다. 구글에 있어서 말이다. 구글은 신종 인플루엔자가 시작되기 몇 주 전 <네이처>지에 미국의 독감, 그것도 특정 역 또는 어느 주에서 유행할지 예측해낸 논문을 발표한다. 어떻게 된 일일까? 어떤 방법으로 미연방 정부보다 빠르게 예측할 수 있었던 것일까? 힌트는 구글이 데이터 스스로 말하게 했다는 것이다.

 

1. 연구목적


이 연구의 목적은 위 구글 사례와 같이 굉장히 다양한 영역에 쓰일 수 있는 빅 데이터가 구체적으로 경제에 어떤 영향을 미칠지, 사회적으로 어떤 영향을 미칠지 예측하고, 빅 데이터 영향을 탐구하고, 그 리스크와 해결책을 자세히 탐구하는 데 있다. 우리는 빅 데이터 시대를 맞이하기 전에 이와 같이 빅 데이터를 연구함으로써 리스크를 최소화 하고 영향을 극대화 시킬 있다. , 이 연구의 최종 목표는 빅 데이터를 연구함으로써 앞으로 다가올 기술의 변화 그리고 생겨날 문제 진단과 해결이다.

 

2. 빅 데이터의 개념


빅 데이터는, 정보 통신 사회가 발달함에 따라 SNS, 제품판매 정보들, 검색 횟수와 키워드 등의 정보가 점점 쌓여서 기본적으로 테라바이트 이상의 데이터를 가지고 있으며, 또한 다양한 형태를 특징으로 한다. 그리고 실시간으로 빠른 생성속도를 가지고 있는 데이터를 빅 데이터라고 한다. 이렇게 빅 데이터의 개념 3가지를 3V(Velocity, Volume, Variety, 이들에 Veracity(진실성)를 더해 4V라고도 함)라고 한다. 또한, 주로 빅 데이터는 비정형인 텍스트와 이미지로 이루어져 있고, 시간이 지나면서 빠르게 전파하며 변하므로 빅 데이터 전체를 파악, 일정한 패턴의 발견 또한 어려우므로 가치 창출의 중요성이 강조되기도 한다(이를 '데이터 마이닝'이라고 하며 주로 데이터 과학자들이 이러한 역할을 수행함).

 



.본론

 

빅 데이터는 여러 가지 분야에 활용되겠지만, 특히 사회분야에 큰 영향을 끼칠 것이라고 예상된다. 수많은 양의 SNS 글 등을 분석해서 고객이 원하는 정보를 미리 찾아준다든가, 미리 범죄 장소를 예측하여 경찰은 범죄율을 낮출 수 있다. 기업들은 거대한 양의 정보를 분석하여 물품의 수요나 반응을 예측할 수 있다. 기업들은 빅 데이터를 분석해서 소비자들이 선호하는 물품이나, 제품에 개선에 이용할 수 있다어쩌면 머지않은 미래에 기업의 재무제표에 보유하고 있는 정보의 양이 반영될 수도 있다. 빅 데이터의 분석방법이 발달할수록, 우리 생활에 쌓이는 데이터의 양이 커지고 다양해질수록, 가치는 커질 것이다. 빅 데이터 학과가 대학에 생길 것이고, 그런 전문 인력의 수요가 급증할 것이다.

어쩌면, 빅 데이터는 산업혁명만큼이나 큰 효과를 만들어 낼지도 모른다. 하지만 우리가 빅 데이터를 적절히 통제하지 않는다면, 우리는 빅 데이터의 가치만큼이나, 큰 위협(사생활침해, 확률에 의한 처벌, 독재 등)에 직면할 것이다. 그래서 이런 문제에 대해 해결책을 찾아보는 것도 의미 있는 일이라 생각된다.

 

1. 빅 데이터가 몰고 온 새로운 물결


빅 데이터는 사용되기까지 몇 년 되지 않은 것들 중 한 가지이다. 가능한 한 오래됐다고 생각해 봤자 사용하기 시작한 것은 10년 정도이다우리는 이제 트위터, 페이스북, 그리고 구글로 검색된 키워드로 대단한 효율성을 발견할 수 있다. 2003년 오렌 에치오니는 항공사들의 가격정책을 알지 못했지만, 가장 싸게 살 수 있는 방법을 찾아냈다. 그 방법은 인터넷에 떠도는 항공사들의 가격정책을 기간 대별로 정리하여, 그 데이터를 분석한 것이다. 결국, 그는 항공권을 가장 싸게 살 수 있는 시간대를 알아내어, 페어캐스트라는 회사를 설립하기에 이른다. 비록 결과적으로 에치오니는 페어캐스트라는 회사를 마이크로소프트에 팔지만, 그는 결국 다른 재화로 종류를 늘려서 같은 방식을 적용하여 새로운 회사를 만든다. 그런데 재미있는 점은, 에치오니는 항공권이 싸지거나, 해당 재화가 해당 시기에 값이 내려가는 이유를 모른다는 것이다. , 빅 데이터는 인과성보다 상관성에 기인한다. 워낙 데이터가 거대해서 들쭉날쭉한 데이터를 거를 수도, 그럴 필요도 없다. 이러한 빅 데이터는 사회그 중에서도 경제에 큰 변화를 일으킬 것이다.

 

1) 빅 데이터 이용의 사례들

앞서 서론에 나왔던 이야기들처럼 빅 데이터는 매우 여러 가지 방식으로 사용될 수 있는데, 가장 대표적이고 효율적으로 쓰인 좋은 예는 구글의 독감 트렌드이다. 구글의 독감 트렌드는 지금도 볼 수 있는데, 국가별, 지역별로 볼 수 있다.


또한 이처럼 매우 높은 수준의 적중률을 자랑한다. 그것이 빛을 발한 시기는 2009년 신종인플루엔자 발생시기였는데, 그 때에도 실제로 미 질병 통제 센터보다 몇 주 전에 발표했었다. 이 그래프를 도출하는 방법은 최근 5년간 미국에서 가장 많이 검색된 5천만 개의 키워드가 시간별 변동사항을 집계하고, 미국 질병관리본부에서 집계되는 인플루엔자 유사 질병의 통계수치를 집계해서 인플루엔자 유사 질병 발병빈도와 가장 높은 상관관계를 가지는 검색 키워드를 뽑아냈다.


Search query topic (검색 질문 항목)

Top 45 queries

 

n

Weighted

Influenza complication (인플루 합병증)

11

18.15

Cold/flu remedy (감기/인플루 치료제)

8

5.05

General influenza symptoms (일반적인 인플루 증상)

5

2.60

Term for influenza (인플루 기간)

4

3.74

Specific influenza symptoms (특정 인플루 증상)

4

2.54

Symptoms of an influenza complication (인플루 합병증의 증상)

4

2.21

Antibiotic medication (항생제 약물)

3

6.23

General influenza remedies (일반 인플루 치료)

2

0.18

Symptoms of a related disease (관련 질환의 증상)

2

1.66

Antiviral medication (항바이러스 약물)

1

0.39

Related disease (관련 질환)

1

6.66

Unrelated to influenza (인플루 관련)

0

0.00

Total (합계)

45

49.40


<2> 출처 : 구글 (인플루 증상, 치료법, 약 등)

 

이렇게 큰 상관관계를 지닌 여러 가지 단어를 분석하여, 지역별로 분석하여 해당 지역에 인플루엔자(독감)의 발생 빈도를 대략 예측할 수 있었다.

또 한 가지 사례는 미국의 맨홀에 관한 것인데, 매년 뉴욕 시에 있는 수백 개의 맨홀은 내부에서 불이 붙어 연기를 낸다. 그리고 어떤 경우는 140kg 짜리 무쇠로 된 맨홀 뚜껑이 폭발해 공중 5~6층 높이까지 올라갔다가 쿵 하고 떨어지기도 한다. 이런 문제를 해결하기 위해 미국 연구팀은 2008년까지의 모든 데이터를 분석하여 그 데이터를 가지고 2009년에 문제가 될 장소들을 예측했고, 연구팀이 작성한 리스트의 상위 10%에 있던 맨홀들이 결국 나중에 심각한 사고를 일으킨 맨홀의 44%라는 높은 성과를 거두었다.

 

빅 데이터의 다양한 활용사례

넷플릭스(NetFlix)

취향에 맞는 영화추천 서비스

자라(ZARA)

전 세계 매장의 판매 데이터로 유행 파악, 재고관리

한국야쿠르트

꼬꼬면 출시 이후 SNS 분석해 제품 개선

행켈(Henkel)

SNS 분석해 칼 판매량이 줄어든 이유 파악

애플(Apple Inc.)

데이터 분석으로 음성인식 인공지능 서비스 제공

호주정부

정보 관리청을 통해 공공정보 공개해 분석. 재사용 가능


<3> 빅 데이터의 다양한 활용사례 출처 경향신문

 


기관

정책

내용

여성가족부

위기청소년 징후 조기 경보

소셜 데이터 분석 통해 청소년 자살, 학업중단, 가출 등 예후 포착해 조기 대응

고용노동부

미래 일자리 수급 예측

국가기관 통계와 검색 키워드 정보 분석해 수요가 많은 일자리 확인 후 공급

대한상공회의소

중소유통업체 지원

상공회의소 데이터 분석 통해 중소유통업체에 매장 운영 정보와 서비스 제공

건강보험심사평가원

개인 맞춤형 건강정보 제공

개인별 진료자료 분석으로 맞춤형 병원정보 제공. 병원간 환자 진료정보 공유


<4> 한국 정부의 빅 데이터 정책 활용 과제들 출처 : 경향신문


 

2. 빅 데이터와 사회변화


빅 데이터의 등장은 사회에 큰 파문을 일으킬 것이다. 사회공공영역에서 쓰이는 불필요한 돈의 회수라든지, 또 경제 위기를 맞는 기업에는 혁신을 통한 발돋움 수단이 될 수도 있다. 또한 어쩌면 빅 데이터는 범죄 예방에 쓰일 수도 있다. 수많은 곳에 쓰일 수 있는데, 그 핵심들을 알아보자.

 

1) 비용의 절감

사실, 빅 데이터 활용의 꽃은 경제와 연관되어있다. 빅 데이터는 여러 가지로 경제와 연관성이 있는데, 대표적 사례는 금전적인 측면이다.첫 번째 사례로 자라(ZARA)의 사례가 있다. 자라는 패스트패션 전략으로 성공한 기업인데, 패스트패션(fast fashion) 전략을 위해서는 최신 트렌드에 맞는 의류를 기획, 생산하면서도 소비자들의 다양한 개성, 요구를 만족시켜야 했다. ZARA는 현재 11,000여종의 제품을 선보이고 있고, 이것은 일반 브랜드에 비해 4배 가량 많은 양이다. 그러나 ZARA가 세계적으로 점점 확장되자, 매장들은 인기상품을 확보하기 위해 실제 수요보다 많은 수량을 주문하기 시작했다. 그런 식으로 재고가 늘고 엄청난 비효율이 발생하게 되었다. 결국 ZARA는 빅 데이터 분석을 통한 개선에 나선다.



<5> 출처 : 갤리언 교수의 분석 자료 [노출효과, 포화효과]

 

ZARA의 의뢰를 받은 갤리언 교수(Jérémie Gallien, MIT Sloan Schools of Management)는 빅 데이터를 이용해, 전 세계 매장에서 나오는 매출의 합이 어떤 조건에서 가장 큰 값이 될 수 있을지를 알아낸다. 그 결과로 나타난 것이 위의 <5> 이다. 위 그래프에서 노출효과와 포화효과가 계산되어 포화효과가 다다르기 바로 이전인 가장 효과적인 점A까지 상품을 노출했을 때, 매출 량이 가장 극대화 될 수 있는 상품 공급량이다. 빅 데이터를 활용하여 노출효과의 효용을 최대한 극대화 시키고, 불필요한 노출과 주문을 막았다. 결과적으로 ZARA는 각 매장의 경쟁적인 과잉 주문을 막고, 재고 부담 또한 줄이면서 최신 트렌드 제품을 빠르게 공급해 판매량을 끌어올리는 것 까지 성공한다. 그렇게 ZARA는 결국 지난 5년 동안 평균 16.2%에 이르는 영업이익률을 기록했다. 빅 데이터로 인한 감축비용이 수십억에 달한다.

또 다른 사례도 있다. 2010년 미국의 탈세 규모는 3,300억 달러에 달했는데, 이 거대한 탈세 문제를 해결하기 위해서 미국 국세청은 빅 데이터를 이용했다. 방대한 데이터로부터 이상 징후를 찾고, 과거 데이터를 분석하여 사기나 탈세 가능성이 있는 패턴을 예측하는 툴을 만들어 냈다. 이와 같은 방법으로 미국 국세청은 3,450억 달러 (대략 369조원) 에 이르는 세금 누락과 불필요한 세금 환급을 막을 수 있었다.

이처럼 빅 데이터는 경제, 금전적 측면을 극대화시켜준다. 보다 효율적인 방법을 찾아내게 해주고, 불필요하게 빠져 나가는 돈을 잡아주는데 큰 도움이 될 수 있다. 또한, 사기나 탈세를 막는다는 점에서 지하경제를 양성화 시키는데 쓰인다. 미국의 도시인구는 해마다 교통 체증으로 48억 시간의 손실을 보고 있다고 한다. 미국의 최저임금으로 계산하고 미국인구수가 3억이라고 생각했을 때, 미국사람들은 1명당 평균적으로 16시간을 교통체증에 소비하며, 이는 약 118 2천억원에 해당하는 정도의 손해이다. 그런데 만약, 미국이 빅 데이터를 활용하여 교통 상황을 개선시킨다면 이건 교통체증을 거의 완전히 해소시킬 수 있을뿐더러, 도로 유지비까지 개선시킬 수 있을 것임에 틀림없다이러한 점에서 빅 데이터는 불필요한 경제적 손실을 최대한으로 줄여준다.

 

2) 컴퓨터 프로그램의 발달

처음에 구글 번역 시스템이 나왔을 때는 참 형편없고 엉터리라는 주장이 많았다. 그러나 구글이 빅 데이터 (지구상에 존재하는 거의 모든 문서, 웹페이지, 이미지, 영상 파일 등)를 모아 세계 사람들이 번역해 올린 문서와 웹페이지에서 패턴과 연관성을 찾아 보다 정확성을 개선했다. 이와 같이 빅 데이터의 등장으로 컴퓨터의 패턴 학습기능이 높아져, 컴퓨터 프로그램의 발달을 이룰 수 있다. 널리 알려진 예로는 아이폰의 Siri(시리) 기능이다.

이번 주말에 샌프란시스코는 쌀쌀할까?”

그렇게 춥지는 않습니다. 16도 정도 될 것입니다.”

 

이것은 사람과 사람사이의 대화가 아니다. 인간과 스마트폰의 대화이다. 이런 식으로 컴퓨터 프로그램들은 인간의 수많은 데이터들을 수집하고 패턴을 찾음으로써, 프로그램의 발달이 가능하다. 슈퍼컴퓨터 왓슨은 미국의 퀴즈 쇼 제퍼디에 참가해 인간의 까다로운 말들 (수수께끼나 말장난 혹은 힌트 같은 인간의 복잡한 언어들)을 이해하고 컴퓨터 프로그램으로써 처음으로 퀴즈 쇼에서 우승했다. 이것은 그동안 컴퓨터 능력 밖에 있던 것들로, 빅 데이터는 컴퓨터 프로그램의 한계를 뛰어넘게 해줄 수 있다.

 

3) 빅 데이터의 등장으로 인한 학자의 역할 변화

예를 들면 경제학자는 과학자로서, 정책 조언가로서의 역할을 해왔다. 그러나 빅 데이터의 등장으로 경제학자의 새로운 지평을 열 것이다예를 들면, 괴짜경제학의 저자인 경제학자 스티븐 레빗은 빅 데이터를 경제학 연구로 전국학력평가에서 부정을 저지른 교사를 대거 찾아냈다. 1993년에서 2000년까지의 공립학교 3학년에서 7학년 학생들의 모든 시험점수에 관한 데이터베이스를 기반으로 (연간 학년당 약 3만명의 학생들이 제출한 70만 장의 답안지, 그리고 거의 1억 개 이상의 ’) 부정행위 연산 방식 툴을 만들어 분석해냈다.

 

부정을 저지른 반의 답안 (부정행위 연산 방식 적용)

1. 112a4a342cb21ad0001acd24a3a12dadbcb4a0000000

2. 1b2a34d4ac42d23b141acd24a3a12dadbcd4a2134141

3. db2abad1acbdda212b1acd24a3a12dadbcb400000000

4. d43a3a24acb1d32b412acd24a3a12dadbcb422143bc0

5. 1142340c2cbddadb4b1acd24a3a12dadbcb43d133bc4

6. d43ab4b1ac3dd43421240d24a3a12dadbcb400000000

7. dba2ba21ac3d2ad3c4c4cd40a3a12dadbcb400000000

8. 144a3adc4cbddadbcbc2c2cc4a3a12dadbcb4211ab343

9. 3b3ab4d14c3d2ad4cbcac1c00a3a12dadbcb4adb40000

10. d43aba3cacbddadbcbca42c2a3212dadbcb42344b3cb

11. 214ab4dc4cbdd31b1b2213c4ad412dadbcb4adb00000

12. 313a3ad1ac3d2a23431223c000012dadbcb400000000

13. d4aab2124cbddadbcb1a42cca3412dadbcb423134bc1

14. dbaab3dcacb1dadbc42ac2cc31012dadbcb4adb40000

15. db223a24acb11a3b24cacd12a241cdadbcb4acb4b300


<6> 부정을 저지른 반의 답안

 

스티븐 레빗은 위와 같이 빅 데이터를 이용하여 부정행위 연산 방식 툴을 만들고, 부정행위를 저지른 교사들을 잡아냈다. 경제학자들이 인과관계에 얽매여서 사실을 이끌어내지 못하는 동안, 빅 데이터의 분석은 큰 발전을 이뤄냈다. 의미 있는 상관관계로서 말이다. 빅 데이터의 등장으로 여러 학자들에게 그런 의미 있는 상관관계를 이용함으로써 보다 빠르고 보다 현실적인 사회에 대한 해답을 내놓을 것이다. 빅 데이터는 경제학자가 하는 일의 폭을 크게 늘릴 것이며, 수많은 데이터를 기반으로 경기에 대한 동태적 이론 등을 만들어 낼 것이다. 그들은 지금까지의 경제적 해법으로 접근하기 힘들었던 이론들을 파헤칠 수 있을 것이다. 또한 경제 예측에 있어 큰 두각을 보일 것이고, 경기예측의 정확성 증가로 국가는 큰 비용을 절감할 수 있을 것이다. 결론적으로 그들은 빅 데이터의 등장으로 지금까지 보다 더 넓은 시야를 갖게 될 것이다. 빅 데이터의 등장이 컴퓨터 공학 같은 것들을 발달시키긴 힘들 수 있지만, 천문학이라든지, 생물학 등 여러 데이터를 종합하여 결론을 우선적으로 도출하는데 큰 도움을 줄 수 있다.

 

3. 빅 데이터의 리스크


1) 사생활의 침해

페이스 북은 우리의 인간관계들을 정보를 수집하고, 트위터는 우리 마음속에 감추고 있는 것을 파악한다. 또 아마존은 우리가 사는 물건을 보고 우리의 취향을 파악 할 것이다. 빅 데이터의 사용이 큰 이득과 효과를 불러일으킨다는 것은, 기업들이 우리의 데이터를 수집하고 저장하며 경제적 유인에 따라서 재활용할 가능성이 커진다는 것을 의미한다. 따라서 빅 데이터로 인한 변화는 사생활 보호를 어려움을 겪게 만든다. 또한 기업들은 경제적 인센티브에 의해 기업 활동을 통해 생성되고 있는 많은 데이터를 수집해 되도록 오래 보관하고, 더 자주 사용하고 싶은 충분한 인센티브를 가지고 있다. 또한, 이런 데이터는 개인 정보처럼 보이지 않으나, 사실상 데이터 처리기술로 찾고 싶은 사람을 찾아내는 것 또한 가능하다.

게다가 익명성을 보존하기 위한 현재 사용 중인 다양한 사생활 보호방법들도 효과를 잃는다. 예를 들어 익명화라는 기술을 생각해보자.구글 스트리트 뷰는 광범위한 항의를 받았는데, 그 이유는 자신의 집이나 정원 사진이 부잣집을 노리는 강도의 표적이 될지도 모른다고 생각했기 때문이다. 그래서 독일 사람들이 크게 항의 하자, 결국 구글에서는 원하는 사람들의 집을 흐릿하게 처리 해 주었다. 그런데 그런 방법들은 오히려 강도들에게 훌륭한 타깃이라는 신호가 될 수도 있다. 결과적으로 빅 데이터는 정보를 가지고 처리기능을 가진 정부나, 기업들이 사람들에게 극심한 사생활의 침해를 입게 만들 수도 있다.

 

2) 예측과 범죄

영화 <마이너리티 리포트>의 첫 장면은 예측이 너무나 정확해서 범죄가 저질러지기도 전에 미리 경찰이 그 범죄를 저지를 사람을 체포하는 사회를 그리고 있다. 사람들은 자신이 저지른 일 때문이 아니라 저지를 예정인 범죄행위 때문에 체포된다. 또한 우리는 실제로 그러고 있다. 절반 이상의 미국 주에서 가석방 심의 위원회는 한 사람을 풀어줄지 계속 감금해둘지를 결정하는 하나의 요소로 데이터 분석을 이용한 예측을 사용한다. 미국에서 예측 경찰 활동을 채용하는 곳의 수도 늘어나고 있다. 단지 알고리즘 이 범죄를 저지를 가능성이 높다고 지목했다는 이유만으로 말이다. 어쩌면 50세 이상의 남성이 전립선암에 걸리기 쉬우므로 건강보험료를 더 내야한다 라는 주장과 비슷한 것일지도 모른다. 더해서 미국은 FAST (Future Attribute Screening Technology) 라는 프로젝트를 시행해서 잠재적인 테러리스트를 식별하는 연구 중이다. 더해서 미국 FBI는 범죄자들의 DNA를 유전자 정보 은행에 저장하여 미래 범죄 지도를 만들고 있다. 실제로, FBI CODIS( 유전자 정보 은행)에 내장된 DNA 분석 정보를 활용해 2007 45400건의 범인 DNA 적중도를 달성하는 등 범죄사건 해결의 획기적인 성과를 달성했다고 한다. 얼핏 들으면 범죄의 발생을 막는다는 것은 매우 획기적인 방식이라고 생각할 수 있다.

그러나 데이터 분석을 통해 누가 미래에 범죄를 저지를지 알 수 있으면, 범죄자가 될 가능성이 높은 같은 사람을 예측하여 그 예측만으로도 처벌하고 싶어질 가능성이 커진다. 왜냐하면 우리가 개입해서 범죄 행위의 발생을 막는다면, 그 범죄자로 예측된 사람은 또다시 같은 범죄를 시도할 가능성이 크기 때문이다. 그러나 이것은 완벽한 예측이 불가능한 것은 물론이고, 결과적으로는 범죄를 저지르지도 않은 시점에 사람들을 처벌한다는 점이다. , 이런 범죄행위 예측과 그 추정 범죄자에게 처벌을 한다는 것은 데이터의 상관성을 가지고 인과관계를 결정하는 오류이다. 이런 문제를 떠안고 있는 정부들은 경제적 인센티브에 의해 계속 유혹받을 것이다.

 

3)기만하는 데이터

숫자 (혹은 데이터) 가 틀리는 경우는 대체로 두 가지인데, 첫 번째는 데이터 분석이 잘못되었을 경우데이터 남용이나 오용되는 경우이다실제로 미국에서 테러를 예방하기 위해 감시자 목록과 비행기 탑승 금지자 목록을 만들었는데, 고 매사추세츠 상원 의원 테드 케네디가 탑승 금지자 목록에 걸려 탑승을 제지당하고 심문 당한 유명한 일화가 있다. 단순히 데이터베이스에 있던 사람과 이름이 같아서 벌어진 일이었다. “쓰레기를 넣으면 쓰레기가 나온다.” 라는 말이 있다. 주로 그 이유는 기초가 되는 정보의 질 때문이다. 빅 데이터는 분명 많은 성공을 낳았고, 낳을 것이다. 따라서 우리는 데이터 자체를 위해 사실과 숫자를 수집하는 데 집착하게 될 수도 있고, 그럴 만한 이유가 없는 데이터를 일정 정도 진실이라고 믿을 수도 있다(이 때문에 빅 데이터 정의에 있어 3V가 4V를 주장하는 그룹들이 있다).

또한 혁신적이고 진보적인 생각들은 데이터에 의존하지 않는다. 그 예로 스티브 잡스가 아이폰과 같은 혁신적인 아이템을 만들었을 때자신의 직관이지 데이터가 아니었다. 왜냐하면, 혁신을 일으키는 것은 데이터가 아니기 때문이다. 만약 자동차가 나오기 전 시대에 고객들은 더 빠른 말을 원하지 자동차를 원하지는 않는다는 의미이다. 이런 의미에서도 우리는 빅 데이터에 대해 과도한 신뢰, 만능적인 태도를 보여서는 안 된다. , 우리는 빅 데이터를 과대평가하여 그 울타리 안에 갇히는 것을 경계해야 하며, 오용 또한 경계해야 한다.

 

4. 빅 데이터의 리스크 해결


1) 정보 제공 동의에서 책임으로

빅 데이터 시대 전에는 주로 정보이용에 대한 허가를 받고 사용하는 시스템이 많았지만, 빅 데이터 시대에는 결국 정보 제공 동의가 아닌 책임의 문제로 바뀔 것이다. 따라서 회사들이 데이터를 재사용할 때 그 안에 개인 정보가 포함된 개인들에게 어떤 영향이 있을지 공식적으로 평가하게 될 것이다. 또한 그에 따라 표준화되고 제한된 안전장치를 따라야 허용되는 데이터와 그렇지 않은 데이터가 구분될 것이다.

마이크로소프트의 연구원인 더크가 주장했듯이 동의에 의한 사생활 보호에서 책임에 의한 사생활 보호로의 규제 변화로 이어질 것이다. 또한 더크는 사생활 보호를 도와줄 기술적 혁신도 만들어 냈다. 바로 차등적 사생활(differential privacy)" 이라는 개념이다. 의도적으로 데이터를 흐리게 근사치의 결과만을 나오게 만드는 것이다. 비용이 많이 드는 단점이 있으나, 통찰을 파괴하지는 않는다. , 근사치로만 숫자를 제시해서 개인 신분이 밝혀지지 않게 하는 것이다. 이러한 방법으로 빅 데이터의 사생활 문제를 보완할 수 있다.

 

2) 범죄 예측과 그 처벌에 대한 통제

법정은 행동에 대해 책임을 지우게 하는데 여기서 중요한 것은 이미 한 행동에 대해 책임을 지게 하는 것이지 미리 할 행동에 책임을 지게 하는 것이 아니다. 인간 행위 원칙은 개인이 자신의 성향에 대해서가 아닌, 오로지 자신의 행동에 대해 책임을 져야한다. 빅 데이터 시대에 우리는 법에 인과성과 상관성을 고려하여 법적 안전장치를 만들어야 할 것이다. 이런 안전장치가 없을 경우에 정의라는 개념 자체가 훼손될 가능성이 크다. , 법정은 이러한 안전장치를 마련하여 어떤 범죄가 예측된다고 해서 책임을 지워서는 안 된다.

또한 개인의 책임을 보호하는 것 역시 중요하다. 사회는 인간이 더 이상 책임을 지지 않게 하고 리스크를 관리하는 쪽으로 옮겨가고 싶은 유혹에 맞닥뜨릴 가능성이 크다. 또한 우리는 실제로 이것의 씨앗을 보고 있다. 예를 들면, 미국일부 주에서는 가석방여부를 결정할 때, 빅 데이터를 이용한 재범죄율을 참고한다. 인간은 범죄에 대한 책임을 피하려고 완전히 범죄자를 가려내지 못하는 리스크가 있음에도, 이런 일들을 벌이는 것이다. 그래서 우리는 개인(인간)의 책임도 보호해야 한다. 더해서 범죄를 누가 저지를지 예측해서 그들을 특별 관리해서도 안 된다. 예를 들면 당신이 청소년인데, 당신이 범죄를 일으킬 가능성이 크다고 사회복지사가 한 달에 한번 씩 소년을 방문해서 도와주게 할때, 만약 당신의 친구들이 안다면 그것으로 인해 처벌의 효과를 낼 수 있다.

 

3) 빅 데이터 전문가의 생성

빅 데이터의 등장으로 인해 회계사가 회계를 진단하듯이, 정보를 관리, 분석을 진단하는 빅 데이터 전문가가 생겨날 것이다. 이 새로운 전문직은 빅 데이터 분석과 예측의 검토자로서 활동할 것이다. 이들은 알고리즘 모델을 이용한 예측 툴을 선택하고, 결과를 해석을 평가 할 것이다. 이들은 여러 가지 빅 데이터의 문제에 대해 시장 지향적인 접근법을 제공함으로써 더 거슬리는 형태의 규제를 예방할지도 모른다. 빅 데이터 전문가는 회계사처럼 기업내부나 정부 관리로써 일하게 될 것이다. 이들은 공정한 감사자로 정부가 요구할 때는 언제나 빅 데이터 예측의 정확성과 유효성을 감사할 것이다. 회사를 고객으로 맞을 수도 있고, 어쩌면 빅 데이터 애플리케이션의 건전성을 인증할지도 모른다.특히 회사 내에서 일하는 빅 데이터 전문가들은 회사 내에서 어느 정도의 자유와 중립성이 있어야 한다.

 

2013

2014

2015년 이후

실습중심 교육 프로그램 운영 및 자격증제도 연구

자격증제도와 연계한 교육센터 연계, 운영

자격증 제도 시범 운영


<7> 한국정보화진흥원의 빅 데이터 자격증 추진 계획.

 

4) 데이터 독과점 방지

마지막으로 빅 데이터의 어두운 면을 잠재우기 위해선 자원을 장악한 의 출현을 막아야 한다. 마이크로소프트도 제품에 대한 독점적인 지위를 이용함으로써의 권력을 휘둘렀었고, 구글도 마찬가지였다. 그럴 때마다, 고객들은 비싼 가격에 그것들을 이용해야만 했다. , 빅 데이터도 독과점 기업의 출현을 막아야한다. 정부는 빅 데이터 분야에서도 반독점법을 제정해, 경쟁을 보호하면서도 그 이상을 하지는 못하게 만들어야 한다. 또한 세계 최대 데이터 보유자인 여러 정부들도 보유 데이터를 공개적으로 방출해야 한다. 이러한 방식은 분명 빅 데이터 시대의 속력을 높이는 데 도움을 줄 것이다. 마지막으로 인간은 기술을 촉진하면서도, 기술을 조종할 수 있는 인간의 능력을 넘어서까지 빅 데이터가 성장하는 일이 없도록 조심해야 한다.




.결론

 

1. 빅 데이터로 인한 사회 및 경제의 변화


1) 빅 데이터로 인한 사회 및 경제의 변화

이제 빅 데이터의 등장으로 본격적인 빅 데이터의 시작이 개막될 것이다. 그 파장 매우 클 것이다. 그걸 증명하듯이 IT산업전망 콘퍼런스에서는 2014년 산업 정보 통신 기술 10대 이슈 중 2위에 차지하기도 했다. 그러나 우리는 빅 데이터의 장점과 단점을 정확히 알고 사용해야 할 것이다. 빅 데이터의 등장으로 알고리즈미스트가 등장하여 데이터라는 자원을 보다 더 효율적으로 사용하려는 움직임이 일어날 것이고정부에서도 이들을 사용하여 국가정책의 비용을 크게 절감하고 효용을 늘릴 수 있을 것이다. 또한 컴퓨터 프로그램이 발달하여 우리는 조만간 더욱 똑똑한 컴퓨터 프로그램을 만날 수 있을 것이다. 마지막으로, 일부학자들의 역할이 변화할 것이다. 그러나 우리는 빅 데이터의 이러한 장점들을 잘 사용하면서도, 빅 데이터의 오용과 남용에 대한 우려를 잊지 말아야 한다.

또한 우리는 조만간 골칫거리가 생길 것이다. 빅 데이터로 인한 사생활 문제와 범죄예방에 대해서 말이다. 사생활문제는 국가가 악용한다면, <1984>에 나오는 빅브라더가 될 수 있을뿐더러 범죄문제도 실제로 미국은 FAST프로젝트 등, 범죄를 예측해서 막으려는 시도가 일어나고 있다. 따라서 사생활 문제를 방지하기 위해 국가는 정보사용에 대한 책임을 져야 하며, 더해서 민간기관의 수시 감사가 필요할 것이다또한 범죄예측 문제는 인간의 자유의지를 무시하고, 인과성을 보고 판단하는 신성한 정의의 법정에서 효율을 위해 오로지 상관성만을 보고그 사람을 처벌하는 일이 없어야 한다.

마지막으로 빅 데이터의 등장은 사회변화뿐만 아니라 경제에도 큰 영향을 미칠 것이다. 빅 데이터의 등장은, 어쩌면 전기, 철도 발명 다음으로 콘드라티예프 파동을 만들어 낼 것이다. 막대한 생산량의 증가와 이윤의 증가는, 경기활성화에 큰 도움이 될 것이다. 범죄에 대한 비용여러 가지 사고에 의해 발생하는 비용, 지하경제 비용 등의 것들을 큰 폭으로 줄여 줄 것이다. 마지막으로 우리가 지나치게 빅 데이터에 치우친다면, 소비자들이 원하는 것을 생산할 수는 있겠지만, 진정한 혁신은 일어나지 않을 지도 모른다. 따라서 우리는 혁신을 위한 연구와 계발을 계속 이어나가야 할 것이다. 물론 빅 데이터는 사회, 경제 분야의 혁신적인 아이템으로 미래 사회를 이끌어 나갈 것이다.

 



참 고 문 헌

그레고리 맨큐 (2010) 맨큐의 경제학. 시그마프레스

박순서 (2013) 빅 데이터, 세상을 이해하는 새로운 방법. ()레디셋고

빅토르 마이어 쇤베르거 (2013) 빅 데이터가 만드는 세상. 21세기 북스

스즈키 료스케 (2012) 빅 데이터 비즈니스. 더숲

스티븐 레빗 [개정증보판] (2007) 괴짜경제학. 웅진 지식하우스

대니얼 카너먼 (2012) 생각에 관한 생각. 김영사

다케나카 헤이조 (2012) 경제고전. 북하이브

 

참 고 자 료

<1>, <2> 출처 : 구글

<3>, <4> 출처 : 경향신문

<5> 출처 : 갤리언 교수의 분석자료

<6> 출처 : 괴짜경제학

<7> 출처 : 한국정보화진흥원

<그림1> 출처 : 한국 정보화 진흥원


Comments