Teach Data Science .

 

혹시 Data Science에 관심이 있으신 분들은 다음을 참조. 시라큐스 대학의 Jeffrey Stanton 교수께서 무료로 배포 중. iTunes에서 다운받으면 interactive하게 사용할 수도 있다. 

우리가 흔히 말하고 가르치는 Data-Information-Knowledge-Wisdom 이나 Europeana의 철학인 Data-Information-Knowledge-THINK도 모두 이 Data를 어떻게 상황과 맥락에 맞게 맥락화(또는 탈맥락화)하면서 어떤 Pattern속에서 의미를 찾아내는 것인가이다. 기업체에서는 아주 발빠르게 미래를 예측하거나 의사결정의 툴로 사용하기도 하고.

이 Data를 상황에 맞게 잘 사용한다는 일은 정말 중요한 일이다. Granularity를 잘 조정하면서 사용할 줄 아는 기술을 배울 수 있는 좋은 책. 

http://jsresearch.net/groups/teachdatascience/

source – https://www.facebook.com/mdcho

Digital Marketing Event 「eMetrics:Marketing Optimization Summit」Report

2011년 10월 19~21일 까지 미국의 뉴욕에서 개최된 Digital Marketing Event「eMetrics:Marketing Optimization Summit」에 대한 전체적 내용을 정리한 清水 誠의 요약본.

4efd60ccd535cf551b00000a

최근 들어 주목을 받는 eMetrics라는 것은?

「Metrics」가「수치」「지표」를 의미하고 있다는 것은 알고 있을 것이다. eMetrics는 데이터분석이나 Access 분석을 테마로 한 event.

Mobile, Social, Attribution, Big Data와 Topic 등은 Trend에 의해 바뀌어 가지만, 「Marketing 최적화」를 위한 방법이나 툴은 어떻게 활용해야 할까, 어떤 결과를 내어야 하는가에 대한 주제를 가지고 발표와 논의가 10년에 걸쳐 이 이벤트를 통해서 이야기 되어져 왔다. 

14801_01

eMetrics를 시작한 것은 Web Analytics Association (WAA) 의 공동창업자이기도 한 Jim Sterne (사진 우) 미국, 유럽, 호주를 중심도시로 하여 과거 10년 동안 장소를 바꾸어 가면서 매년 수 차례 개최 되었다. 이번에는 처음으로 New York에서 열렸고, 「Data Driven Business Week」라는 큰 행사에 포함되어 Rising Media사가 주최하는 6개의 서로 다른 이벤트가 같은 시간과 장소를 공유했다. 이벤트 모두가 『Data에 기반한 Business 최적화 (Data Driven)』가 공통된 Thema.

* data mining –  대량의 데이터를 효율적으로 검색함으로써 언뜻 보아 알 수 없는 새로운 경향이나 패턴을 발견하여 기업 활동 등에 활용토록 하는 일.

확대되어 가는 「Analytics」의 의미

eMetrics는 Marketing 중에서 「Access 분석」계통의 이벤트이지만, 초점은 좀 더 포괄적인 「Analytics」 로 옮겨진 느낌도 든다. 「Analytics」라고는 하지만 광의의 Analytics 이며, Web analytics는 그 중 일부에 지나지 않는다. 특히, eBay의 발표가 인상적. (참고자료 eBay의 성장을 지지하고 있는 data 분석의 뒷 이야기) 자사에서 다루고 있는 analytics의 종류에 대한 소개는 있었지만, Web analytics에 대한 부분에 대한 언급은 없었다. Web을 고객과의 접접으로 보고, Interface에 지나지 않는다고 생각하기 때문에, Web에서 취득한 Data를 “누가 무엇을 위해 사용하는가?” 라는 관점으로 더욱 더 세분화 되어갈 여지가 있다 하겠다.   

eMetrics와 동시에 열린 이벤트 중에 「Predictive Analytics WORLD」와「Text Analytics WORLD」 2개의 이벤트 이름에 「Analytics」라는 단어가 포함되어 있다. 앞에 있는 「Predictive Analytics」는 기존의 「Data mining」이라고 불렸던 영역이기도 하며, 미래를 예측한다는 것을 강조하여, 최근에는 「Predictive 」라는 명칭을 사용하게 된 듯 하다. 그래서 아마도 「Text  mining」을 「Text analytics」라고 부르는 것 일지도 모르겠다.

같은 내용을 말하고 있음에도 시대에 따라 명칭을 바꾸는 것이 좋은 것인지는 잘 모르겠지만, 접점이 많은 유사한 영역을 모아 정리하고 합리성을 찾는다는 의미에서는 필요하다고 하겠다. Access분석은 과거의 경험을 집계하여 이해한다는 것 뿐 아니라, 미래의 예측에 의한 의사결정의 지원까지 확대되어 간다. Data mining에서는 Web에서 얻게 되는 Data 까지 사용하는 일이 많아져 가고 있다. Taxt mining은 이미 Social 관련 분석에서도 그 중요도가 갈수록 커져 가고 있고. 

Web analytics에 대해서는 「Access 분석」과「Log 분석」,「web 분석」등, 일본에서는 용어가 서로 혼용되고 있을 뿐 아니라 협의의 정의라는 느낌도 든다. 용어의 사용에 보다 확대 된 시야를 기반으로  새롭게 바라보는 것은 어떨지… ?

「Log」는 기본적으로 System의 동작을 기록하기 위한 ‘기록 data’이며, 예전에는 이 data를 방문자의 행동분석을 위하여 유용 했다고 하는 기록이 있기는 한데, 현재에는  Beacon 형이 주류이며, 「Log 분석」「Log 해석」이라고 부르는 것은 제한적 의미에 지나지 않는다. 그리고, 「Access 분석」이라는 것은 ‘어디로 간 access를 분석 해석하는 가’에 대한 범위도 정해져 있지 않다. 그렇게 되면 선택 할 수 있는 것은 「web 분석」「web 해석」인데, Data mining 나 Text mining 까지 시야에 담는 것이라면 , 보다 수학적인 「web 해석」이 보다 적절 하다는 생각도 든다. 

분산된 Data를 통합하여 洞察통찰을 얻자

이번에는 다양한 Session에서 「Big Data」란 표현을 들었다. 「요즘 데이터가 너무 많아져서 큰일이다」라는 현재의 상황에 대한 서로의 공감을 얻기 위한 표현이 아니었을까? 

「Big Data」는 새로운 개념도 기술도 아니다. 단순히 「거대한 data」를 말하는데 지나지 않는다. 데이터가 폭발하는 시대를 표현하는 또 다른 용어 정도?  이 말을 들은 같은 업계의 사람들은 「맞어, 데이터 폭발에 준비를 해 둬야」「분석은 data 폭발에서 살아남을 수 있는 열쇠」등 같은 표현을 말하기 시작한 것으로, 유행어의 하나로 오바해서 파악할 필요는 없는 것 같다. 

어찌 되었든, Digital Marketing 분야에서는 access 분석 뿐 아니라, 다양한 Tool을 사용하여 Data를 취득 ・ 집계 ・분석할 필요가 있다. 중요한 것은 양적 data의 증대와 더불어 Data의 종류와 관리의 방법도 늘어 간다는 것이다. 고객의 의도나 행동의을 이해하고, 비즈니스 정도精度를 높인다는 같은 목적을 위하여, 여러가지 시스템으로 고객 data를 모으고 있다. 시스템별로 분리되어 있는 data를 제 각각 따로 분석을 하면 나무는 볼 수 있지만 숲을 보지 못하는 상황이 초래하기에, 오판의 가능성도 있고, 분석을 위하여 각 시스템별로 비슷한 작업을 서로 실시한 결과, 분석의 효율도 떨어졌다고 한다.

이러한 분산된 Data를 통합하기 위한 서비스로는 이미 많이 판매되고 있으며, 기업들이 현재 활용하고 있다. 이벤트 중 전시부스에서는 Google analytics, WebTrends, ExactTarget 등 각종 ODBC, API와 연계하여 입수된 data를 Excel상에서 집계 ・ 가공하여 시각적인 Dashboard로 만들어 주는 「Unilytics」, SiteCatalyst로 부터 살아있는 data를 가지고 와 Microsoft SQL server로  Data Mart*를 구축하고, 각종 데이터의 통합과 분석, 교환을 가능케 하는 「iJento」, Google analytics의 data를 Excel이나 PowerPoint에 담아주는「ShufflePoint」가 Sponsor로서 Demo와 소개를 하기도 했다. 

* Data mart – dataware house 중에서 특정의 목적에 맞는 부분을 검출해 내는 것

Marketer 나 Consultant 가 추천하는 툴을 소개하는 3일째 Session에서는 Google analytics의 data를 Excelに 보내주는 「Next Analytics」,「Excellent Analytics」, 그리고 Dashboard의 작성까지 가능한 「Analytics Canvas」, 복수의 서비스에 대응한 자동 Dashboard 작성 툴 「GoodData」, 복수의 시스템과 연계하여 data를 통합하는 플렛폼 「snapLogic」, Data를 실시간으로 다각적으로 분석하여 관계성을 시각화하여 주는 「tableau」등이 소개 되었다. 

그 이외의 session에서 발표 된 사례에서도 특정한 툴에 대한 발표는 전혀 없었고, 어떤 툴을 어떻게 조합하여 최적화와 타겟팅, CRM 등의 목적을 달성 했는지, 등의 사례가 거의 대부분. 기업들은 복수의 툴을 활용하고, 각종 데이터를 통합하여 분석함으로써, 이미 성과를 내고 있다. 

분석 tool의 report 기능은 덤으로 주는 것

추천 툴을 소개한 Mashable Metrics사의 Thomas Bosilevac는 프레젠테이션 중에 「현재의 Web분석 툴은 data의 수집에는 강력하지만, reporting과 분석 기능이 약하다」라고 언급을. 회의장에도 그의 표현에 긍정의 표현으로 고개를 끄덕이는 사람들이 많았다. 

확실히 Access분석 툴이 가진 report 기능은 대상기간을 추출하여 단일변수에 대하여 구분(Dimension) 하는 것, 또는 시계열(시간의 경과에 따라) 합계치를 표시하는 정도의 기능밖에 없다. 약간의 interactive한 기능이 포함되어 있다 하더라도 합계치를 표시해주는 것일 뿐, 다양한 종류의 다양한 데이터를 자유롭게 조작 하고, 숨겨진 페턴이나 규칙을 발견하는 Data Mining과 같은 분석은 어렵다. 

대체적으로, Web에서 얻게 되는 data는 고객의 행동 일부만 포함하고 있고, 그 한정된 data만을 다루는 access 분석 툴이 제공하는 report를 본다고 해서 큰 발견은 얻을 수 없을 것이다. 그런 의미로, Access분석툴 내부의 보고서 기능은, 취득한 data의 preview 한다는 정도의 의미 만 있는 것 같기도 하다. 분석을 별도로 할 필요가 없기 때문에 Report 기능을 단순화시킨 것이 아니라. Data는 통합하고 나서 분석할 필요가 있기 때문에, 단순 명료하게 단순한 기능만 제공 하는 것.

이 말은, 「Access 분석은 마법의 Solution이 아니다」「분석의 비용대비 효과를 생각해서 적당히」와 같은 access 분석한계론과 통할지도… 다만, 한계가 있기 때문에 중요도를 낮추는 것이 아니라., “필요한 Data의 하나로 통상적으로 인지하면서, 정말로 필요한 data 통합이나 분석을 위한 노력과 비용은 아까워 하지 않는다” 라는 공격적인 자세가 적극적이고 건설적이 아닐지… 

Access분석 툴은 Web에서의 Interaction에서 필요한 data를 취득하는 것 만으로 충분. 분석 툴의 report 는 덤으로 주는 것과 같은 것, 무리해서 사용 할 필요는 없다. 취득한 data는 Excel 등에 담아서 자유롭게 분석 ・ 가공한다. Excel만으로 부족하다면, 고도의 분석이 가능한 툴이나 시각적인 표현이 뛰어난 툴을 같이 사용하면 된다. 

통합하기 때문에 Attribution의 문제가 발생 

Data를 통합하게 되면, 구매 등 Conversion에 무엇이 공헌을 했는가를 포괄적으로 판단할 필요가 발생한다. 지금까지는 단순히 Web site의 방문(session)만을 고려해도 괜찮았지만, data가 통합된 결과, 복수의 방문, Channel, Campaign, Browser, Device, Offline 등 폭 넓은 포괄적 행동을 분석하지 않으면 잘못된 판단을 내리기 쉽다. 부분적 분석으로는 모순된 결과가 초래할 수도… 

이처럼 「Attribution」은 필연적으로 중요하다는 인식이 늘어나 생겨난 것으로, 다른 이유로 생겨나 보급된 것은 아니다. eMetrics도 다양한 프레젠테이션에서 「Attribution」이 언급되는 일이 많았지만, 설명하는 중에 일반적인 단어로 가볍게 사용되었지, 「Attribution이란 것은」「Attribution에 관한 고찰」등 특별히 다루지 않았다. 

Buzzword(유행어)의 베경을 이해하고, 대화에 참고하자

「Attribution」과 「Big Data」는 미국의 현장에서 buzzword로서 다루어 지고 있지는 않다. 생각 보면, 「Attribution」은 새로운 단어도, 최근에 만들어진 단어가 아니고 단순히 영어로 「귀결하다」「배분하다」등을 의미하는 것에 지나지 않는다. 익숙하지 않는 단어를 과신하고, Buzzword화 하여 의미나 개념을 독립적으로 만들어 버리는 것은 번역과 communication의 문제일 뿐이다. 

대체적으로 eMetrics와 같은 이벤트는 새로운 발견을 일방적으로 발표하는 장場이 아니라, 알게된 사실을 공유하는 시안의 형식으로 발표하고 토론하는 곳이라 말할 수 있다. 아이디어는 항상 새롭게 만들어 지고, 논의 되며, 진화해 나간다. 이러한 곳에서의 의견표명이 일본인으로서 어렵다면 질문하는것 만으로도 충분할 지도…

질문을 함으로서 불명확 했던 것들이 밝혀지기도 하고, 새로운 발견과 연결되기도 한다. 대화에 참가하여 방향설정에 영향을 주는 것이 바로 Community에 참가 하는 것이며, 듣게 된 이야기를 해석하여 일본에 전달하는것 만으로는 부족하다고 생각한다.

eMetrics는 일년동안 도시를 순회하면서 수 차례 개최된다. 한국에서도 참가하여 그들과 대화해 보기를 바라마지 않는다. 나 또한 참가하여 토론의 흐름과 현장의 실정, 느낌, 미해결 과제, 고민 등을 듣고 전달하고소통하면서 관련업계와 회사에 공헌하고 싶다고 생각한다. 

source – http://markezine.jp/article/detail/14801