R User Conference Korea 2014 Real and NeaR FutuRe

지난 금요일(5/30) R의 발전을 위한 유저컨퍼런스가 한국에서도 열려 아카의 식구분들도 참석을 하였습니다.
(미국에서만 열려서 아쉬웠는데ㅠㅠ 국내에서도 R이 각광을 받아서 그런지 몰라도 금년에 개최가 되었습니다.)

R User Conference Korea 2014 Real and NeaR FutuRe

세션1: R-Core팀이 와서 전반적인 R의 컴포넌트나 소프트웨어 릴리즈등에 대한 프로세스를 설명하였습니다.

세션2: 실제 필드에서 어떤식으로 R을 이용하여 데이터를 분석하고 비즈니스 전략에 반영을 하는지에 대한 구체적인 사례를 BAT(British American Tobacco)사의 예를 들어 설명하였고 Sensory한 데이터를 수집하여 R기반의 분석엔진을 자체 개발하여 각국의 지사에도 적용하고 활용하는 사례를 간략하게 언급하였습니다. (여기서는 PCA를 하는 분석엔진이였습니다.)

세션3: 호주의 이민성에서 실제 적용한 사례를 엔지니어가 설명하였습니다. 마약 단속이나 Fraud detection 등을 한 사례를 기술 중심보다는 사례 중심으로 설명하였으며, R을 이용하여 1/1000의 확률로 간혹나오는 데이터를 뽑아내는데 비용효과적으로 잘 분석했다라는 내용이 핵심이였습니다.

세션4: R을 이용한 언어자원을 탐색하는 방법에 대해서 고려대학교 언어학과 교수가 발표하였습니다. 토픽모델링과 클러스터링을 한 사례를 언급하였습니다. 언어학과 전산언어학을 전공한 교수여서 R을 이용하여 통계적으로 언어를 분석하는 방법을 채택하고 있었습니다.

세션5: 대용량의 빅데이터를 R을 이용하여 SKT에서 다루는 내용에 대해서 고감자가 설명하였는데 매우 유익했습니다.
300G에 달하는 메모리를 사용하여 R-Server를 구축하고 하둡에서 담아 둔 내용을 그 메모리에 올려 샘플링 후 통계적 처리를 한다고 합니다. 특히 Hive-R Streaming을 이용하여 안정적으로 하둡에서 데이터를 불러와 분석한다는 내용이 인상적이였습니다.

이상입니다~

AI개발자들에게 데이터사이언스는 어떻게 보면 반드시 지나가야 되는 하나의 의무적인 과정인것 같습니다. 데이터사이언스를 하기 위하여 자신이 잘 다루는 언어를 활용하는것은 당연하나 비용효율적인 면에서 보면 R이나 SAS 등의 통계패키지를 적극적으로 활용하여 자신만의 Sandbox를 구축하고 퍼포먼스를 올리는 시도가  필요해 보입니다.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>