요근래 일하면서 느끼는점 (feat. 데이터사이언티스트)
오늘 정말 오랜~만에 블로그에 컴백했다.
역시나 관리를 안하니까 투데이가 바닥을친다. (원래 바닥이었잖..)
뭐 어쨌든, 오늘은 요근래 데이터사이언티스트로써 회사에서 일하면서 느끼는점을
정리해보고자 한다.
필자는 통계학과 출신으로 학사, 석사 모두 통계학을 전공하였다.
회사에 데이터사이언티스트 포지션으로 들어가게 되었는데, 무릇 기업이란
각종 포지션의 사람들이 모여서 일을 하는 곳이다.
내가 개인적으로 회사에서 느끼는 점은 어쨌든 회사의 핵심은 그 회사에서 필요한 도메인 또는 토픽이라는 점이다.
통계학이나 데이터사이언스는 그 도메인에 양념일 뿐이다. 그렇다고 양념이 중요하지 않다는건 결코 아니다.
화룡정점이라는 말도 있지 않은가. 수학을 바탕으로한 통계학 또는 데이터사이언스는 사람의 경험을 바탕으로 하는 의사결정 과정에 데이터를 바탕으로 한 과학적인 근거를 제시할 수 있는 중요한 역할을 한다.
데이터 사이언티스트로써 중요한 점은 내가 분석한 결과를 알기 쉽게 도메인 전문가들에게 전달하는 역할인 것 같다. 통계학의 특성상, 수식이 매우 많고 이론적으로 복잡한 경우가 많이 있다. 도메인 전문가들에게 이를 완전히 그대로 전달하는 것은 서로에게 소모전(?)이 될 가능성이 높다. 따라서 이를 전달할 때 수식에 대한 부분을 최대한 인문학(?)적으로 풀어서 설명하고, 그 사람들이 이해할 수 있는 언어로 바꾸어 전달하는게 생각보다 중요하다는걸 느꼈다. 그리고 반대로 그 사람들이 나에게 도메인지식을 바탕으로 무언가 요청할 때, 내가 그 도메인지식을 충분히 숙지하고 분석하는 것도 정말 중요하다. 즉, 데이터 사이언티스트는 의사소통이 정말로 중요한 직업이다.
통계학(수학 base) <----------> 도메인 지식
즉, 위와 같이 도메인지식을 통계학적 기법으로 잘 표현하고, 그걸 다시 도메인 지식으로 바꾸어 전달하는 일련의 과정이 필요하다.
그리고 또 한가지 느끼는 점은 결국 데이터 분석을 할 때에는 분석자의 노련한 판단력이 필요하다는 점이다. 데이터 분석, 즉 통계 분석은 본질적으로 세상의 모든 데이터(모집단)을 우리가 가질 수 없다는 점을 인정하고 우리에게 주어진 데이터로 최선을 다해보고자 하는게 목표이다. 최선을 다해 모집단의 분포를 추정하던지, 모집단에게 맞는 모델을 추정한다던지 하는 등이다. 여기에는 필연적으로 불확실성 (확률적 요소)이 들어갈 수 밖에 없다. 즉, 딱 떨어지는 결론이 나오기 어렵다는 것이다. 그러다보니 분석 과정에서 데이터로부터 얻어지는 어떤 신호를 분석자가 임의로 해석해서 모델링을 하거나 통계분석을 진행해야 하는 경우가 많이 있다.
대표적인 예로, p-value가 있을 것이다. 어떤 분석의 결과 p-value가 0.07이라고 했을 때, 이를 통계적으로 유의하게 볼지 아니면 유의하지 않다고 볼지는 분석자의 몫이된다. 분석자가 매우 보수적인 사람이라 p-value가 0.05보다 크므로 유의하지 않은 것으로 볼 수도 있지만, 다소 열려있는(?) 분석자의 경우 p-value가 0.05보다 크지만 0.1 보다는 작으므로 분석 결과를 통계적으로 유의하다고 판단할 수도 있다.
실제로 분석하다보면 임의 판단해야 하는 경우가 굉장히 많은데, 분석자 나름의 경험과 논리적 뒷받침을 바탕으로 판단을 하여 분석 프로세스를 이어나가야 한다. 이런면에서 보면 데이터 분석은 art에 가깝다고 느껴지기도 한다.
어쨌든 충분히 합리적인 판단과 적절한 분석기법을 통한다면 의사결정 과정에 큰 도움을 줄 수 있을 것이라 생각한다. 즉, 기존의 도메인 지식 기반의 의사결정에서 데이터 분석 결과를 곁들인 좀 더 과학적인 데이터 기반의 의사결정이 되는 것이다. 요즘 기업들의 추세는 이러한 데이터 기반의 의사결정으로 가는 것 같다. 그래서 우리과가 갑자기 뜨는 거 같고...흠
이쪽분야에서 일하기 위해서는 수학, 통계학적인 이론과 회사마다 가지고 있는 도메인 지식을 바탕으로 노련한 판단 능력과 창의적인 사고 능력이 많이 필요한 것 같다. 게다가 수학, 통계학적 이론의 한 축으로써 분석 방법론은 계속해서 발전하고 있다. 요즈음에는 특히 머신러닝과 엮여서 그 발전속도가 더욱 빨라진것 같다. 결국은 계속 공부해야한다...