데이터 사이언스/데이터사이언스(실무)

통계학 전공자로써 현업에서 일하면서 느끼는점

라니체 2023. 1. 6. 23:19
728x90

오늘밤엔 겨울비가 추적추적 쏟아지기도 하고...
뭔가 글을 쓰기에 좋은 감성이 되었다.

오늘은 통계학 전공자로써 현업에서 1년정도 일하면서 느끼는 점을 정리해보고자 한다.

필자는 통계학을 석사까지 전공했다. 원래는 수학과 아니면 기계공학과로 갈 생각이었는데 (고등학생때 수학이나 물리를 워낙 좋아했어서)
대학교 1학년때 통계학 과목을 들으면서 흥미를 느껴서 2학년때부터는 통계학으로 전향하였다.
한정된 데이터로부터 확률적인 전체 시스템에 대해 추론하는 과정이 그당시엔 너무나 멋있어보였기 때문이다.
심지어는 사람들의 행동하나하나에 수치가 위에 표기되는 그런 상상을 하기까지도 했다.
어쨌든 그런 종류의 학문이 아닐까하는 추측성 확신만 가지고 통계학과로 그대로 진학하였다. 그리고 방황의 시절이 2학년때 잠깐 있었지만 지도교수님의 훌륭한 가르침으로 다시 방향을 바로잡고 그대로 지도교수님따라 석사까지 진학했다.

내가 통계학 석사를 하며 좋았던 점은 혼자 통계학 논문을 보거나 원서를 보면서 독학할수 있는 체력을 길러줬다는게 가장 큰거 같다. 통계학 석사를 나온다고 실무에 필요한 대부분의 통계적 스킬을 배운다고 생각하면 오산이다. 대신에 회귀분석이나 수리통계, 베이지안 등 뼈대를 확실히 잡아준다. 그리고 그 뼈대만 있으면 사실 실무에 필요한 내용은 그때그때 빠르게 학습하면 된다. 그리고 개인적으로 그 뼈대 덕분에 큰 문제 없이 실무 문제에 필요한 논문을 서치하고 읽고 적용할 수 있었다. 석사때는 뭔가 fancy한 방법을 안알려주고 왜 계속 전통 통계 이론만 배우는지 원망스러울때도 있었는데, 그게 결국은 제일 빨리가는 길인거 같다. 왜냐면 실무에 필요한 문제는 수도 없이 다양하며, 같은 방법론 이더라도 그 문제의 종류에 따라 케이스 바이 케이스로 다 수정해서 써야하는데, 그걸 일일이 배운다는건 불가능하기 때문이다. 결국엔 본질적인 뼈대를 알면 그 케이스 바이 케이스에서 어떻게 수정해야되는지 저절로 감이 온다. 어떤 논문을 보더라도 어떤 결인지, 어느 맥락에서 얘기하는 건지 파악이 가능하다.

서론이 길었는데, 어쨌든 필자는 그렇게 훌륭한 지도교수님을 만나서 통계학 석사까지 졸업하고 원자재 시장을 분석하는 어떤 회사에 데이터사이언티스트로 들어가게 되었다. 여담이지만, 요즘에는 통계학자를 데이터사이언티스트, 데이터애널리스트, 데이터 분석가 등등 참 여러가지로 부르는거 같긴하다. 그리고 결론부터 이야기를 하자면 통계학이 가공되지 않은 원석이라면 도메인 지식(경제학같은...)이 그것을 가공해줄 망치라는걸 (어쩌면 그 반대일수도) 절실히 깨닫고 있다. 결국에 통계학만으로 할수있는건 아무것도 없었다.

구체적인 예를 들어보자. 일단 나는 무엇을 분석해야될지조차 모른다. 무엇이 중요한 문제이고 무엇이 궁금한지 조차 모른다. 이건 참 심각한 문제다. 그리고 분석을 의뢰받아서 정교하게 통계분석을 진행했다고 치자. 이때 결과에 대한 해석, 결과가 현실적인지 타당한지 왜그런지 등등에 대해 자체적으로 결론내리지 못한다. 따라서 이런부분은 오랫동안 이 분야에서 일해온 우리 도메인 전문가 선배님들의 도움을 받아야 한다.

다행스럽게도 도메인 지식 전문가들(실무자들)은 통계학을 정말로 매력적으로 느끼는거 같았다. 자신의 주장을 뒷받침하거나 혹은 자신이 미처 발견하지 못했던 사실을 데이터로부터 발견할 목적으로 통계학은 정말이지 제격이다. 그리고 이분들은 사실 고급 통계 기법을 따로 공부할 시간이 그리 많지 않다. 당장 해결해야될 닥치는 일들이 많기 때문이다. 게다가 통계는 기본적으로 수학이다. 이게 단기간으로 되는건 아니다.

그렇게 서로 간절히 바라던 관계, 통계학자와 도메인 전문가의 만남이 성사되면 시너지 효과가 나기 시작한다.
물론 통계라는게 완벽한건 아니다. 통계학이 내는 결론은 기본적으로 확률적인 결론이기 때문이다. 보통은 가정이 다 만족되었을시 95%확률로 맞다고 판단한다. 그러다보니 가끔 예상과 다른 결론이 나올때 난항에 부딪힌다. 또는 같은 신호(signal)를 보고도 어떻게 해석하는지도 천차만별이다. 하지만 그냥 어떻게 하면 좀 더 진리(true)에 다가갈수 있을지 고민하고 노력할 뿐이다. 나는 수학적으로 노력하고(예를들면, 더 적절한 고급 통계 방법론이라던지 통계적 해석이라던지), 도메인 전문가는 도메인적으로 노력한다(예를들면 뉴스라던지 과거 케이스라던지 경제 이론이라던지...).

원하는대로 나오지 않아 가끔 현타가 올때도 있지만, 놀라운 발견을 하거나 인사이트를 주거나, 자신의 주장을 뒷받침하는 통계적 결론이 나오면 정말 기쁘다. 내가 하는 데이터사이언티스트의 일은 결국 그런 일이다. 그리고 필요에 따라서 머신러닝이나 딥러닝 방법론을 가져오기도 한다. 예를들면 예측이 문제일때는 더욱더 그렇다.

생각해보니 위에서 언급하진 않았지만 결론적으로는 어떻게하면 미래를 더 잘 예측할수 있을지 고민하는게 우리 회사 업무라고 볼수있다. 좀 더 구체적으로 언급하자면 미래의 원자재 가격(price)을...
나는 거기서 수학적으로 데이터가 이야기하는바를 귀담으려 노력한다.