무언가를 분명하게 말해준다는게 얼마나 어려운 일인지
지식의 체계는 생각보다 다운 탑으로 이루어져 있다.
밑에가 완전히 채워져있지 않으면 그 지식은 어딘가 모르게 불안정하며, 그것을 전달하는 사람도 자신이 없다.
그런 의미에서 지식을 쌓는 과정은 어쩌면 지름길이 없을지도 모른다.
그리고 때로는 아래와 같은 질문에 답하기 어려운 상황에 직면하곤 한다.
"그래서 이때는 A를 써야되, 아니면 B를 써야되, 아니면 무언가 새로운걸 써야되?"
위와 같은 질문은 특히, 데이터사이언스 현업에서 자주 일어나는 질문이며,
최신의 방법론이나 고도화된 복잡한 방법론을 쓸때에는 저 질문에 대한 답변을 해주는것이 더욱 어렵다.
현재 내가 직면하고 있는 문제가 생겼는데 거기에 무언가 내가 이론적으로 확실히 이해하지 못한 방법론을 쓰려할때
위와 같은 질문을 받으면 난처해진다.
그런데 생각보다 위와 같은 질문에 "~카더라" 와 같은 얇은 지식을 갖고와서 그냥 막 써버리는 경우도 심심치 않게 볼 수 있다. 내 개인적인 경험으로는 특히 공대쪽 사람들이 좀 그런 경향이 있는거 같다. 그리고 회사 특성상 이런 결정 하나하나가 당장에 눈에 띄지는 않는다. 다만, 이를 지켜보고 있는 누군가가 있다면, "만약 그렇게 막 쓰지말고, 좀 더 심사숙고해서 제대로 알고 그 방법론을 썼다면, 결과가 훨씬 더 나아졌을텐데" 라고 속으로 생각만 할 뿐이다.
데이터 사이언스 분야는 이처럼 분석자의 실력과 내공에 따라 그 결과물이 좌지우지 되기 쉬우며 그 결과물이 최선인지 아닌지 확인하기는 상대적으로 어렵다. 그냥 그것이 바로 회사의 한 결과물로써 들어갈 뿐이다.
나는 그런 의미에서 데이터 사이언스 분야는 하나의 art와 같다고 생각한다. 예술가들이 각자의 예술혼을 불태워서 각자의 작품을 만들듯이, 데이터 분석 역시 분석자 개개인의 역량에 따라 어떤 결과물이 나올지는 천차만별이기 때문이다.
데이터가 요리 재료라고 한다면, 그 분석 결과물이 셰프(데이터 분석가)의 요리라고 볼 수 있겠다.
어쩌면, 이렇게 결과물의 성능이 확인 불가능한 이 데이터 사이언스 분야에서 그저 그렇게 설렁설렁 살아가는 한명의 데이터 과학자가 될수도 있겠다. 여기서 설렁설렁 살아간다는 것은 수학,통계학적 이론적인 베이스를 아주 가볍게 여기고, 그냥 "~카더라" 지식으로 버티며 살아가는것을 말한다.
하지만, 나는 개인적으로는 그렇게 되어서는 안된다고 생각한다. 데이터과학자라면, 다들 위와같은 질문에 각자의 대답을 내놓을 수 있도록 ("~카더라"가 아닌) 최선을 다해야하며 자신의 의견을 낼 수 있어야 한다고 생각한다.
그러기 위해서는 구글링을 통해 나오는 정보들을 전부 취합한 뒤에 자신의 머리로 이를 모두 정리하고, 이를 바탕으로 어떤 것이 합리적인 방향이고 결정인지 스스로 판단하는 과정이 필요하다. 물론, 이 과정은 시간이 많이 소요되고 힘든 일이겠지만, 한 명의 어엿한 데이터과학자가 되기 위해서는 무조건 필요한 과정이라고 본다. 그리고 이를 확인할 수 있는 가장 쉽고 좋은 방법은 바로 글쓰기 이다. 그 질문 또는 주제에 대해 글을 한번 써 보아라. 글이 안써지는가? 그렇다면 나는 아직 그 주제에 대해 완벽히 이해하지 못한 것이다. 만약 막힘 없이 글이 술술 써진다면, 그제서야 내가 그것을 완전히 이해했다고 볼 수 있다. 이 과정이 반복되면서 근본적인 성장이 일어나는 것이다.