데이터사이언스 5

통계학이 공부할만한 충분한 가치가 있는지에 대한 고찰

오늘은 대뜸 통계학을 내가 왜 공부하고 있고 이게 도대체 사회에 어떤 도움이 되는지생각해보게 되었다. 통계학 (데이터사이언스 포함) 이란 유용한 도구임에 틀림이 없으며 집단이나 사람들의 의사결정에 분명한 도움을 준다.  그것은 인텔리전스로써 기업의 이윤 창출에 도움을 줄 수 있으며 또는 공공의 복지를 위한 의사결정에 도움을 줄 수 있다.  분명한것은 이는 어디까지나 사람들의 의사결정에 사용되는(도움을 주는) Tool 이라는 점이다. 사람들은 언제나 이에 반하는 (즉, 통계적 분석 결과와 합치되지 않는) 의사 결정을 내릴 수 있다.결국 결정하는 것은 사람이기 때문에... 그럼에도 불구하고 통계학은 유용한 도구임에는 틀림이 없지만 그것을 어디에 붙일지는 사용하는 사람에 달렸다. 그렇다면 궁극적으로 이 통계학..

무언가를 분명하게 말해준다는게 얼마나 어려운 일인지

지식의 체계는 생각보다 다운 탑으로 이루어져 있다. 밑에가 완전히 채워져있지 않으면 그 지식은 어딘가 모르게 불안정하며, 그것을 전달하는 사람도 자신이 없다. 그런 의미에서 지식을 쌓는 과정은 어쩌면 지름길이 없을지도 모른다. 그리고 때로는 아래와 같은 질문에 답하기 어려운 상황에 직면하곤 한다. "그래서 이때는 A를 써야되, 아니면 B를 써야되, 아니면 무언가 새로운걸 써야되?" 위와 같은 질문은 특히, 데이터사이언스 현업에서 자주 일어나는 질문이며, 최신의 방법론이나 고도화된 복잡한 방법론을 쓸때에는 저 질문에 대한 답변을 해주는것이 더욱 어렵다. 현재 내가 직면하고 있는 문제가 생겼는데 거기에 무언가 내가 이론적으로 확실히 이해하지 못한 방법론을 쓰려할때 위와 같은 질문을 받으면 난처해진다. 그런데..

현업에서 머신러닝 돌릴 때 골치 아픈 것

오늘은 현업에서 머신러닝(특히 딥러닝) 돌릴 때 골치아픈 것들에 대해 간단히 얘기해보고자 한다. ​ 1. 파이썬 버전, 패키지 버전, gpu 호환 문제 ​ 보통 파이썬에 나오는 모델들은 패키지별로 계속 업데이트가 되기 마련이다. 그러다보니 예전에 되던 기능이 새로 업데이트 되면서 안되기도 하고... 새로운 기능을 사용하려면 버전을 업데이트 해야하기도 하다. 그래서 내가 필요한 패키지 버전과 때로는 파이썬 버전까지도 잘 맞춰주어야 한다. 게다가 GPU를 사용하려면 일반적으로 cuda나 cudnn의 버전까지 맞춰주어야 하는데 이게 참 머리아프게 한다. 그래서 도커(docker)가 나오게 된 것 같은데, 우선 우리회사는 지금 안쓰고있다... ​ 2. 속도 문제, 리소스 문제 ​ 제일 큰 문제는 항상 속도이다...

정보의 범람 속의 데이터 사이언스

데이터사이언스, AI분야가 아주 핫해지면서 데이터이론에 대한 정보가 정말 많아졌다. 덕분에 네이버와 구글 등에서 검색만 잘해도 어느정도 유용한 많은 정보를 획득할 수 있게 되었다. 내가 학부시절이었던 불과 4~5년전만 해도 관련 내용들이 검색이 잘 안되었는데... 세월이란 참 알수 없는것 같다. ​ 문제는 정보의 범람 만큼이나 잘못된 정보들도 꽤 많다는 점이다. 특히, 통계학이나 확률 이론들은 말 그대로 확률적인 부분들이 많기 때문에 어렵고 헷갈리는 부분이 매우 많다. 그래서 이를 잘못이해하고 와전되는경우도 많은거 같다. ​ 21세기 현시점에서 가장 중요한건 그런것들을 잘 선별해낼수 있는 능력이 아닐까 싶다 믿을수있는 정보를 선별하고, 좋은 책이나 레퍼런스를 골라읽을수 있는 능력. 답은 과거에 있는 경우..

jupyter notebook에서 R 사용하는법

데이터 관련 연구를 하다보면 파이썬과 R을 많이 찾게 된다. 필자는 R을 먼저 배우고 파이썬은 거의 학부4학년 때 처음 접했었는데 그래서 그런지 사실 R이 마음의 고향이라면 파이썬은 약간 나에겐 신문물 같은 느낌이 없지 않아 있다. 그리고 파이썬이 확실히 뭔가 더 개발자(?) 스럽다. ​ 뭐 서론은 여기까지하고 가끔 파이썬으로만 코드를 짜다가 고급 통계 관련 패키지나 마이너한 패키지 같은 경우에 파이썬에는 없고 R에만 있는 경우가 있다. (그 반대 케이스도 물론 있을 수 있다.) ​ 이런 경우에는 파이썬 코드를 짜다가 중간에 R 패키지를 불러와야 하는 경우가 생긴다. 이에 대한 해결책으로는 두가지가 있다고 보는데 ​ 첫번째는 jupyter notebook을 사용하고 있다면 jupyter notebook의..