Review/도서

[도서 리뷰] 데이터는 예측하지 않는다

라니체 2024. 1. 29. 20:46
728x90

오늘 리뷰해볼 책은 데이터는 예측하지 않는다.(김송규 저) 이다.

 

이 책은 요즘 뜨고 있는 데이터 과학, 또는 데이터 사이언스의 민낯(?) 또는

 

이를 적용할 때 주의할 점들을 밝히고 있다.

 

이 책을 읽으면서 나는 데이터 사이언티스트로서 공감하는 내용도 꽤 많았지만

 

완전히 동의되지는 않는 부분도 있었다. 생각나는 내용들을 간단히 리뷰해보고자

 

한다.

 

==================================================================

책에서는 일관적으로 데이터 사이언스 만능주의를 탈피해야한다고

 

주장하고 있으며 인문학 지식이 점점 더 중요해지는 시대가

 

오고있다고 말한다. 여기서 인문학이란, 수능에서 우리가 치던 과목들

 

(국, 수, 사탐, 과탐) 과 그 궤를 같이 한다.

 

그리고 모든 문제를 데이터 과학으로 풀 필요도 없으며 제일 좋은것은 데이터 없이

 

문제를 해결하는 것이라고 한다. 데이터 분석을 하기전에 다음과 같은 질문을 

 

꼭 하기를 당부한다.

 

"반드시 데이터 분석이 필요한가?"

 

"필요하면 꼭 빅데이터여야 하는가?"

 

 

 

데이터 사이언스의 천하제일검 비유도 재미있었다. 칼집에서 칼을 뽑지 않고

 

눈빛만으로 상대를 제압한다는 것. 즉, 정말로 필요한 경우에만 고급 방법론을

 

꺼내고 간단한 방법론으로 해결될 수 있는 많은 문제들은 간단하게 해결하면

 

된다는 뜻인데 공감이 많이 되었다.

 

실무에서는 데이터 전처리만 잘하면 간단하고 쉬운 방법론으로도 해결이 가능한

 

경우가 꽤 있다.

 

(물론 정말로 쉽지 않은 경우들도 있다.  그럴 경우에는 좀 더 고급 테크닉으로

 

가야한다.)

 

 

 

확률에 대한 이야기도 잠깐 나온다.

 

어쩌면 이 책의 제목과도 그 궤를 같이하는 부분이다.

 

우리는 흔히 데이터사이언스로 무언가를 예측한다고 말한다.

 

하지만 그 예측이라는 것은 틀릴수도 있고 맞을수도 있다. 항상 확률게임이다.

 

특히 어떤 대통령의 당선 여부와 같은 분류 문제도 모델의 예측값이 맞을수도 있고

 

틀릴수도 있다. 모델은 사실 확률값만 도출해줄 뿐이다. 어느쪽이 확률이 더 높은지

 

알려주는 것이다. 그것도 과거의 경험 또는 데이터를 기반으로 말할수 밖에 없다.

 

그런 관점에서 책에서는 데이터는 예측하지 않는다고 말한다.

 

과거와 다른 양상이 벌어지는 완전히 새로운 세계가 펼쳐질 경우에는 데이터로 예측할 수 없다.

 

그리고 심지어 그게 아니라고 하더라도 예측값은 오차범위 내에서 틀려질 수 있다.

 

저자는 아마 이부분을 강조하고 싶었던게 아니었을까 싶다.

 

저자는 이를 구분하기 위해서 패턴 인식이라는 표현을 썼다.

 

즉, 통계적 모델 또는 데이터사이언스 모델을 통해서는 과거 데이터를 통해서 일종의 패턴 인식을

 

하는것 뿐이고 미래를 예측하는 것은 아니라고...

 

그럼에도 불구하고 이러한 패턴 인식은 실생활에 상당한 도움을 줄 수 있다.

 

특히 과거의 양상이 바뀌지 않는 경우에는 꽤나 정확한 예측을 얻어낼 수 있다.

 

(음성인식, 이미지 인식 등등)

 

심지어 시간에 따라 특성이 변할수도 있는 시계열 예측에서도 도움이 된다.

 

흔히 시계열 예측을 할 때 그 점 추정치가 100% 맞을 거라는 생각은 당연히 아무도

 

하지 않는다. 하지만 최대한 덜 틀리기를 바랄 뿐이다. 실제로 대표적인 시계열 모델인

 

ARIMA모형은 (선형 가정 하에서)  평균적인 예측 오차가 최소화되는 특성을 지닌

 

점추정치를 내놓는다.

 

 

그리고 때로는 시계열의 그 확률적인 패턴이 변치 않을 경우 그 예측값이 실제값과

 

상당히 잘 들어맞는다.

 

우리는 어쨌든 제일 적게 틀릴 확률이 가장 높은 선택을 하려고 노력은 했을 뿐이다.

 

(중요한 선택을 해야할때 손놓고 있을수는 없으니까)

 

이런 관점에서 데이터사이언스는 현재 가지고 있는 정보로 최선의 선택을 하는데

 

도움을 줄 수 있다. 하지만 이 모든건 적절한 데이터, 모델링, 그리고 패턴이

 

유지된다는 가정이 성립되었을 때의 얘기긴 하다. 

 

 

 

 

 

그리고 지금은 머신러닝 툴들이 상당히 사용하기 쉬워졌기 때문에 어떤 식으로

 

데이터를 가져오고 전처리를 어떻게하고 어떤 분석 툴을 사용했는지를 말하는

 

분석 시스템 설계 자체가 더 중요해졌다고 한다.

 

책에서는 많은 양의 데이터를 이용해 분석하는 것은 다른 선택지가 없을때 하는 최후의

 

선택이라고 주장한다. 이것은 맞을수도 있고 아닐수도 있다고 생각한다. 왜냐하면

 

양질의 많은 데이터라면 분명히 모수 추정에 도움이 될 것이기 때문이다.

 

하지만 대다수의 빅데이터들이 노이즈가 많을거라고 가정한 것 같다.

 

 

 

사실 보통 모델링 하다보면 정말 필요한 몇개의 변수들만 가지고 할 때 성능이 제일 

 

잘나오긴 한다. 따라서 책에서 말하는 것 처럼 내가 수집하는 데이터가 정말로 문제

 

해결에 도움이 되는 것인지 아닌지 판단하는것은 중요하다. 이것을 판단하는데에

 

인문학적 지식, 또는 도메인 지식이 도움이 될 것이고 그게 아니라면 통계적 변수선택

 

방법론들이 도움이 될 수도 있다고 생각된다.

 

 

 

데이터 사이언스는 현존하는 다른 기법을 대체하기 보다는 다른 분석 기법들을 

 

도와주는 보완재 성격이 강하다고 한다. 사실 통계학만 가지고 홀로서기를 하기는

 

힘들다. 통계학, 그리고 그것으로부터 기인하는 데이터  사이언스는 결국에는 

 

어떤 다른 한 분야에서 의사결정, 예측에 도움을 주기 위해 사용될 뿐이다.

 

그리고 통계적 결론을 너무 맹신하면 안된다.

 

 

 

통계적 결론에는 검정법에 본질적으로 존재하는 1종오류와 2종오류가 내재되어 있고

 

애초에 데이터 수집이나 방법론 설계에서 문제가 있었을 수도 있기 때문이다.

 

따라서 항상 일반 상식 또는 인문학 지식과 크로스 체킹하는게 매우 중요하다.

 

또한, 책에서는 데이터 사이언스를 하고자 다양한 도구들을 사용할 줄 아는 것도

 

중요하지만, 효율적으로 하기 위해서는 최신 데이터 분석 도구 대신 문제의 본질에

 

따라 그에 맞는 적절한 자원과 도구를 분배하는게 더 중요하다고 말한다.

 

즉, 문제마다 일종의 처방전을 내리는 판단력을 말하는 것이다. 나도 이런 판단 스킬이

 

데이터 사이언스에서 가장 중요하지 않나라는 생각이 든다.

 

 

 

또한, 간혹 어떤 문제들에서는 데이터 분석이 아닌 게임 이론과 같은 수학적 방법론으로도

 

충분히(또는 더욱 확실하게) 해답을 낼 수 있다고 한다.

 

따라서 시야를 많이 넓혀놓는것이 중요하다. 통계학, 데이터사이언스 뿐 아니라 인문학으로도...

 

또한 책에서는 챗GPT에 대한 이야기도 나온다. 

 

챗GPT가 나오게 되면서 도메인지식은 더욱 중요해졌다.

 

책에서는 다소 과감한 표현이 나온다.

 

데이터 사이언스를 이용하고자하는 영역의 지식 없이 기본적인 데이터 사이언스 도구만

 

사용할 줄 아는 수준의 데이터 분석가들은 더이상 살아남을 수 없다고..

 

인정하기 싫지만 그런 것 같다. 이제는 이걸 이용해서 어떤 문제를 해결할지 결정하는게

 

더 중요해질지도 모른다. 물론 고급 테크닉에 대한 연구와 수요는 유효할 것 같다.

 

제한된 데이터로 최대한의 정보 (또는 올바른 정보)를 끄집어내는 기법에 대한 이론은

 

계속 개발되긴 해야 하니까...

 

또한 챗GPT의 거짓정보를 판가름하는데에도 데이터 사이언스 지식은 여전히 필요할

 

것이다.

 

 

 

마지막으로 책에서는 앞으로 나아갈 방향에 대해 당부(조언) 한다.

 

최신 기술들은 어차피 점점 더 우리에게 쉽게 사용할 수 있도록 다가올 것이므로

 

최신 기술은 그기술이 필요할 때 그때 필요한 내용을 학습하면 된다고 한다.

 

한편, 시간이 지나면서 쉽게 내용이 변하는 분야가 있는가 하면 오랜 세월을 두고

 

체계화 되면서 지금 세상을 구성하는데 근간이 된 기초분야가 바로 인문학이라고 한다.

 

인문학은 새롭게 접하는 세상을 판단하고 의사결정을 하는데 있어서 논리적이고 합리적

 

으로 생각하는데 필요한 최소한의 자원이 되기 때문에 앞으로 점점 더 중요해질거라고 한다.

 

 

 

 

여러모로 도메인지식 쪽을 강조하는 듯한 뉘앙스의 책이었고 그래서 새롭게 느껴지면서

 

재미있게 읽었던 것 같다. 데이터 사이언스적 지식과 더불어 본질인 인문학적 소양에도

 

좀 더 신경써야겠다는 생각이 들게 해준 책이다.

'Review > 도서' 카테고리의 다른 글

[도서 리뷰] 경이의 땅  (0) 2023.08.15
[도서 리뷰] 꽃들에게 희망을  (0) 2023.07.08
[도서 리뷰] 싯다르타  (2) 2023.06.06
[도서 리뷰] 먹고 기도하고 사랑하라  (2) 2023.05.22
[도서 리뷰] 빅매직  (1) 2023.04.23