데이터 사이언스/Statistics 15

[인과성 추론 (Causal Inference) ] 필요한 가정 2편 - Overlap, Ignorability

지난편에서는 인과성 추론을 할 때 필요한 가정 네가지 중 두가지를 알아보았다. 오늘은 나머지 두가지에 대해 알아보고자 한다. 그 나머지 두 가정은 바로 Overlap, Ignorability 가정이다. 한국어로 해석하면, 겹쳐짐, 무시성 가정인데... 워낙 자연스럽지 않은것 같아서 그냥 영어식 표현인 Overlap, Ignorability로 진행하겠다. 먼저, Overlap 가정이란, 모집단을 각 개체의 성질에 따라 여러 그룹으로 나눌 수 있을 때, 각 그룹의 개체들이 원인 후보들을 가질 확률이 0보다 크다는 것을 의미한다. 예를 들면, 코로나 백신의 코로나 예방 효과를 분석한다고 가정해보자. 여기에서 원인은 "코로나 백신", 결과는 "코로나 감염 유무"가 될 것이다. 즉, "코로나 백신"을 맞았냐 안맞..

[인과성 추론 (Causal Inference) ] 필요한 가정 1편 - 인과 변수 설정, 일관성

데이터로부터 두 변수간의 인과성을 추론해내기 위해서는 네가지 가정이 필요하다. 여기서 인과성을 추론한다는 것은 두 변수 사이의 원인과 결과 관계를 밝혀내고, 그 관계를 수량적인 함수로 밝혀냄을 말한다. 이러한 인과성 추론은 실생활에 매우 유용하게 사용될 수 있으며, 예를 들면 요즘 핫한 주제인 "코로나 백신 접종률이 코로나 확산 예방에 정말 효과가 있는가" 와 같은데에도 사용될 수 있겠다. 다만, 가정이 좀 까다로워서 실질적으로 사용하기 위해서는 많은 주의가 필요하다. 오늘은 그 네가지 가정 중 두가지 가정만 다뤄보도록 하겠다. 첫째로, "한 변수가 다른 변수의 원인이다." 라는 가정이다. 이 가정은 사실 모든 인과 연구의 시작점이 되며, 위 예시에서는 코로나 백신 접종률이 원인, 코로나 확산 예방이 그..

[인과성 추론 (Causal Inference) ] 인과관계와 연관관계의 차이

우리는 일상에서 데이터나 경험을 통해 인과관계(causation)와 연관관계(association)를 파악하게 된다. 사실 인과관계가 더 높은 차원의 개념이며, 연관관계는 데이터의 반복되는 패턴이나 규칙을 통해 상대적으로 쉽게 파악할 수 있다. 더욱이 요즘의 뛰어난 머신러닝 성능에 힘업어 꽤 정교한 연관관계를 데이터로부터 학습시켜 파악할 수 있다. 얼핏 보면, 연관관계와 인과관계를 구분해내는 것은 쉬워보인다. 예를 들면, "까마귀 날자 배 떨어진다" 라는 속담에서 보듯이, 까마귀가 날아갔기 때문에 배가 떨어진 것이 아님을 우리는 상식적으로 쉽게 알 수 있다. 또 하나 예를 들자면, 여름이 되어 아이스크림이 많이 팔렸는데 그와 동시에 바다에 익사사고가 많이 일어났다고 할 때, 우리는 아이스크림이 많이 팔렸..

[통계학] 표준오차 (S.E. 또는 Standard Error) 란?

오늘은 통계학에서 자주 언급되는 개념인 표준오차(standard error)에 대해서 알아보겠다. 표준 오차란 통계량의 표준편차를 다르게 부르는 말이다. 통계량(statistics)이란 샘플(데이터)들에 특정 목적에 의해 정해진 수학적인 식을 적용하여 나오는 수치 또는 결과값을 말한다. ​ 예를 들어, 우리가 모집단의 평균인 모평균이 궁금하다고 할 때, 샘플들의 합을 샘플들의 수로 나눈 식을 사용하는 것은 자연스러울 것이다. 그리고 이러한 식의 결과로 나오게 되는 표본평균은 통계량이 된다. ​ 그런데 통계량은 우리가 얻은 샘플들이 무엇이냐에 따라서 다르게 나올 것이므로, 변동성이 존재한다.(즉, 통계량은 일종의 랜덤 변수이다.) 이러한 변동성을 수치적으로 표현한 것이 바로 표준 오차이다. 따라서 표준오차..

[통계학] 통계학에서 신뢰구간의 의미는?

통계학을 공부하다보면 신뢰구간 (confidence interval)에 대한 얘기가 나온다. 신뢰구간이란 영어로 confidence interval 이며 직역하면 "자신이 있는 구간" 정도가 되겠다. 통계학이란 기본적으로 샘플(표본)으로 부터 전체(모집단)의 통계량(평균 등)을 추정하고자 하는 학문이다. 그런데 샘플로부터 전체의 통계량을 말그대로 추정하는 것이므로, 추정값에는 불확실성이 존재할 수 밖에 없다. 그래서 통계학에서는 점 추정치와 구간 추정치가 존재한다. 점 추정치는 하나의 값으로, "샘플로 부터 모집단의 통계량을 추정할 때 하나의 대표적인 값을 제시한다면?" 에 대한 답이 될 수 있겠다. 구간 추정치는 "샘플로 부터 모집단의 통계량을 추정할 때 자신이 있는 구간을 제시한다면?"에 대한 답이 ..