3줄 요약.
1. (정의) - 확률에 관하여서 사전확률과 사후확률 사이의 관계를 나타내는 정리이다.
2. (의의) - 사전확률을 계속해서 갱신(update)할 수 있다는 굉장히 큰 의미가 있다.
3. (활용) - 넷플릭스 추천 알고리즘, 암진단 확률,
베이즈정리에 관해 수식이나 어려운 용어들을 사용해서 설명ㅎ
베이즈 정리와 관련하여 여러가지 자
료를 본 결과 베이즈정리의 가장 중요한 포인트는
<확률을 갱신(update)>
한다는 것이다.
내가 알고자 하는 확률에 대해서 계속해서 갱신하면서 의사결정을 할 때 더 큰 확신을 줄 수 있다.
이것이 무슨 의미인지 간단한 사례 두가지를 통해서 느껴보자.
1. 어떤 이성이 나에게 선물을 주었다. 이것은 그린라이트일까??
학교에서 어떤 이성이 나에게 선물을 주었다고 생각해보자.
이때 진짜로 나에게 호감이 있어서 선물을 준 것인지 아니면
큰 의미없는, 모두에게 뿌리는 선물중에 하나인건지 어떻게 알 수 있을까??
그 이성과 나와의 평소 관계나 교류를 통해서 생각해봤을때
이 사람이 나를 좋아할 확률은 50%라고 하자.(이걸 사전확률이라고 부른다
좋아하는 사람한테 선물을 줄 확률은 60%이고
좋아하지도 않는데 그냥 선물을 줄 확률은 20%라고 한다.
이런 정보가 있을 때 나를 좋아할 확률은 얼마나 될지 계산해보는 것이다.
이 때 사각형을 그려서 계산하면 헷갈리지 않고 아주 좋다.
선물을 주었을 때 나를 좋아할 확률은
좋아하면서 선물을 줌/ (좋아하면서 선물을 줌 + 좋아하지도 않으면서 선물을 줌) 이다
왼쪽의 사각형 그림을 통해서 계산해보면 0.3/(0.3 + 0.1) = 0.75
즉 75%의 확률로 나를 좋아하는 것이라고 생각할 수 있다.
이렇게 선물을 나에게 줬다는 정보를 통해서 나를 좋아할 확률을 갱신할 수 있다.
선물을 받기전에는 50%였지만
받고 난 후에는 75%가 되었다!!
같은 방법으로 만약에 갑자기 전화가 왔다고 해보자. 선물을 받았을때와 계산하는 확률이 같다고 한다면
나를 좋아할 확률은 90%로 올라간다.
만약 연속 3번으로 선물을 받았다면 나를 96%의 확률로 좋아한다는 뜻이다.
이렇게 사전 확률(나를 좋아할 확률)을 추가되는 정보들을 통해서 계속해서 갱신할 수 있는것이 베이즈 정리의 가장 큰 의미이다.
2. 간단한 암진단 키트로 검사했는데 내가 암이라는 판정이 나왔다. 내가 암일 확률은 얼마나 될까??
이 예시도 위의 경우와 같이 베이즈정리로 암일 확률(사전확률)을 갱신할 수 있다.
진짜 암인데 암진단 키트가 암이라고 판정할 확률 = 0.9 (90%)
암은 아닌데 암진단 키트가 암이라고 잘못 판정할 확률 = 0.1 (10%)
라고 가정해보자
그리고 애초에 암일 확률은 5%라고 해보자.(전국민중에서 5%가 암이라고 해보자)
당연히 암진단키트가 암이라고 말해도 90%의 확률로 암은 아닐것이다.
그러나 굉장히 기분나쁘고 불안할 수 있는 결과다.
똑같이 사각형을 그려서 확률을 계산해볼 수 있다.
계산을 해보면 첫번째 결과에서 암 판정이 나왔을때 암일 확률은 32%정도이다.
90%의 정확도를 가진 암진단키트라고는 하지만 실제로 확률을 계산해보니 그렇게까지 높은 확률은 아니다.
그러나 안심할 수 없어 한번더 검사를 했다고 해보자
만약 이번에도 암이라는 판정이 나왔다면 80%의 확률로 암이라는 결과가 나온다.
이제는 얼른 정밀검사를 받으러 가야할것이다.
이렇게 다른 이유는 사전확률이 다르기 때문이다.
그리고 베이즈정리를 통해서 사전확률을 갱신시킬 수 있다.
'데이터 분석 > 통계(statistics)' 카테고리의 다른 글
Inverse Transform Random Sampling - Binomial distribution from Uniform distribution. (0) | 2021.05.16 |
---|