본문 바로가기

Model/확률과 통계

확률론

반응형

확률변수

확률변수 (Random Variable)

  • 표곤공간의 각 원소에 하나의 실수를 대응시킬 때의 실수

확률변수의 종류

  • 이산확률변수(Discrete Random Variable): 확률변수 X의 집합을 셀 수 있는 경우
    • P(X=x) 값을 표현할 수 있다.
      • 예: 주사위의 눈이 6일 확률을 구할 수 있다.
  • 연속확률변수(Continuous Random Variable): 확률변수 X의 집합을 셀 수 없는 경우
    • P(X=x) 값을 표현할 수 없다.
      • 예: 컵에 담긴 물이 정확히 1L일 확률은 0이다. (단, 물의 양이 0.999~1.001인 확률과 같이, 범위를 정하면 확률을 구할 수 있다.)

reference

확률질량함수와 확률밀도함수

  • 확률질량함수 (Probability Mass Function): 이산 확률 변수에서 특정 값에 대한 확률을 나타내는 변수
    • 확률질량함수 값은 전부 0 이상이어야 한다.
    • 확률질량함수 값을 전부 합하면 1이 되어야 한다.
    • 어느 구간 내에 있는 모든 확률 변수에 대한 확률값을 합하면, 확률 변수가 그 구간에 속할 확률을 구할 수 있다.
  • 확률밀도함수 (Probability Dense Function, PDF): 연속 확률 변수에서 확률 변수의 분포를 나타내는 함수
    • 확률밀도함수 값은 전부 0 이상이어야 한다.
    • 모든 구간에 대하여 적분하면 그 값은 1이 되어야 한다.
    • 확률밀도함수 그래프의 넓이는 확률값이다. 즉, 어느 구간에 대해 적분하면, 확률 변수가 그 구간에 속할 확률을 구할 수 있다.

reference

누적분포함수

누적분포함수(Cumulative Distribution Function)는 확률 변수가 특정 값 이하일 때의 모든 확률값을 누적하여 합한 것이다.

  • F(x) = P(X=<x)
  • 이산확률변수의 누적분포함수: x 이하의 모든 X의 P(X) 값을 전부 합한다.
  • 연속확률변수의 누적분포함수: x 이하의 모든 X에 대하여 P(X) 값을 전부 적분한다.

reference

공분산과 상관계수

공분산(covariance)

  • 각 확률변수 등이 어떻게 퍼져 있는지 나타내는 값
  • Cov(X, Y) = X의 편차와 Y의 편차를 곱한 것의 평균

범위에 따른 공분산의 의미

  • Cov(X, Y) > 0: X가 증가할 때 Y도 증가한다
  • Cov(X, Y) == 0: 두 변수는 서로 선형관계가 없다.
  • Cov(X, Y) < 0: X가 증가할 때 Y는 감소한다.

공분산의 문제점

  • X, Y의 단위의 크기에 영향을 받는다.

상관계수 (Correlation)

상관계수 = (X, Y의 공분산) / (X, Y의 분산의 기하평균)

범위에 따른 상관계수의 특징

  • 1: 완전선형 상관관계
  • 0: 상관관계가 없음
  • -1: 완전선형 반상관관계

reference

반응형

'Model > 확률과 통계' 카테고리의 다른 글

Naive Bayes  (0) 2020.04.12
최대 우도 추정  (0) 2020.04.12