선형대수 | 해석학 | 통계학

[Bayesian Deep Learning] 베이지안 딥러닝, Bayesian deep neural network

[용어 정리]

  1. Variational Inference (변분 추론):
    • 변분 추론은 확률 분포를 근사화하기 위한 효율적인 방법입니다. 주어진 데이터와 모델의 파라미터 사이의 관계를 활용하여 모델의 파라미터를 추정하고, 이를 통해 원하는 확률 분포를 근사합니다. 변분 추론은 빅데이터 및 복잡한 모델을 다룰 때 특히 유용합니다.
      • 예를 들어, 가우시안 혼합 모델을 고려해 봅시다. 우리는 관측 데이터 ( X = {x_1, x_2, ..., x_N} ) 가 있고, 이 데이터가 가우시안 혼합 모델 ( p(x|\theta) ) 에 따라 생성되었다고 가정합니다. 이 때, 우리의 목적은 데이터를 가장 잘 설명하는 모델 파라미터인 ( \theta ) 를 찾는 것입니다.
  2. Log Marginal Likelihood (로그 주변 우도):
    • 로그 주변 우도는 모델이 데이터를 설명하는 정도를 나타내는 지표입니다. 주어진 데이터에 대해 모델이 얼마나 적합한지를 수량화합니다. 더 높은 로그 주변 우도는 더 좋은 모델 적합을 나타냅니다.
      • 가우시안 혼합 모델에서 로그 주변 우도는 다음과 같이 정의됩니다:
        [ \log p(X|\theta) = \sum_{i=1}^{N} \log p(x_i|\theta) ]
    • 여기서 ( X ) 는 관측 데이터를 나타내며, ( \theta ) 는 모델의 파라미터를 나타냅니다. ( p(x_i|\theta) ) 는 주어진 모델 파라미터 ( \theta ) 에서 데이터 ( x_i ) 가 관측될 확률을 나타냅니다.
  3. Variational Free Energy (ELBO) (변분 자유 에너지):
    • 변분 자유 에너지는 변분 추론에서 중요한 개념 중 하나입니다. 이는 주어진 데이터의 로그 주변 우도의 하한값을 나타냅니다. ELBO는 모델의 파라미터를 조정하여 최대화되며, 이를 통해 실제 주변 우도를 근사화할 수 있습니다.
      • ELBO는 로그 주변 우도의 하한값으로 정의됩니다. 가우시안 혼합 모델에서 ELBO는 다음과 같이 정의됩니다:
        [ \text{ELBO}(\theta, q) = \sum_{i=1}^{N} \mathbb{E}_{q(z_i)}[\log p(x_i, z_i|\theta) - \log q(z_i)] ]
    • 여기서 ( q(z_i) ) 는 잠재 변수 ( z_i ) 의 근사분포이며, ( p(x_i, z_i|\theta) ) 는 관측 데이터 ( x_i ) 와 해당 잠재 변수 ( z_i ) 가 주어졌을 때의 결합 확률을 나타냅니다.
  4. Marginal Likelihood (주변 우도):
    • 주변 우도는 데이터에 대한 모델의 적합성을 나타내는 중요한 지표입니다. 모든 가능한 파라미터 값에 대해 조건부 우도를 평균화하여 계산됩니다. 주변 우도는 모델 선택이나 비교에 사용되며, 더 높은 주변 우도는 더 적합한 모델을 나타냅니다.
      • 주변 우도는 모델 파라미터에 대한 우도를 평균화한 값으로, 다음과 같이 정의됩니다:
        [ p(X) = \int p(X, \theta) d\theta ]
    • 여기서 ( p(X) ) 는 관측 데이터 ( X ) 의 주변 우도를 나타내며, ( p(X, \theta) ) 는 관측 데이터와 모델 파라미터의 결합 확률을 나타냅니다.
  5. ELBO (Evidence of Lower BOund):
    • ELBO는 변분 추론에서 사용되는 핵심 개념 중 하나입니다. 주어진 데이터의 로그 주변 우도의 하한값을 나타냅니다. 이 값은 모델의 파라미터를 조정하여 최대화되며, 이를 통해 실제 주변 우도를 근사화할 수 있습니다.
      • ELBO는 로그 주변 우도의 하한값으로, 다음과 같이 정의됩니다:
        [ \text{ELBO}(\theta) = \mathbb{E}_{q(z)}[\log p(X, Z|\theta) - \log q(Z)] ]
    • 여기서 ( Z ) 는 모든 잠재 변수를 나타내며, ( q(Z) ) 는 잠재 변수의 근사분포를 나타냅니다.
  1. KL Divergence (KL 발산):

    • KL 발산은 두 확률 분포 간의 차이를 측정하는 지표입니다. 하나의 분포를 다른 분포에 대한 근사분포로 사용할 때, 두 분포 간의 차이를 계산합니다. 만약 두 분포가 완전히 같다면 KL 발산은 0이 됩니다.
    • 예를 들어, 두 개의 확률 분포 ( P(x) ) 와 ( Q(x) ) 가 있다고 가정해 봅시다. 이 때, KL 발산은 다음과 같이 정의됩니다:
      [ D_{KL}(P||Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)} ]
    • 이 식에서 ( P(x) ) 와 ( Q(x) ) 는 각각 두 분포의 확률을 나타냅니다.
  2. Likelihood (우도):

    • 우도는 주어진 모델의 파라미터에 대해 관측 데이터가 발생할 확률을 나타냅니다. 즉, 주어진 데이터가 특정 모델에서 얼마나 '가능성이 높은지'를 나타내는 지표입니다. 모델의 파라미터를 조정하여 우도를 최대화하는 것이 통계적 추정의 주요 목표 중 하나입니다.
    • 예를 들어, 선형 회귀 모델에서 데이터 포인트 ( (x_i, y_i) ) 가 주어졌을 때, 이 데이터 포인트가 주어진 모델에서 발생할 확률을 나타내는 우도는 다음과 같이 정의됩니다:
      [ \text{likelihood} = P(y_i | x_i, \theta) ]
    • 이 때, ( \theta ) 는 모델의 파라미터를 나타냅니다.