사용자 도구

사이트 도구


wiki:hr:statistics:statistics_glossary

통계 용어집

이 문서는 업무에서 자주 사용되는 통계 용어와 개념을 정리한 가이드입니다.

📊 기본 통계 용어

기술통계량 (Descriptive Statistics)

평균 (Mean)

  • 모든 값의 합을 개수로 나눈 값
  • 가장 대표적인 중심 경향성 지표
  • 이상치에 민감함

중앙값 (Median)

  • 데이터를 크기순으로 정렬했을 때 가운데 값
  • 이상치에 덜 민감함
  • 비대칭 분포에서 더 적절한 대표값

최빈값 (Mode)

  • 가장 자주 나타나는 값
  • 범주형 데이터에서 유용

분산 (Variance)

  • 평균으로부터의 편차 제곱의 평균
  • 데이터의 퍼짐 정도를 측정

표준편차 (Standard Deviation)

  • 분산의 제곱근
  • 원본 단위와 같은 단위로 해석 가능
  • 68-95-99.7 규칙: 정규분포에서 평균±1σ, ±2σ, ±3σ 범위

확률분포 (Probability Distributions)

정규분포 (Normal Distribution)

  • 종 모양의 대칭 분포
  • 많은 자연현상이 따르는 분포
  • 중심극한정리의 기반

t-분포 (t-Distribution)

  • 정규분포와 유사하지만 꼬리가 더 두꺼움
  • 표본이 작을 때 사용
  • 자유도에 따라 모양이 달라짐

카이제곱분포 (Chi-square Distribution)

  • 항상 양수값만 가짐
  • 분산 검정, 독립성 검정에 사용

F-분포 (F-Distribution)

  • 두 분산의 비율 검정에 사용
  • 분자와 분모 자유도에 따라 모양 결정

🔍 추론통계 (Inferential Statistics)

가설검정 (Hypothesis Testing)

귀무가설 (Null Hypothesis, H₀)

  • 검정하고자 하는 가설의 반대
  • “차이가 없다”, “효과가 없다”는 주장
  • 기각되면 대립가설 채택

대립가설 (Alternative Hypothesis, H₁)

  • 연구자가 증명하고자 하는 가설
  • “차이가 있다”, “효과가 있다”는 주장

유의수준 (Significance Level, α)

  • 제1종 오류를 범할 확률
  • 보통 0.05 (5%) 또는 0.01 (1%) 사용
  • p-value < α이면 귀무가설 기각

p-value

  • 귀무가설이 참일 때, 관찰된 결과보다 더 극단적인 결과가 나올 확률
  • 작을수록 귀무가설 기각의 증거가 강함

신뢰구간 (Confidence Interval)

신뢰수준 (Confidence Level)

  • 보통 95% 또는 99% 사용
  • 95% 신뢰구간: 100번 중 95번은 모수를 포함

신뢰구간 해석

  • “모평균이 이 구간에 있을 확률이 95%다” (X)
  • “이 방법으로 구한 구간 중 95%가 모평균을 포함한다” (O)

📈 회귀분석 (Regression Analysis)

선형회귀 (Linear Regression)

단순선형회귀

  • Y = β₀ + β₁X + ε
  • 하나의 독립변수로 종속변수 예측

다중선형회귀

  • Y = β₀ + β₁X₁ + β₂X₂ + … + βₖXₖ + ε
  • 여러 독립변수로 종속변수 예측

결정계수 (R²)

  • 모델이 설명하는 분산의 비율
  • 0~1 사이 값, 높을수록 좋은 모델
  • 조정된 R²: 변수 수를 고려한 보정값

회귀계수 (β)

  • 독립변수가 종속변수에 미치는 영향력
  • 양수: 양의 관계, 음수: 음의 관계

회귀진단 (Regression Diagnostics)

잔차 (Residuals)

  • 실제값 - 예측값
  • 정규분포를 따르는지 확인 필요

다중공선성 (Multicollinearity)

  • 독립변수들 간의 높은 상관관계
  • VIF (Variance Inflation Factor)로 진단

🎯 비즈니스 통계

A/B 테스트

전환율 (Conversion Rate)

  • 목표 행동을 수행한 사용자의 비율
  • 예: 구매율, 가입율, 클릭율

통계적 유의성

  • 결과가 우연이 아닌 실제 효과인지 판단
  • 충분한 표본 크기 필요

시계열 분석

추세 (Trend)

  • 장기적인 증가/감소 패턴

계절성 (Seasonality)

  • 일정한 주기로 반복되는 패턴

이동평균 (Moving Average)

  • 노이즈를 줄이고 패턴을 파악하는 기법

📊 데이터 시각화

기본 차트

히스토그램

  • 연속형 데이터의 분포 확인
  • 구간별 빈도 표시

박스플롯 (Box Plot)

  • 사분위수, 이상치, 분포 형태 확인
  • 여러 그룹 비교에 유용

산점도 (Scatter Plot)

  • 두 변수 간의 관계 확인
  • 상관관계, 이상치 파악

상관계수 (Correlation Coefficient)

  • -1 ~ +1 사이 값
  • 절댓값이 클수록 강한 상관관계

🔧 실무 적용 팁

데이터 전처리

결측치 처리

  • 삭제, 평균 대체, 회귀 대체 등
  • 결측 패턴 분석 필요

이상치 탐지

  • IQR 방법, Z-score 방법
  • 비즈니스 맥락에서 판단

정규화 (Normalization)

  • 서로 다른 스케일의 변수들을 비교 가능하게 만듦
  • Min-Max, Z-score 정규화

결과 해석

통계적 vs 실질적 유의성

  • 통계적으로 유의해도 실질적 의미는 없을 수 있음
  • 효과 크기 (Effect Size) 고려

인과관계 vs 상관관계

  • 상관관계가 인과관계를 의미하지는 않음
  • 혼동변수 (Confounding Variable) 주의

📚 참고 자료

  • 기초 통계: 이기적 통계학, 통계학의 정석
  • R 프로그래밍: R을 이용한 데이터 분석, R Cookbook
  • 비즈니스 통계: 데이터 분석을 위한 통계적 방법론
  • 온라인 강의: Coursera, edX의 통계학 강의

🔗 관련 문서


💡 팁: 통계는 복잡해 보이지만, 기본 개념을 이해하면 실무에서 매우 유용합니다. 처음에는 간단한 기술통계부터 시작해서 점진적으로 복잡한 분석으로 나아가세요!
wiki/hr/statistics/statistics_glossary.txt · 마지막으로 수정됨: 저자 syjang0803

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki