wiki:hr:statistics:statistics_glossary
목차
통계 용어집
이 문서는 업무에서 자주 사용되는 통계 용어와 개념을 정리한 가이드입니다.
📊 기본 통계 용어
기술통계량 (Descriptive Statistics)
평균 (Mean)
- 모든 값의 합을 개수로 나눈 값
- 가장 대표적인 중심 경향성 지표
- 이상치에 민감함
중앙값 (Median)
- 데이터를 크기순으로 정렬했을 때 가운데 값
- 이상치에 덜 민감함
- 비대칭 분포에서 더 적절한 대표값
최빈값 (Mode)
- 가장 자주 나타나는 값
- 범주형 데이터에서 유용
분산 (Variance)
- 평균으로부터의 편차 제곱의 평균
- 데이터의 퍼짐 정도를 측정
표준편차 (Standard Deviation)
- 분산의 제곱근
- 원본 단위와 같은 단위로 해석 가능
- 68-95-99.7 규칙: 정규분포에서 평균±1σ, ±2σ, ±3σ 범위
확률분포 (Probability Distributions)
정규분포 (Normal Distribution)
- 종 모양의 대칭 분포
- 많은 자연현상이 따르는 분포
- 중심극한정리의 기반
t-분포 (t-Distribution)
- 정규분포와 유사하지만 꼬리가 더 두꺼움
- 표본이 작을 때 사용
- 자유도에 따라 모양이 달라짐
카이제곱분포 (Chi-square Distribution)
- 항상 양수값만 가짐
- 분산 검정, 독립성 검정에 사용
F-분포 (F-Distribution)
- 두 분산의 비율 검정에 사용
- 분자와 분모 자유도에 따라 모양 결정
🔍 추론통계 (Inferential Statistics)
가설검정 (Hypothesis Testing)
귀무가설 (Null Hypothesis, H₀)
- 검정하고자 하는 가설의 반대
- “차이가 없다”, “효과가 없다”는 주장
- 기각되면 대립가설 채택
대립가설 (Alternative Hypothesis, H₁)
- 연구자가 증명하고자 하는 가설
- “차이가 있다”, “효과가 있다”는 주장
유의수준 (Significance Level, α)
- 제1종 오류를 범할 확률
- 보통 0.05 (5%) 또는 0.01 (1%) 사용
- p-value < α이면 귀무가설 기각
p-value
- 귀무가설이 참일 때, 관찰된 결과보다 더 극단적인 결과가 나올 확률
- 작을수록 귀무가설 기각의 증거가 강함
신뢰구간 (Confidence Interval)
신뢰수준 (Confidence Level)
- 보통 95% 또는 99% 사용
- 95% 신뢰구간: 100번 중 95번은 모수를 포함
신뢰구간 해석
- “모평균이 이 구간에 있을 확률이 95%다” (X)
- “이 방법으로 구한 구간 중 95%가 모평균을 포함한다” (O)
📈 회귀분석 (Regression Analysis)
선형회귀 (Linear Regression)
단순선형회귀
- Y = β₀ + β₁X + ε
- 하나의 독립변수로 종속변수 예측
다중선형회귀
- Y = β₀ + β₁X₁ + β₂X₂ + … + βₖXₖ + ε
- 여러 독립변수로 종속변수 예측
결정계수 (R²)
- 모델이 설명하는 분산의 비율
- 0~1 사이 값, 높을수록 좋은 모델
- 조정된 R²: 변수 수를 고려한 보정값
회귀계수 (β)
- 독립변수가 종속변수에 미치는 영향력
- 양수: 양의 관계, 음수: 음의 관계
회귀진단 (Regression Diagnostics)
잔차 (Residuals)
- 실제값 - 예측값
- 정규분포를 따르는지 확인 필요
다중공선성 (Multicollinearity)
- 독립변수들 간의 높은 상관관계
- VIF (Variance Inflation Factor)로 진단
🎯 비즈니스 통계
A/B 테스트
전환율 (Conversion Rate)
- 목표 행동을 수행한 사용자의 비율
- 예: 구매율, 가입율, 클릭율
통계적 유의성
- 결과가 우연이 아닌 실제 효과인지 판단
- 충분한 표본 크기 필요
시계열 분석
추세 (Trend)
- 장기적인 증가/감소 패턴
계절성 (Seasonality)
- 일정한 주기로 반복되는 패턴
이동평균 (Moving Average)
- 노이즈를 줄이고 패턴을 파악하는 기법
📊 데이터 시각화
기본 차트
히스토그램
- 연속형 데이터의 분포 확인
- 구간별 빈도 표시
박스플롯 (Box Plot)
- 사분위수, 이상치, 분포 형태 확인
- 여러 그룹 비교에 유용
산점도 (Scatter Plot)
- 두 변수 간의 관계 확인
- 상관관계, 이상치 파악
상관계수 (Correlation Coefficient)
- -1 ~ +1 사이 값
- 절댓값이 클수록 강한 상관관계
🔧 실무 적용 팁
데이터 전처리
결측치 처리
- 삭제, 평균 대체, 회귀 대체 등
- 결측 패턴 분석 필요
이상치 탐지
- IQR 방법, Z-score 방법
- 비즈니스 맥락에서 판단
정규화 (Normalization)
- 서로 다른 스케일의 변수들을 비교 가능하게 만듦
- Min-Max, Z-score 정규화
결과 해석
통계적 vs 실질적 유의성
- 통계적으로 유의해도 실질적 의미는 없을 수 있음
- 효과 크기 (Effect Size) 고려
인과관계 vs 상관관계
- 상관관계가 인과관계를 의미하지는 않음
- 혼동변수 (Confounding Variable) 주의
📚 참고 자료
- 기초 통계: 이기적 통계학, 통계학의 정석
- R 프로그래밍: R을 이용한 데이터 분석, R Cookbook
- 비즈니스 통계: 데이터 분석을 위한 통계적 방법론
- 온라인 강의: Coursera, edX의 통계학 강의
🔗 관련 문서
💡 팁: 통계는 복잡해 보이지만, 기본 개념을 이해하면 실무에서 매우 유용합니다. 처음에는 간단한 기술통계부터 시작해서 점진적으로 복잡한 분석으로 나아가세요!
wiki/hr/statistics/statistics_glossary.txt · 마지막으로 수정됨: 저자 syjang0803