====== 통계 용어집 ====== **이 문서는 업무에서 자주 사용되는 통계 용어와 개념을 정리한 가이드입니다.** ===== 📊 기본 통계 용어 ===== ==== 기술통계량 (Descriptive Statistics) ==== **평균 (Mean)** * 모든 값의 합을 개수로 나눈 값 * 가장 대표적인 중심 경향성 지표 * 이상치에 민감함 **중앙값 (Median)** * 데이터를 크기순으로 정렬했을 때 가운데 값 * 이상치에 덜 민감함 * 비대칭 분포에서 더 적절한 대표값 **최빈값 (Mode)** * 가장 자주 나타나는 값 * 범주형 데이터에서 유용 **분산 (Variance)** * 평균으로부터의 편차 제곱의 평균 * 데이터의 퍼짐 정도를 측정 **표준편차 (Standard Deviation)** * 분산의 제곱근 * 원본 단위와 같은 단위로 해석 가능 * 68-95-99.7 규칙: 정규분포에서 평균±1σ, ±2σ, ±3σ 범위 ==== 확률분포 (Probability Distributions) ==== **정규분포 (Normal Distribution)** * 종 모양의 대칭 분포 * 많은 자연현상이 따르는 분포 * 중심극한정리의 기반 **t-분포 (t-Distribution)** * 정규분포와 유사하지만 꼬리가 더 두꺼움 * 표본이 작을 때 사용 * 자유도에 따라 모양이 달라짐 **카이제곱분포 (Chi-square Distribution)** * 항상 양수값만 가짐 * 분산 검정, 독립성 검정에 사용 **F-분포 (F-Distribution)** * 두 분산의 비율 검정에 사용 * 분자와 분모 자유도에 따라 모양 결정 ---- ===== 🔍 추론통계 (Inferential Statistics) ===== ==== 가설검정 (Hypothesis Testing) ==== **귀무가설 (Null Hypothesis, H₀)** * 검정하고자 하는 가설의 반대 * "차이가 없다", "효과가 없다"는 주장 * 기각되면 대립가설 채택 **대립가설 (Alternative Hypothesis, H₁)** * 연구자가 증명하고자 하는 가설 * "차이가 있다", "효과가 있다"는 주장 **유의수준 (Significance Level, α)** * 제1종 오류를 범할 확률 * 보통 0.05 (5%) 또는 0.01 (1%) 사용 * p-value < α이면 귀무가설 기각 **p-value** * 귀무가설이 참일 때, 관찰된 결과보다 더 극단적인 결과가 나올 확률 * 작을수록 귀무가설 기각의 증거가 강함 ==== 신뢰구간 (Confidence Interval) ==== **신뢰수준 (Confidence Level)** * 보통 95% 또는 99% 사용 * 95% 신뢰구간: 100번 중 95번은 모수를 포함 **신뢰구간 해석** * "모평균이 이 구간에 있을 확률이 95%다" (X) * "이 방법으로 구한 구간 중 95%가 모평균을 포함한다" (O) ---- ===== 📈 회귀분석 (Regression Analysis) ===== ==== 선형회귀 (Linear Regression) ==== **단순선형회귀** * Y = β₀ + β₁X + ε * 하나의 독립변수로 종속변수 예측 **다중선형회귀** * Y = β₀ + β₁X₁ + β₂X₂ + ... + βₖXₖ + ε * 여러 독립변수로 종속변수 예측 **결정계수 (R²)** * 모델이 설명하는 분산의 비율 * 0~1 사이 값, 높을수록 좋은 모델 * 조정된 R²: 변수 수를 고려한 보정값 **회귀계수 (β)** * 독립변수가 종속변수에 미치는 영향력 * 양수: 양의 관계, 음수: 음의 관계 ==== 회귀진단 (Regression Diagnostics) ==== **잔차 (Residuals)** * 실제값 - 예측값 * 정규분포를 따르는지 확인 필요 **다중공선성 (Multicollinearity)** * 독립변수들 간의 높은 상관관계 * VIF (Variance Inflation Factor)로 진단 ---- ===== 🎯 비즈니스 통계 ===== ==== A/B 테스트 ==== **전환율 (Conversion Rate)** * 목표 행동을 수행한 사용자의 비율 * 예: 구매율, 가입율, 클릭율 **통계적 유의성** * 결과가 우연이 아닌 실제 효과인지 판단 * 충분한 표본 크기 필요 ==== 시계열 분석 ==== **추세 (Trend)** * 장기적인 증가/감소 패턴 **계절성 (Seasonality)** * 일정한 주기로 반복되는 패턴 **이동평균 (Moving Average)** * 노이즈를 줄이고 패턴을 파악하는 기법 ---- ===== 📊 데이터 시각화 ===== ==== 기본 차트 ==== **히스토그램** * 연속형 데이터의 분포 확인 * 구간별 빈도 표시 **박스플롯 (Box Plot)** * 사분위수, 이상치, 분포 형태 확인 * 여러 그룹 비교에 유용 **산점도 (Scatter Plot)** * 두 변수 간의 관계 확인 * 상관관계, 이상치 파악 **상관계수 (Correlation Coefficient)** * -1 ~ +1 사이 값 * 절댓값이 클수록 강한 상관관계 ---- ===== 🔧 실무 적용 팁 ===== ==== 데이터 전처리 ==== **결측치 처리** * 삭제, 평균 대체, 회귀 대체 등 * 결측 패턴 분석 필요 **이상치 탐지** * IQR 방법, Z-score 방법 * 비즈니스 맥락에서 판단 **정규화 (Normalization)** * 서로 다른 스케일의 변수들을 비교 가능하게 만듦 * Min-Max, Z-score 정규화 ==== 결과 해석 ==== **통계적 vs 실질적 유의성** * 통계적으로 유의해도 실질적 의미는 없을 수 있음 * 효과 크기 (Effect Size) 고려 **인과관계 vs 상관관계** * 상관관계가 인과관계를 의미하지는 않음 * 혼동변수 (Confounding Variable) 주의 ---- ===== 📚 참고 자료 ===== * **기초 통계**: 이기적 통계학, 통계학의 정석 * **R 프로그래밍**: R을 이용한 데이터 분석, R Cookbook * **비즈니스 통계**: 데이터 분석을 위한 통계적 방법론 * **온라인 강의**: Coursera, edX의 통계학 강의 ---- ===== 🔗 관련 문서 ===== * [[wiki:hr:statistics:r_programming_guide|R 프로그래밍 실무 가이드]] * [[wiki:hr:statistics:business_statistics|비즈니스 통계 분석 실무 가이드]] * [[wiki:hr:excel:excel_vba|Excel VBA 가이드]] ---- > **💡 팁**: 통계는 복잡해 보이지만, 기본 개념을 이해하면 실무에서 매우 유용합니다. 처음에는 간단한 기술통계부터 시작해서 점진적으로 복잡한 분석으로 나아가세요!