wiki:hr:statistics_glossary
차이
문서의 선택한 두 판 사이의 차이를 보여줍니다.
양쪽 이전 판이전 판 | |||
wiki:hr:statistics_glossary [2025/07/03 05:12] – syjang0803 | wiki:hr:statistics_glossary [알 수 없는 날짜] (현재) – 제거됨 - 바깥 편집 (알 수 없는 날짜) 127.0.0.1 | ||
---|---|---|---|
줄 1: | 줄 1: | ||
- | ====== 통계 용어집 ====== | ||
- | **이 문서는 업무에서 자주 사용되는 통계 용어와 개념을 정리한 가이드입니다.** | ||
- | |||
- | |||
- | ===== 📊 기본 통계 용어 ===== | ||
- | |||
- | ==== 기술통계량 (Descriptive Statistics) ==== | ||
- | |||
- | **평균 (Mean)** | ||
- | * 모든 값의 합을 개수로 나눈 값 | ||
- | * 가장 대표적인 중심 경향성 지표 | ||
- | * 이상치에 민감함 | ||
- | |||
- | **중앙값 (Median)** | ||
- | * 데이터를 크기순으로 정렬했을 때 가운데 값 | ||
- | * 이상치에 덜 민감함 | ||
- | * 비대칭 분포에서 더 적절한 대표값 | ||
- | |||
- | **최빈값 (Mode)** | ||
- | * 가장 자주 나타나는 값 | ||
- | * 범주형 데이터에서 유용 | ||
- | |||
- | **분산 (Variance)** | ||
- | * 평균으로부터의 편차 제곱의 평균 | ||
- | * 데이터의 퍼짐 정도를 측정 | ||
- | |||
- | **표준편차 (Standard Deviation)** | ||
- | * 분산의 제곱근 | ||
- | * 원본 단위와 같은 단위로 해석 가능 | ||
- | * 68-95-99.7 규칙: 정규분포에서 평균±1σ, | ||
- | |||
- | ==== 확률분포 (Probability Distributions) ==== | ||
- | |||
- | **정규분포 (Normal Distribution)** | ||
- | * 종 모양의 대칭 분포 | ||
- | * 많은 자연현상이 따르는 분포 | ||
- | * 중심극한정리의 기반 | ||
- | |||
- | **t-분포 (t-Distribution)** | ||
- | * 정규분포와 유사하지만 꼬리가 더 두꺼움 | ||
- | * 표본이 작을 때 사용 | ||
- | * 자유도에 따라 모양이 달라짐 | ||
- | |||
- | **카이제곱분포 (Chi-square Distribution)** | ||
- | * 항상 양수값만 가짐 | ||
- | * 분산 검정, 독립성 검정에 사용 | ||
- | |||
- | **F-분포 (F-Distribution)** | ||
- | * 두 분산의 비율 검정에 사용 | ||
- | * 분자와 분모 자유도에 따라 모양 결정 | ||
- | |||
- | ---- | ||
- | |||
- | ===== 🔍 추론통계 (Inferential Statistics) ===== | ||
- | |||
- | ==== 가설검정 (Hypothesis Testing) ==== | ||
- | |||
- | **귀무가설 (Null Hypothesis, H₀)** | ||
- | * 검정하고자 하는 가설의 반대 | ||
- | * " | ||
- | * 기각되면 대립가설 채택 | ||
- | |||
- | **대립가설 (Alternative Hypothesis, H₁)** | ||
- | * 연구자가 증명하고자 하는 가설 | ||
- | * " | ||
- | |||
- | **유의수준 (Significance Level, α)** | ||
- | * 제1종 오류를 범할 확률 | ||
- | * 보통 0.05 (5%) 또는 0.01 (1%) 사용 | ||
- | * p-value < α이면 귀무가설 기각 | ||
- | |||
- | **p-value** | ||
- | * 귀무가설이 참일 때, 관찰된 결과보다 더 극단적인 결과가 나올 확률 | ||
- | * 작을수록 귀무가설 기각의 증거가 강함 | ||
- | |||
- | ==== 신뢰구간 (Confidence Interval) ==== | ||
- | |||
- | **신뢰수준 (Confidence Level)** | ||
- | * 보통 95% 또는 99% 사용 | ||
- | * 95% 신뢰구간: | ||
- | |||
- | **신뢰구간 해석** | ||
- | * " | ||
- | * "이 방법으로 구한 구간 중 95%가 모평균을 포함한다" | ||
- | |||
- | ---- | ||
- | |||
- | ===== 📈 회귀분석 (Regression Analysis) ===== | ||
- | |||
- | ==== 선형회귀 (Linear Regression) ==== | ||
- | |||
- | **단순선형회귀** | ||
- | * Y = β₀ + β₁X + ε | ||
- | * 하나의 독립변수로 종속변수 예측 | ||
- | |||
- | **다중선형회귀** | ||
- | * Y = β₀ + β₁X₁ + β₂X₂ + ... + βₖXₖ + ε | ||
- | * 여러 독립변수로 종속변수 예측 | ||
- | |||
- | **결정계수 (R²)** | ||
- | * 모델이 설명하는 분산의 비율 | ||
- | * 0~1 사이 값, 높을수록 좋은 모델 | ||
- | * 조정된 R²: 변수 수를 고려한 보정값 | ||
- | |||
- | **회귀계수 (β)** | ||
- | * 독립변수가 종속변수에 미치는 영향력 | ||
- | * 양수: 양의 관계, 음수: 음의 관계 | ||
- | |||
- | ==== 회귀진단 (Regression Diagnostics) ==== | ||
- | |||
- | **잔차 (Residuals)** | ||
- | * 실제값 - 예측값 | ||
- | * 정규분포를 따르는지 확인 필요 | ||
- | |||
- | **다중공선성 (Multicollinearity)** | ||
- | * 독립변수들 간의 높은 상관관계 | ||
- | * VIF (Variance Inflation Factor)로 진단 | ||
- | |||
- | ---- | ||
- | |||
- | ===== 🎯 비즈니스 통계 ===== | ||
- | |||
- | ==== A/B 테스트 ==== | ||
- | |||
- | **전환율 (Conversion Rate)** | ||
- | * 목표 행동을 수행한 사용자의 비율 | ||
- | * 예: 구매율, 가입율, 클릭율 | ||
- | |||
- | **통계적 유의성** | ||
- | * 결과가 우연이 아닌 실제 효과인지 판단 | ||
- | * 충분한 표본 크기 필요 | ||
- | |||
- | ==== 시계열 분석 ==== | ||
- | |||
- | **추세 (Trend)** | ||
- | * 장기적인 증가/ | ||
- | |||
- | **계절성 (Seasonality)** | ||
- | * 일정한 주기로 반복되는 패턴 | ||
- | |||
- | **이동평균 (Moving Average)** | ||
- | * 노이즈를 줄이고 패턴을 파악하는 기법 | ||
- | |||
- | ---- | ||
- | |||
- | ===== 📊 데이터 시각화 ===== | ||
- | |||
- | ==== 기본 차트 ==== | ||
- | |||
- | **히스토그램** | ||
- | * 연속형 데이터의 분포 확인 | ||
- | * 구간별 빈도 표시 | ||
- | |||
- | **박스플롯 (Box Plot)** | ||
- | * 사분위수, | ||
- | * 여러 그룹 비교에 유용 | ||
- | |||
- | **산점도 (Scatter Plot)** | ||
- | * 두 변수 간의 관계 확인 | ||
- | * 상관관계, | ||
- | |||
- | **상관계수 (Correlation Coefficient)** | ||
- | * -1 ~ +1 사이 값 | ||
- | * 절댓값이 클수록 강한 상관관계 | ||
- | |||
- | ---- | ||
- | |||
- | ===== 🔧 실무 적용 팁 ===== | ||
- | |||
- | ==== 데이터 전처리 ==== | ||
- | |||
- | **결측치 처리** | ||
- | * 삭제, 평균 대체, 회귀 대체 등 | ||
- | * 결측 패턴 분석 필요 | ||
- | |||
- | **이상치 탐지** | ||
- | * IQR 방법, Z-score 방법 | ||
- | * 비즈니스 맥락에서 판단 | ||
- | |||
- | **정규화 (Normalization)** | ||
- | * 서로 다른 스케일의 변수들을 비교 가능하게 만듦 | ||
- | * Min-Max, Z-score 정규화 | ||
- | |||
- | ==== 결과 해석 ==== | ||
- | |||
- | **통계적 vs 실질적 유의성** | ||
- | * 통계적으로 유의해도 실질적 의미는 없을 수 있음 | ||
- | * 효과 크기 (Effect Size) 고려 | ||
- | |||
- | **인과관계 vs 상관관계** | ||
- | * 상관관계가 인과관계를 의미하지는 않음 | ||
- | * 혼동변수 (Confounding Variable) 주의 | ||
- | |||
- | ---- | ||
- | |||
- | ===== 📚 참고 자료 ===== | ||
- | |||
- | * **기초 통계**: 이기적 통계학, 통계학의 정석 | ||
- | * **R 프로그래밍**: | ||
- | * **비즈니스 통계**: 데이터 분석을 위한 통계적 방법론 | ||
- | * **온라인 강의**: Coursera, edX의 통계학 강의 | ||
- | |||
- | ---- | ||
- | |||
- | ===== 🔗 관련 문서 ===== | ||
- | |||
- | * [[wiki: | ||
- | * [[wiki: | ||
- | * [[wiki: | ||
- | |||
- | ---- | ||
- | |||
- | > **💡 팁**: 통계는 복잡해 보이지만, |
wiki/hr/statistics_glossary.1751519532.txt.gz · 마지막으로 수정됨: (바깥 편집)