내일배움캠프(QC,QA_5기)

[내일배움캠프_QA/QC 5기] 29일차 _ 기초 통계 2강

qc-standard 2026. 4. 16. 20:18

2026/04/16 Thu.

● 코드카타 2문제
● 아티클 스터디
● 통계학 강의 집중
 주간 목표 ↓
 
 전처리 / 데이터 리터러시 완강

 통계 완강
 머신러닝 기초 완강
 라이브 세션 당일 복습
 포트폴리오 ppt
 자격증 공부

 


⊙ 코드카타 2문제

https://qc-standard.tistory.com/54


⊙ 아티클 스터디

주제 : "파이썬 초보자가 저지르는 10가지 실수"

https://qc-standard.tistory.com/55


⊙ 통계학 기초 - 2강

● 모집단과 표본

☑️ 모집단 : 전체

☑️ 표본 : 일부

☑️ 왜 표본은 사용하는가?

  • 현실적인 제약
    - 비용과 시간
      : 모집단 - 애초에 불가능하거나 비효율적
      : 표본 조사 - 절약하면서도 유의미한 결과를 도출할 수 있는 방법
    - 접근성
      : 물리적으로 불가능한 경우 (ex - 생산되는 자동차의 성능 테스트)
  • 대표성
    - 표본의 대표성
      : 잘 설계된 모집단의 특성을 반영
      : 표본에서 얻은 결과를 모집단 전체의 일반화
      : 무작위로 표본을 추출하면 편향을 최소화하고 모집단의 다양한 특성을 포함
  • 데이터 관리
    - 데이터 처리의 용이성
      : 데이터 처리와 분석이 훨씬 용이
      : 큰 데이터셋은 분석에 많은 컴퓨팅 자원 절약에 용이
    - 데이터 품질 관리
      : 작은 표본에서는 데이터 품질을 더 쉽게 관리
      : 오류나 이상값을 식별하여 수정 가능
  • 모델 검증 용이
    - 모델 적합도 테스트
      : 모델이 표본 데이터에 잘 맞는다면, 모집단에도 잘 맞을 가능성이 높음

 

☑️ 전수조사

     : 모집단 전체 조사
     : 대규모일 경우 비용과 시간의 많은 소요

☑️ 표본조사

     : 표본만을 조사하는 방법
     : 비용과 시간이 적게 들지만, 표본이 대표성을 가져야 함

☑️ 실제로 모든 데이터를 수집할 수 없을 때 표본 사용

      : 도시 연구 | 의료 연구 | 시장조사 | 정치 여론 조사

☑️ 실습

 

numpy. random

Numpy 라이브러리의 일부
○ 일반적인 정규분포 형태로 모집단 데이터 만들 수 있음 (정규분포 - 가운데 높고 가장자리가 낮은 분포형태)
○ random한 상황에서 쓰임


loc (float): 정규분포의 평균 (기본값: 0.0)
scale (float): 정규분포의 표준편차 (기본값: 1.0)
size (int 또는 tuple of ints): 출력 배열의 크기 = 데이터 개수
loc(평균)  scale(표준편차) 를 따로 입력하지 않으면 기본값으로 설정되어 표준정규분포

numpy.random.choice

 주어진 배열에서 임의로 샘플링하여 요소를 선택 = 랜덤으로 무작위 추출


 a : 샘플링할 원본 배열 = 어디서 부터 가져올건지
 size : 개수
복원 추출 : 중복된 값을 허용해주는 것 - 기본값 True = 중복되도 됨

 

plt.hist

○ 데이터 분포를 시각화하는데 유용한 도구
○ bins : 구간을 몇개로 할지
 alpha 투명도
 label : 범례

 평균 170 | 편차 10 | 데이터 1000개
○ 랜던하게 뽑을 거고 population(모집단)에서 100개 뽑을 거다



○ 히스토그램 - population(모집단) 나타내고
○ 히스토그램 - sample(표본) 나타내고

 

 

표본오차와 신뢰구간

☑️ 표본오차 (Sampling Error)

     : 표본은 모집단에서 일부 추출된 것으로 표본과 모집단 사이 오차가 없을 수 없음,,, 그 오차가 표본오차
     : 표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이
     : 표본 크기(=데이터 개수)가 클수록 표본 오차는 작아짐
       - 표본의 크기(=데이터 개수) : 표본의 크기가 클수록 표본오차는 줄어듦 | 많은 데이터를 수집할수록 모집단을 더 잘 대표함
       - 표본 추출 방법 : 무작위 추출 방법 사용하면 표본오차를 줄어듦 | 모집단 모든 요소가 선택될 동등한 기회를 가져야 함

 

☑️ 신뢰구간 (Confidence Interval)

     :신뢰구간은 모집단의 특정 파라미터(예: 평균, 비율)에 대해 추정된 값이 포함될 것으로 기대되는 범위
       <신뢰구간 계산 방법>
       - 신뢰구간=표본평균±z×표준오차
       - z는 선택된 신뢰수준에 해당하는 z-값입니다. 예를 들어, 95% 신뢰수준의 z-값은 1.96입니다.
       - 일반적으로 95% 신뢰수준을 많이 사용합니다

 

☑️ 실습

○ 수학점수 표본으로부터 모집단의 평균 범위를 계산해보자
○ 100명의 학생을 표본으로 추출하여 그들의 평균 수학 점수를 구하고, 이 점수의 신뢰구간을 계산

stats.t.interval란 무엇
   : t-분포를 사용하여 신뢰 구간(confidence interval)을 계산하는 함수
alpha : 신뢰 수준
df : 자유도(degrees of freedom)를 나타냅니다. 일반적으로 표본 크기(데이터 개수)에서 1을 뺀 값으로 설정
loc : 위치(parameter of location)로, 일반적으로 표본 평균을 설정
scale
  :
스케일(parameter of scale)로, 일반적으로 표본 표준 오차(standard error)를 설정
  :표본 표준 오차는 표본 표준편차를 표본 크기의 제곱근으로 나눈 값
  : scale = sample_std / sqrt(n)
  : sample_std : 샘플의 표준편차 | sqrt(n) : 데이터 개수의 제곱근

 

● 정규분포 : 가장 대표적인 분포 

빨간색 그래프 = 정규 분포 中 가장 표준적인 형태 = 분산 1, 평균 0 = 표준정규분포

μ - 뮤 - 평균  |  σ² - 시그마 제곱 - 분산  |  σ - 시그마 - 표준편차

 

☑️ 정규분포

    : 종모양의 대칭 분포

    : 대부분 데이터가 평균 주위에 몰려 있음

    : 평균을 중심으로 좌우 대칭

    : 평균에서 멀어질수록 데이터의 빈도가 감소

    : 표준 편차는 분포의 퍼짐 정도

☑️ 정규분포 - 특징 

    : 대부분의 데이터가 평균 주변에 몰려 있으며, 평균에서 멀어질수록 빈도가 줄어듦

☑️ 정규분포 -  예시

      : 대부분의 상황에서 관찰되는 분포
      : 키와 몸무게
| 시험 점수(큰집단 경우)  | 대부분의 상황에 가능 - 데이터 수가 많을 때

 

☑️ 실습

표본 데이터가 정규분포를 띈다면 모집단도 정규분포를 띌 수 있음 

 

 긴 꼬리 분포 (long tail distribution)

일부가 전체에 큰 영향을 미칠 때

☑️ 긴 꼬리 분포

     : 긴 꼬리 분포는 대부분의 데이터가 분포의 한쪽 끝에 몰려 있고, 반대쪽으로 긴 꼬리가 이어지는 형태의 분포

     : 대칭적이지 않음 = 비대칭적

     : 파레토분포, 지프의 법칙 멱함수가 포함

☑️ 긴 꼬리 분포 - 특징, 예시

    : 일부가 전체적으로 큰 영향을 미치는 경우

     : 소득분포 | 온라인 쇼핑 | 도서 판매

     : 아무리 데이터가 많아져도 정규분포 되지 않음

☑️ 실습

 

 스튜던트 t 분포 = 표본이 적을 때 정규분포 대신 사용

검은색 ν(자유도)가 무한에 가까워진 상태

자유도 ≒ 데이터 개수랑 관련 있는 값 

 

☑️ 스튜던트 t 분포

     : t분포는 모집단의 표준편차를 알 수 없고 표본의 크기가 작은 경우(일반적으로 30미만)에 사용되는 분포

     : 표본의 크기가 작을수록 꼬리가 두꺼워지는 특징

☑️ 스튜던트 t 분포- 특징

     : 표본 크기(데이터 개수)가 커지면 정규 분포에 가까워짐

☑️ 스튜던트 t 분포 - 예시

     : 데이터가 적은 경우 사용

      : 작은 표본의 평균 비교 | 약물 시험

☑️ 실습

 

 카이제곱분포 = 독립성 검정 / 적합도 검정에 사용

대표적 검은색  |  k 자유도=데이터 표본=데이터 개수

 

☑️ 카이제곱 분포

     : 카이제곱분포는 범주형 데이터의 독립성 검정이나 적합도 검정에 사용되는 분포  

☑️ 카이제곱 분포 - 특징

     : 자유도에 따라 모양이 달라짐

     : 데이터 수가 많아질수록 정규분포에 근사할 수 있음

     : 상관관계나 인과관계를 판별하고자 하는 원인의 독립변수가 ‘완벽하게 서로 다른 질적 자료’일 때 활용 - ex) 성별이나 나이에 따른 선거 후보 지지율

     : 범주형 데이터 분석에 사용

☑️ 카이제곱 분포 - 예시

    : 독립성 검정이나 적합도 검정이 필요할 때

     : 독립성 검정 - 두 범주형 간의 관계가 있는지 - 숫자형에서는 상관관계

     : 적합도 검정 

☑️ 실습


 
 

 이항분포 = 결과가 2개 나오는 상황에서 사용

특정한 정수값만 가질 수 있어서 연속형 분포가 아닌 이산형 분포

☑️ 이항 분포

     : 성공/실패와 같은 두 가지 결과를 가지는 실험을 여러 번 반복했을 때 성공 횟수의 분포

     : 성공 확률을 p라 할 때, 성공의 횟수를 확률적으로 나타냄

☑️ 이항 분포 - 특징

     : 데이터가 많아질수록 정규분포에 근사

     : 실험 횟수(n)와 성공 확률(p)로 정의

☑️ 이항 분포 - 예시

     : 결과가 2개만 나오는 상황을 여러번 하는 경우

      : 동전 던지기 | 품질 관리

☑️ 실습

 

푸아송분포 = 희귀한 사건이 발생할 때

λ - 람다 - 발생률 : 특정 시간이나 특정 공간에서 발생하는 사건의 수

연속된 값을 가지지 않는 이산형 분포

☑️ 푸아송 분포

     : 단위 시간 또는 단위 면적 당 발생하는 사건의 수를 모델링할 때 사용하는 분포

     : 푸아송 분포는 평균 발생률 λ를 가진 사건이 주어진 시간 또는 공간 내에서 몇 번 발생하는지를 나타냄

☑️ 푸아송 분포 - 특징

     : λ(람다)가 ∞(무한)으로 가면 정규분포를 띔

☑️ 푸아송 분포 - 예시

    : 특정 공간 / 특정 시간에 사건이 발생하는 경우

     : 콜센터 | 교통사고 | 문자메세지 | 웹사이트 트래

☑️ 실습

 

 분포 정리하기

☑️ 데이터 수가 충분하다 → (무조건) 정규분포에 근사

☑️ 데이터 수가 작다 → 스튜던트 t 분포

☑️ 일부 데이터가 전체적으로 큰 영향을 미친다 → 롱 테일 분포 (파레토 분포)

☑️ 범주형 데이터의 독립성 검정이나 적합도 검정 → 카이 제곱 분포

☑️ 결과가 두 개(성공 or 실패)만 나오는 상황 → 이항 분포

☑️ 특정 시간, 공간에서 발생하는 사건 → 푸아송 분포