⊙ 아티클 스터디
주제 : "양질의 데이터를 판별하는 5가지 방법 : ① 데이터 양은 충분한가"
( https://yozm.wishket.com/magazine/detail/1070/ )
요약
: 빅데이터 시대에 데이터의 가치는 품질에 좌우되며, 특히 충분한 데이터 양은 분석 결과의 신뢰도를 결정하고 효과적인 AI 모델 학습을 가능하게 하는 양질의 데이터의 첫 번째 조건입니다.
주요 포인트
- 품질과 활용도의 상관관계: 고품질 데이터일수록 분석 결과의 해석이 용이하고 실제 비즈니스에 활용될 확률이 높습니다.
- 양질의 데이터 판단 기준: 충분한 양, 적은 오류, RDB 형식 준수, 수치형 데이터 보유, 목적 적합성 등 5가지 특징을 가집니다
- 데이터 양의 중요성: 표본이 모집단을 충분히 대표해야 분석 결과의 왜곡을 막을 수 있으며, 딥러닝 등 최신 알고리즘일수록 방대한 데이터가 필수적입니다
- 적정 데이터 양의 가이드라인: 절대적 기준은 없으나 통상 통계 분석은 500개 이상, 머신러닝은 변수(Column) 개수의 100배 이상의 데이터를 권장합니다
핵심개념
- 데이터의 품질: 데이터가 명확하고 깔끔하여 분석가가 의도한 목적에 따라 결과를 도출하기에 적합한 정도를 의미합니다
- 대표성: 수집된 표본 데이터가 실제 분석 대상인 전체 집단(모집단)의 특성을 얼마나 정확하게 반영하고 있는지를 나타내는 지표입니다.
- 통계적 유의미성: 분석 결과가 단순히 우연에 의해 나타난 것이 아니라 신뢰할 수 있는 패턴임을 증명하는 통계적 지표입니다.
용어정리
- 모집단(Population): 분석의 대상이 되는 전체 집합
- 표본(Sample): 모집단을 파악하기 위해 실제로 수집하거나 추출한 데이터의 부분 집합
- 변수(Variable/Column): 데이터셋에서 세로축을 담당하는 개별 속성이나 항목
- 딥러닝(Deep Learning): 방대한 데이터를 통해 스스로 학습하여 성능을 높이는 AI 기술로, 데이터 양이 많을수록 정확도가 향상되는 특성이 있음