▷ 아티클 스터디

[내일배움캠프_QA/QC 5기] 23일차 _ 아티클 스터디 "양질의 데이터를 판별하는 5가지 방법 : ⑤ 목적에 적합한 데이터인가?"

qc-standard 2026. 4. 8. 14:48

⊙ 아티클 스터디

주제 "양질의 데이터를 판별하는 5가지 방법 : ⑤ 목적에 적합한 데이터인가?"
( https://yozm.wishket.com/magazine/detail/1123/ )

 

요약

: 데이터의 품질은 절대적인 기준이 아니라 분석 및 활용 목적에 따라 결정되며, 목적에 맞는 유의미한 정보가 포함되어 있고 선택한 분석 방법론(머신러닝 등)에 적합한 구조를 갖춰야 양질의 데이터라 할 수 있습니다.

 


주요 포인트

  • 목적성 중시: 데이터 양이나 신뢰성만큼 중요한 것이 '무엇을 위해 데이터를 쓰는가'라는 목적성입니다.
  • DIKW 피라미드 활용: 단순 데이터가 정보, 지식, 지혜로 단계적으로 가공될 수 있는지 확인해야 합니다.
  • 종속 변수의 존재: 머신러닝 분석을 위해서는 예측하고자 하는 대상인 '종속 변수'가 데이터 내에 명확히 존재해야 합니다.
  • 분석가 역량의 영향: 같은 데이터라도 분석가의 역량에 따라 이끌어낼 수 있는 정보의 양과 질이 달라집니다.

 


핵심개념

  • 양질의 데이터: 상황과 분석 목적에 따라 가치가 변하는 상대적 개념입니다.
  • 데이터 목적 적합성: 분석 시나리오에 필요한 정보가 실제 데이터 속에 포함되어 있는지 여부입니다.
  • 분석 방법론과 데이터 구조: 머신러닝(예측형)인지, 단순 인사이트 도출(통계형)인지에 따라 최적의 데이터 형태가 다릅니다.

 


용어정리

DIKW 피라미드
  • 데이터(Data), 정보(Information), 지식(Knowledge), 지혜(Wisdom)의 계층 구조로, 상위로 갈수록 가치가 높아짐을 의미합니다
종속변수
(Dependent Variable)


  • 머신러닝에서 모델이 예측하고자 하는 '결과값' 혹은 '정답' 데이터를 말합니다.
인사이트
(insight)

  • 데이터 분석을 통해 발견한 단순 사실을 넘어, 의사결정에 도움을 주는 깊이 있는 통찰을 의미합니다.

 


+ 실무 적용 사례

● 실무 적용
데이터 수집 전 목적 설정: "특정 암세포의 사멸률을 예측하겠다"는 명확한 목적을 먼저 세우고, 이에 필요한 변수(세포 종류, 약물 농도 등)가 포함된 실험 데이터만을 선별하여 수집 효율을 높입니다.
종속 변수 관리: 실험실에서 생성되는 데이터에 반드시 '효능 여부'나 '독성 수치' 같은 정답값(종속 변수)을 체계적으로 기록하여 향후 AI 모델 학습이 즉시 가능하도록 데이터 구조를 설계합니다.
가공 데이터 활용: 원천 시퀀스 데이터(DNA 등)를 그대로 쓰기보다, 도메인 지식을 활용해 특정 지표(Index)로 가공하여 분석 모델의 정확도를 높이는 전략을 취합니다.

● 관련 사례
신약 후보 물질 탐색: 수만 개의 화학 화합물 데이터가 있어도, 우리가 찾고자 하는 특정 질병(예: 알츠하이머)에 대한 효능 결과(종속 변수)가 기록되어 있지 않다면 신약 개발 AI 학습에는 '저품질' 데이터가 됩니다.
임상 시험 데이터: 환자의 혈압, 혈당 데이터가 아무리 많아도 특정 약물 투여와의 인과관계(목적성)가 명확히 라벨링 되어 있지 않으면 임상 성공 여부를 예측하는 모델을 만들 수 없습니다.