▷ 아티클 스터디

[내일배움캠프_QA/QC 5기] 39일차 _ 아티클 스터디 "기획자가 알아야 할 데이터 분석 도구와 활용"

qc-standard 2026. 4. 30. 10:11

⊙ 아티클 스터디

주제 "기획자가 알아야 할 데이터 분석 도구와 활용"
( https://yozm.wishket.com/magazine/detail/2141/ )

 

요약

: 데이터의 품질은 절대적인 기준이 아니라 분석 및 활용 목적에 따라 결정되며, 목적에 맞는 유의미한 정보가 포함되어 있고 선택한 분석 방법론(머신러닝 등)에 적합한 구조를 갖춰야 양질의 데이터라 할 수 있습니다

 


주요 포인트

  • 목적성 중시  : 데이터 양이나 신뢰성만큼 중요한 것이 '무엇을 위해 데이터를 쓰는가'라는 목적성
  • DIKW 피라미드 활용  :  단순 데이터가 정보, 지식, 지혜로 단계적으로 가공될 수 있는지 확인해야 함
  • 종속 변수의 존재   : 머신러닝 분석을 위해서는 예측하고자 하는 대상인 '종속 변수'가 데이터 내에 명확히 존재해야 
  • 분석가 역량의 영향   : 같은 데이터라도 분석가의 역량에 따라 이끌어낼 수 있는 정보의 양과 질이 달라집니다

핵심개념

    • 목적성 중시  : 데이터 양이나 신뢰성만큼 중요한 것이 '무엇을 위해 데이터를 쓰는가'라는 목적성
    • DIKW 피라미드 활용  :  단순 데이터가 정보, 지식, 지혜로 단계적으로 가공될 수 있는지 확인해야 함
    • 종속 변수의 존재   : 머신러닝 분석을 위해서는 예측하고자 하는 대상인 '종속 변수'가 데이터 내에 명확히 존재해야 
    • 분석가 역량의 영향   : 같은 데이터라도 분석가의 역량에 따라 이끌어낼 수 있는 정보의 양과 질이 달라집니다

용어정리

  • DIKW 피라미드  : 데이터(Data), 정보(Information), 지식(Knowledge), 지혜(Wisdom)의 계층 구조로, 상위로 갈수록 가치가 높아짐을 의미
  • 종속 변수(Dependent Variable)  : 머신러닝에서 모델이 예측하고자 하는 '결과값' 혹은 '정답' 데이터를 말합니다.
  • 인사이트(Insight)  : 데이터 분석을 통해 발견한 단순 사실을 넘어, 의사결정에 도움을 주는 깊이 있는 통찰을 의미

+ 실무 적용 - 사례

  • 신약 후보 물질 탐색
    :
    수만 개의 화학 화합물 데이터가 있어도, 우리가 찾고자 하는 특정 질병(예: 알츠하이머)에 대한 효능 결과(종속 변수)가 기록되어 있지 않다면 신약 개발 AI 학습에는 '저품질' 데이터가 됩니다
  • 임상 시험 데이터
    환자의 혈압, 혈당 데이터가 아무리 많아도 특정 약물 투여와의 인과관계(목적성)가 명확히 라벨링 되어 있지 않으면 임상 성공 여부를 예측하는 모델을 만들 수 없습니다