⊙ 아티클 스터디
주제 : "양질의 데이터를 판별하는 5가지 방법 : ⑤ 목적에 적합한 데이터인가?"
( https://yozm.wishket.com/magazine/detail/1123/ )
요약
: 데이터의 품질은 절대적인 기준이 아니라 분석 및 활용 목적에 따라 결정되며, 목적에 맞는 유의미한 정보가 포함되어 있고 선택한 분석 방법론(머신러닝 등)에 적합한 구조를 갖춰야 양질의 데이터라 할 수 있습니다.
주요 포인트
- 목적성 중시: 데이터 양이나 신뢰성만큼 중요한 것이 '무엇을 위해 데이터를 쓰는가'라는 목적성입니다.
- DIKW 피라미드 활용: 단순 데이터가 정보, 지식, 지혜로 단계적으로 가공될 수 있는지 확인해야 합니다.
- 종속 변수의 존재: 머신러닝 분석을 위해서는 예측하고자 하는 대상인 '종속 변수'가 데이터 내에 명확히 존재해야 합니다.
- 분석가 역량의 영향: 같은 데이터라도 분석가의 역량에 따라 이끌어낼 수 있는 정보의 양과 질이 달라집니다.
핵심개념
- 양질의 데이터: 상황과 분석 목적에 따라 가치가 변하는 상대적 개념입니다.
- 데이터 목적 적합성: 분석 시나리오에 필요한 정보가 실제 데이터 속에 포함되어 있는지 여부입니다.
- 분석 방법론과 데이터 구조: 머신러닝(예측형)인지, 단순 인사이트 도출(통계형)인지에 따라 최적의 데이터 형태가 다릅니다.
용어정리
| DIKW 피라미드 |
|
| 종속변수 (Dependent Variable) |
|
| 인사이트 (insight) |
|
+ 실무 적용 사례
● 실무 적용
데이터 수집 전 목적 설정: "특정 암세포의 사멸률을 예측하겠다"는 명확한 목적을 먼저 세우고, 이에 필요한 변수(세포 종류, 약물 농도 등)가 포함된 실험 데이터만을 선별하여 수집 효율을 높입니다. 종속 변수 관리: 실험실에서 생성되는 데이터에 반드시 '효능 여부'나 '독성 수치' 같은 정답값(종속 변수)을 체계적으로 기록하여 향후 AI 모델 학습이 즉시 가능하도록 데이터 구조를 설계합니다. 가공 데이터 활용: 원천 시퀀스 데이터(DNA 등)를 그대로 쓰기보다, 도메인 지식을 활용해 특정 지표(Index)로 가공하여 분석 모델의 정확도를 높이는 전략을 취합니다.
● 관련 사례
신약 후보 물질 탐색: 수만 개의 화학 화합물 데이터가 있어도, 우리가 찾고자 하는 특정 질병(예: 알츠하이머)에 대한 효능 결과(종속 변수)가 기록되어 있지 않다면 신약 개발 AI 학습에는 '저품질' 데이터가 됩니다. 임상 시험 데이터: 환자의 혈압, 혈당 데이터가 아무리 많아도 특정 약물 투여와의 인과관계(목적성)가 명확히 라벨링 되어 있지 않으면 임상 성공 여부를 예측하는 모델을 만들 수 없습니다.