티스토리 뷰

 
AI 기술이 빠르게 발전하면서 데이터를 활용한 의사결정, 자동화, 예측이 일상이 되었습니다. 하지만 신뢰할 수 있는 AI를 만들기 위해 반드시 함께 논의되어야 할 주제가 있습니다. 바로 데이터 리니지(Data Lineage)입니다.


 

🔍 데이터 리니지란?

데이터 리니지는 데이터가 어디에서 왔는지(출처), 어떤 과정을 거쳐(가공/변환), 어디에 쓰였는지를 추적할 수 있는 데이터의 계보입니다.
예를 들어, 보고서에 사용된 매출 수치가 어떤 원천 시스템에서 어떤 전처리를 거쳤는지 확인하는 것이 바로 리니지의 역할입니다.
 


 

🤖 AI 시대에 리니지가 중요한 이유

  • 설명 가능한 AI(Explainable AI)
    → 모델의 예측 결과를 해석하려면 사용된 데이터의 출처와 변환 과정을 알아야 합니다.
  • 품질 및 책임 추적(Traceability)
    → 데이터 오류나 모델 이상 발생 시, 원인을 빠르게 추적해 대응할 수 있습니다.
  • 재현성과 신뢰성 확보
    → 같은 모델을 동일한 조건에서 다시 학습시킬 수 있는 재현 가능성은 데이터 리니지 없이는 불가능합니다.

 


 

📈 리니지의 흐름 예시

[POS 시스템] → [원천 DB] → [ETL 파이프라인] → [데이터 웨어하우스] → [Feature Store] → [AI 모델] → [BI 리포트]

 
이 흐름 전체를 리니지가 추적하고 시각화하여 데이터 품질과 투명성을 보장합니다.
 
 

[관련 포스트]

[데이터 리니지] 2. 분석계 데이터가 많아질수록 데이터 리니지가 필요한 이유
[데이터 리니지] 3. 데이터 리니지, 어떻게 구성할까?

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2025/08   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함