2018년 4월 5일 목요일

Data Integration

  • 의미: 다양한 데이터 소스의 데이터를 합치는 것
  • 데이터베이스를 합칠 때 Redundant data를 다루는 방법
    • 각 데이터베이스에 같은 attributes(or object)이지만 다른 이름으로 저장되어 있을 수 있음.
    • Derived data: 다른 데이터를 통해 구할 수 있는 데이터
      • ex. 연수입
    • Redundant attributes는 correlation analysis와 covariance analysis를 통해서 detect할 수 있음
      • ex. chi-square test, Pearson's product moment coefficient, Covariance
      • Pearson;s product-moment Coefficient
        • correaltion(linear dependence)를 측정하는 방법
        • 1과 -1 사이 값을 가짐
        •  

댓글 없음:

댓글 쓰기