etl 예제

    대규모 조직은 항상 다른 종류의 공급업체에 서로 다른 응용 프로그램 개발을 제공합니다. 단일 공급업체가 모든 것을 관리하는 것은 아닙니다. 한 회사에서 청구를 관리하고 CRM이 다른 회사에서 관리하는 통신 프로젝트를 예로 들 수 있습니다. CRM 회사에 청구를 관리하는 회사의 일부 데이터가 필요한 경우 해당 회사는 다른 회사로부터 데이터 피드를 받게 됩니다. 피드 ETL 프로세스에서 데이터를 로드하는 것이 사용됩니다. 데이터 유효성 검사 – 자동화된 프로세스는 소스에서 가져온 데이터가 예상 값을 가지고 있는지 여부를 확인합니다(예: 지난 연도의 금융 거래 데이터베이스에서 날짜 필드에는 지난 12개월 이내에 유효한 날짜가 포함되어야 함). 유효성 검사 엔진은 유효성 검사 규칙에 실패하면 데이터를 거부합니다. 거부된 레코드를 지속적으로 분석하여 무엇이 잘못되었는지 식별하거나, 원본 데이터를 수정하거나, 추출을 수정하여 다음 일괄 처리에서 문제를 해결합니다. 예를 들어 : 배스킨 로빈스 (아이스크림 전문 점의 세계 최대 체인으로 유명)는 인도뿐만 아니라 전 세계에 많은 상점이 있습니다. 우리 지역에 배스킨 로빈스 상점이 있으며 고객 방문 및 제품 구매 내역을 절약하는 자체 시스템을 가지고 있다고 가정 해 봅시다. 따라서 이러한 데이터는 Excel에 저장되어야 합니다. 일주일에 한 번 이러한 모든 지역 데이터는 모든 작은 지역에 대한 데이터 웨어하우스가 없는 중앙 집중식 도시 데이터 센터에 수집되고 저장됩니다.

    이 모든 도시 데이터를 국가 데이터에 수집하고 저장해야 하는 것과 동일한 방식으로. ETL 정의에 따르면 광범위한 수크로 축적된 대규모 데이터 저장소는 데이터 War.ehouse라고 합니다. 이 프로세스는 데이터 웨어하우징에 널리 사용되어야 합니다. 이 것의 간단한 예는 쇼핑몰에서 판매 데이터를 관리. 사용자가 쇼핑몰의 현재 데이터뿐만 아니라 현재 데이터를 원하는 경우 첫 번째 단계는 항상 사용자가 ETL 프로세스를 따라야 합니다. 그런 다음 해당 데이터는 보고 목적으로 사용됩니다. 로드 단계는 데이터를 최종 대상에 로드하며, 이는 간단한 구분된 플랫 파일 또는 데이터 웨어하우스를 포함한 모든 데이터 저장소일 수 있습니다[6]. 조직의 요구 사항에 따라 이 프로세스는 매우 다양합니다.

    일부 데이터 웨어하우스는 누적 정보로 기존 정보를 덮어쓸 수 있습니다. 추출된 데이터는 매일, 매주 또는 매월 수행되는 경우가 많습니다. 다른 데이터 웨어하우스(또는 동일한 데이터 웨어하우스의 다른 부분)는 매시간 일정한 간격으로 기록 형식으로 새 데이터를 추가할 수 있습니다. 이를 이해하려면 작년의 판매 기록을 유지하는 데 필요한 데이터 웨어하우스를 고려하십시오. 이 데이터 웨어하우스는 1년 이상 된 모든 데이터를 최신 데이터로 덮어씁니다. 그러나 1년 동안의 데이터 입력은 기록적인 방식으로 이루어집니다. 교체 하거나 부속 하는 타이밍 및 범위는 사용 가능한 시간 및 비즈니스 요구에 따라 전략적 설계 선택. 보다 복잡한 시스템은 데이터 웨어하우스에 로드된 데이터에 대한 모든 변경 내용의 기록 및 감사 추적을 유지할 수 있습니다. [7] ETL 시스템은 일반적으로 여러 공급업체에서 개발 및 지원하거나 별도의 컴퓨터 하드웨어에서 호스팅되는 여러 응용 프로그램(시스템)의 데이터를 통합합니다. 원본 데이터가 포함된 별도의 시스템은 다른 직원이 자주 관리하고 운영합니다. 예를 들어 비용 회계 시스템은 급여, 판매 및 구매의 데이터를 결합할 수 있습니다.

    일반적으로 둘 이상의 데이터 원본이 웨어하우스에 로드되기 때문에 키를 해결해야 하는 중요한 문제입니다. 예를 들어, 고객은 사회 보장 번호를 한 원본의 기본 키로, 다른 소스의 전화 번호 및 세 번째 데이터 원본의 대리자로 여러 데이터 원본에 표시될 수 있습니다. 그러나 데이터 웨어하우스는 모든 고객 정보를 하나의 차원으로 통합해야 할 수 있습니다.