亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

ETL入門

標簽:
大數據

1.数据仓库与数据集市

       数据仓库是单一的,大量(历史性)数据的存储仓库,可用来支持企业决策。因此,它所涉及的数据涵盖了各种主题和各种业务领域,例如金融、物流、市场营销和客户支持。通常,一个数据仓库是不能被终端用户工具直接访问的。
       相反,一个数据集市可以由终端用户直接访问,并且是以特定的数据分析为目的的,例如零售或客户来电。

2.ETL、ELT和EII

       下图为一个典型的数据仓库架构:


webp

image.png

  • ETL是指从一个或多个数据源抽取数据,经过一个或多个转换步骤后,物理地存储到目标环境中,目标环境通常是数据仓库。

  • ELT同ETL在数据整合方法上略微不同。在ELT情况下,数据首先从源数据进行抽取、加载到目标数据库中,再转换为所需的格式。所有大数据量处理全部放在目标数据库中进行。

  • EII:虚拟数据整合,ETL和ELT都是以武力方式将数据从OLTP移动或复制到数据仓库。除了物理数据集成方式,还有虚拟数据集成方式也可以满足用户访问数据的要求。这种虚拟数据集成方式就是企业信息集成,也就是EII。这种方法的主要优点是数据永远都是最新的,以及不需要额外的存储层,没有冗余数据。以下为物理与虚拟方案的比较:


    webp

    image.png

3.增量数据捕获CDC

       辨别出哪些数据发生变化,并抽取那些自上次抽取后发生变化的数据的过程称为增量数据捕获,也叫CDC。
       在CDC处理方式上有两种基本分类,侵入式和非侵入式。侵入式是指CDC操作会对源系统有一定性能影响。不论以何种方式,只要对源系统执行了SQL语句,就是侵入式的。大部分的CDC方法都是侵入式的,只有一种不是。



作者:阿猫阿狗Hakuna
链接:https://www.jianshu.com/p/85ac22822ea2


點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消