[返回科技频道首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
ELT 还是 ETL 区别和适应场景介绍
送交者: 太湖清奇[☆★★GPT的行动人★★☆] 于 2022-02-23 13:25 已读 4510 次 1 赞  

太湖清奇的个人频道

在查看 ETL 与 ELT 时,重要的是要考虑关键差异和针对数据需求的特定用例。ETL(提取、转换、加载)和 ELT(提取、加载、转换)都是将数据从源传输到数据仓库的数据集成方法。尽管有相似之处,但 ETL 和 ELT 在基本方面有所不同。这是 ETL 和 ELT(ETL 与 ELT)的快速比较。 6park.com

   什么是 ETL(提取、转换、加载)?
6park.com

提取、转换和加载 (ETL) 是一种数据集成方法,它从源中提取原始数据,在二级处理服务器上转换数据,然后将数据加载到目标数据库中。 6park.com

当必须转换数据以符合目标数据库的数据制度时,使用 ETL。该方法出现于 1970 年代,并且在拥有有限内存和处理能力的本地数据库中仍然很流行。 6park.com

考虑一个实际的 ETL 示例。在线分析处理 (OLAP)数据仓库仅接受基于关系 SQL 的数据结构。 6park.com

对于这种数据仓库,ETL 等协议通过将提取的数据路由到处理服务器,然后将不符合要求的数据转换为基于 SQL 的数据来确保合规性。 6park.com

提取的数据只有在成功转换后才会从处理服务器移动到数据仓库。 6park.com

  6park.com

什么是 ELT(提取、加载、转换)?
6park.com

与 ETL 不同,提取、加载和转换 (ELT) 不需要在加载过程之前进行数据转换。 6park.com

ELT 将原始数据直接加载到目标数据仓库,而不是将其移动到处理服务器进行转换。 6park.com

使用 ELT,数据清理、扩充和转换都发生在数据仓库本身内部。原始数据无限期地存储在数据仓库中,允许进行多次转换。 6park.com

ELT 是一项相对较新的发展,可扩展的基于云的数据仓库的发明使之成为可能。 6park.com

Snowflake、Amazon Redshift、Google BigQuery和Microsoft Azure等云数据仓库在存储和处理能力方面都拥有数字基础设施,以促进原始数据存储库和应用内转换。 6park.com

尽管 ELT 并未普遍使用,但随着公司采用云基础架构,该方法正变得越来越流行。 6park.com

  6park.com

ETL 与 ELT:ETL 与 ELT 流程有何不同?ETL 和 ELT 在两个主要方面有所不同。一个区别是数据在哪里转换,另一个区别是数据仓库如何保留数据。 6park.com

ETL 在单独的处理服务器上转换数据,而 ELT 在数据仓库本身内转换数据。ETL 不将原始数据传输到数据仓库,而 ELT 将原始数据直接发送到数据仓库。对于 ETL,通过在加载过程之前在单独的服务器上转换数据,数据摄取过程会变慢。 6park.com

相比之下,ELT 提供更快的数据摄取,因为数据不会发送到辅助服务器进行重组。事实上,使用 ELT,可以同时加载和转换数据。 6park.com

ELT 的原始数据保留为生成商业智能创建了丰富的历史档案。随着目标和策略的变化,BI 团队可以重新查询原始数据,以使用综合数据集开发新的转换。另一方面,ETL 不会生成可无限查询的完整原始数据集。 6park.com

这些因素使 ELT 更加灵活、高效和可扩展,特别是在摄取大量数据、处理包含结构化和非结构化数据的数据集以及开发多样化的商业智能方面。 6park.com

另一方面,ETL 非常适合计算密集型转换、具有遗留架构的系统或需要在进入目标系统之前进行操作的数据工作流,例如擦除个人识别信息 (PII)。 6park.com

 

ETL 与 ELT:并排比较

6park.com

类别 ETL ELT
定义 数据从源系统中提取,在辅助处理服务器上进行转换,然后加载到目标系统中。  数据从源系统中提取,加载到目标系统,并在目标系统内部进行转换。 

提炼

使用 API 连接器提取原始数据。 使用 API 连接器提取原始数据。

转变

原始数据在处理服务器上进行转换。 原始数据在目标系统内部进行转换。 

加载

转换后的数据被加载到目标系统中。 原始数据直接加载到目标系统中。
速度 ETL 是一个耗时的过程;数据在加载到目标系统之前进行转换。  相比之下,ELT 更快;数据直接加载到目标系统中,并进行并行转换。

基于代码的转换

在辅助服务器上执行。最适合计算密集型转换和预清理。  在数据库中执行的转换;同时加载和转换;速度和效率。
到期 现代 ETL 已经存在了 20 多年;它的做法和协议是众所周知的并有记录的。 ELT 是一种较新的数据集成形式;更少的文档和经验。 
隐私 预加载转换可以消除 PII(对 HIPPA 有帮助)。 直接加载数据需要更多的隐私保护。
维护 二次处理服务器增加了维护负担。 使用更少的系统,减少了维护负担。

费用

单独的服务器会产生成本问题。 简化的数据堆栈成本更低。
请求 数据在进入目标系统之前进行转换;因此无法查询原始数据。 原始数据直接加载到目标系统中,并且可以无休止地被请求。
数据湖兼容性  不,ETL 不具备数据湖兼容性。  是的,ELT 确实具有数据湖兼容性。 
数据输出 结构化(通常)。 结构化、半结构化、非结构化。
数据量  非常适合具有复杂转换要求的小型数据集。  非常适合需要速度和效率的大型数据集。
6park.com

  简史:ETL 和 ELT 流程如今,各个领域的企业都需要数据集成来集中、访问和激活其组织中的数据。企业必须利用数十个或数百个不同的数据源,跨越国家、大洲和团队,在数据驱动的经济中取得成果。在这个复杂、支离破碎的环境中,将多个数据源组合成一个统一的视图从未如此重要。但这个挑战并不是什么新鲜事。自数字时代开始以来,数据集成一直困扰着组织。 6park.com

现代计算机时代的第一批发明为数据集成的独特功能奠定了基础。在 1960 年代后期,磁盘存储取代了穿孔卡片,从而可以直接访问数据。不久之后,IBM 和其他公司率先推出了第一个数据库管理系统 (DBMS)。这些进步很快导致了计算机之间的数据共享。几乎立即,将数据和数据源与外部机器集成的繁琐过程成为一项挑战。 6park.com

ETL 是第一个促进数据集成的标准化方法,出现在 1970 年代。随着企业业务采用多管齐下的计算机系统和异构数据源,ETL 逐渐受到重视。这些企业需要一种方法来汇总和集中来自交易、工资系统、库存日志和其他企业资源规划 (ERP) 数据的数据。 6park.com

随着 1980 年代数据仓库的兴起,ETL 变得更加重要。数据仓库可以集成来自各种来源的数据,但通常需要为每个数据源定制 ETL。这导致了 ETL 工具的爆炸式增长。到 1990 年代末,这些解决方案中的许多最终成为中型市场企业负担得起且可扩展的,而不仅仅是大型企业。 6park.com

随着 2000 年代云计算的出现,云数据湖和数据仓库引发了新的演变:ELT。借助 ELT,企业可以将无限的原始数据直接加载到云 DWH 中。工程师和分析师可以直接在云数据仓库本身内部对这些原始数据执行无限数量的 SQL 查询。企业第一次可以释放大数据一直承诺的分析火力和效率。结合可视化工具和云 DWH,ELT 开创了分析和数据驱动决策的新时代。  6park.com

哪个更好:ETL 还是 ELT?云数据仓库为数据集成带来了新的前沿,但在 ETL 和 ELT 之间进行选择取决于团队的需求。 6park.com

尽管ELT提供了令人兴奋的新优势,但一些团队将继续使用 ETL,因为该方法对他们的特定部署有意义,无论是否遗留基础设施。 6park.com

无论选择何种选择,各个领域的数据团队都在通过利用数据集成平台来成功实施他们的集成战略。


贴主:太湖清奇于2022_02_23 13:28:27编辑

评分完成:已经给本帖加上 20 银元!

喜欢太湖清奇朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ 太湖清奇的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回科技频道首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


用户名:密码:[--注册ID--]

标 题:

粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


     图片上传  Youtube代码器  预览辅助

打开微信,扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐:

>>>>查看更多楼主社区动态...






[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]