交易系统学习教程,交易师专业数据分析系统怎么登录

  

  

进入数据云

  

  

  进入数据云   

  

  本博客中的陈述和观点是我个人的,与雪花公司或其任何附属公司无关。   

  

  

是时候出售您的孤立数据架构了

  

  

  关于数据分析行业结构的辩论充满了错误信息复杂性.如果你曾经不得不决定你应该在你的技术栈中利用什么,那么你可能已经听到了软件供应商的建议。这通常是错误消息开始的地方,尤其是在数据管理架构方面。   

  

  数据仓库是一个流行的数据管理架构,有一个有趣的名声,因为有些人认为它是一个遗产。然而,数据仓库原理仍然被用来运行当今最成功的企业。数据仓库的争议性演变被确定为数据湖;这是因为随着数据的快速增长和新数据源的推出,数据分析行业需要一种有效的方法来处理大量的数据。   

  

  部署在孤立的本地数据中心的第一代数据湖没有满足数据分析行业的期望。它们很难建立、扩展和维护。随着云计算的引入,尤其是在云存储,数据湖得到了升级。它们现在非常具有可扩展性,并且是一种存储组织所有数据的廉价方式,无需管理物理基础设施。然而,他们仍然缺乏关键的数据仓库原则,如ACID合规性和分析能力,这使得他们很难获得用户所需的洞察力和价值。   

  

  雪花的联合创始人将云服务(如存储和计算)视为设计完全可扩展和灵活的数据管理平台的巨大机会,他们正是这样做的。起初,客户将雪花描述为云数据仓库、数据湖,甚至是数据湖库。但如果你是一个语义坚持者,雪花认为自己是数据云.这是因为雪花是一个数据平台,它连接了三个主要云平台(如AWS,Azure,GCP)的全球足迹,并处理比传统数据仓库和数据湖架构更多的工作负载。例如,您可以将雪花用于数据工程、数据科学、数据应用和跨云数据协作。   

  

  进入数据云   

  

  数据云不仅仅是数据仓库、数据湖或数据湖库的演变;这就是云的本意。是希望避免自然选择的数据驱动型组织的重要组成部分。   

  

  为了蓬勃发展,您的组织必须成为一个动态、互联的数据生态系统的一部分,该生态系统提供协作价值,同时保持高质量的治理和安全性。   

  

  到2026年,全球2000强企业平均30%的收入将来自行业生态系统与合作伙伴、行业实体和业务网络共享的数据、应用和运营计划。   

  

  IDC产业生态系统的未来   

  

  不要被那些试图给雪花分类的误传所宣传。如果有什么东西需要“出售”,那应该是你的隔离数据架构。   

  

  

管理云存储的复杂性

  

  

  云存储是现代数据湖的核心。您的组织可能很快就会发现,这可能会消耗大量的时间和资源。   

  

  自我管理数据湖会带来许多挑战.一是云存储本身不安全,缺乏时间点恢复;这意味着您将花费大量时间来处理繁琐的任务,例如加密数据、设置访问控制、添加治理策略以及为意外或恶意删除数据制定计划。另一个挑战是必须创建和管理元数据存储,以便有效地持久存储关系实体;这是在您必须生成文件和表格格式、设置重写数据文件以进行优化的过程等之后。   

  

  Snowflake 改进了数据湖,因为它允许客户跳过 处理和查询数据所需的保护、备份和优化文件的麻烦;并包括关键的现成治理和业务连续性功能。这是通过利用雪花的FDN表格格式来完成的,您可以像生成任何其他表格格式一样生成该表格。雪花管理和客户对FDN的抽象支持以下独特功能   

表格格式上推出改进,而不会导致重大更改或增加数据工程师和开发人员的复杂性。

利用 Snowflake 作为您的数据湖,您可以将客户放在您的时间中心,而不是徒劳的数据管理任务;这意味着有更多时间用于增值项目,例如数据应用程序开发、分析、机器学习和数据云中的协作。

如果您决定不将 Snowflake 用于您的数据湖,请务必明智地选择数据湖的表格格式。

明智地选择表格格式

开源与专有

使用专有的开放代码表格式(例如Delta )自我管理您的数据湖,提供类似于数据仓库的功能、模式演变和文件格式(例如 parquet)的性能提升。这构建了数据湖库的概念,但是,您没有获得像 Snowflake 这样的供应商管理的解决方案所获得的简单性、易用性、治理、连接性和其他有价值的功能(例如多表事务) . 基本上,一旦您手动完成了所有工作来设置您的数据管道,如果您想要优化查询,您就会陷入利用孤立的专有引擎的困境。你可以利用 Delta 的开源版本,但该版本缺乏许多功能,如模式演变支持、文件修剪和时间旅行,并且不容易使用查询引擎进行优化。

注意:很容易区分开放代码和开源项目。Open Code 几乎所有的提交都来自营利性软件供应商,并且开源项目拥有 来自许多不同公司的活跃的提交者社区。

开源表格式,例如Apache Iceberg,在自我管理的数据湖中越来越受欢迎。Iceberg 具有 Delta 的所有优点,但设计为与引擎无关,并且可以利用多种文件格式(例如 Parquet、Avro、ORC)。 重要的是,一旦您完成了设置数据湖的所有艰苦工作,您就不会被专有的表格格式所困。对于担心他们会通过使用开放表格式自行管理数据湖来孤立组织的客户,不必担心,Snowflake 正在研究 Iceberg 功能。

开放通常被理解为包含两个广泛的特征,开放标准和开源。在适当的情况下,这些特征可以提高技术系统用户的价值。然而,这些特征并非普遍积极或没有缺点。对于许多陷入假设开放是创新和成本效益同义词的陷阱的组织,他们经历了一个艰难的过程,事实并非如此

―明智地选择开放

结论

自我管理的云存储要求您的组织在数据管理任务上花费大量时间,类似于传统的本地架构。

如果您决定自行管理数据湖,请务必使用 parquet 等文件格式,如果需要,还可以使用 Iceberg 等开源表格格式。专有表格式(例如 FDN、Delta)非常强大,但前提是您的组织能够从中获得价值(例如完全托管、安全、易用)您不想要一种专有的表格格式,它让您完成所有工作,然后孤立您的组织。

Snowflake 可以让您放弃过去的数据管理任务,并将您带入一个充满活力的全球生态系统,该生态系统由各行各业的数千个组织安全协作。

考虑立即进入数据云

相关文章