这种方法是可能的,因为数据湖的硬件通常与数据仓库中使用的硬件非常不同。商品、现成服务器和便宜的存储相结合,使数据湖扩展到TB和PB相当经济。
数据湖方法包括这些非传统的数据类型。在数据湖中,无论源和结构如何,我们都保留所有数据。我们保持它的原始形式,只有当我们准备好使用它时,我们才会改变它。该方法被称为“读取模式”和数据仓库中使用的“写入模式”。
偶数湖仓一体化建设方法论不仅可以兼容传统数据仓库的实施方法,还可以避免过去数据湖着陆过程中的一些缺点;考虑到许多企业多年来建立数据平台的实际情况,吸收近年来数据相关技术快速变化和演变的前瞻性趋势。
我故意没有提到任何具体的技术。“数据湖”一词已成为Hadoop等大数据技术的代名词,而数据仓库仍与相关数据库平台保持一致。本文的目标是突出两种数据管理方法的差异,而不是强调一种特定的技术。但事实是,上述技术方法的一致性并非巧合。关系数据库技术是数据仓库应用的理想选择,因为它们在高速查询结构数据方面表现出色。
过去有湖泊和仓库,但现在湖泊的能力,如事务一致性、性能等,都在增强。仓库以前只能做结构化数据,现在慢慢整合流程处理的各个方面。
相比之下,数据湖保留了所有的数据。不仅是今天使用的数据,还有可能使用的数据,甚至是永远不会使用的数据。数据已经保存下来,以便我们能够及时回到任何一点进行分析。
集成:流式处理,批量数据处理,支持本地和云。 数据仓库:自治、自驾、自保、自修。 数据湖:基于对象存储的数据湖,与数据仓库集成。 分析:基于机器学习的分析和可视化;自动叙述。 数据科学:通用机器学习和数据库中的机器学习。
偶数湖仓一体化建设方法论不仅可以兼容传统数据仓库的实施方法,还可以避免过去数据湖着陆过程中的一些缺点;考虑到许多企业多年来建立数据平台的实际情况,吸收近年来数据相关技术快速变化和演变的前瞻性趋势。
当然,我们的数据和分析从业者都听说过这个词。当我们开始与客户讨论大数据解决方案时,对话自然会转向对数据湖的讨论。然而,我经常发现客户要么没有听说过这个词,要么没有很好地理解它的意思。
Oracle创建了现代数据仓库,提供广泛的服务,包括自动驾驶集成、数据仓库、数据湖、分析服务和数据科学。现代数据仓库简化了从数据摄入、转换到策展、发现和分析的整个数据生命周期。在现代数据仓库的帮助下,组织可以最大限度地提取数据的价值,更好地为今天的客户服务,为未来的商业创新奠定基础。
首先,打破信息岛。收集住房、城市管理、园林、公安、交通等部门数据,形成城市管理基础数据、综合评价、公共服务、网络舆论数据等15个专项数据库、700多个数据目录数据湖,支持外部数据共享服务、数据应用系统建设,指挥调度、决策分析。