当前位置: 首页 > 数据中台  > 数据中台

关于数据湖,在你的场景中,数据存储在对象存储中

由于数据湖支持非结构化和原始的数据,具有更有效的专业工具和技能,提供更大的勘探能力和灵活性,可以满足高级分析专业人员和数据科学家的需求。例如,StarRocks本地对数据湖的支持只涉及阅读,但在我们的场景中,有时通过运行etl任务生成数据并将其写入数据湖。

数据湖通常需要强大的交互能力来处理、分析和接收来自不同来源的数据。数据管道和集成框架通常用于简化数据湖环境中的提取、转换、消费和摄入。

由于数据湖支持非结构化和原始的数据,具有更有效的专业工具和技能,提供更大的勘探能力和灵活性,可以满足高级分析专业人员和数据科学家的需求。

在数据多样性方面,数据湖可以很容易地容纳不同类型的数据,如半结构化、结构化和非结构化。这些数据可以是原始格式,没有任何预定义的数据模型。例如:视频、文档、媒体流、表格数据等。

数据湖更灵活,因为它没有刚性的数据结构。数据科学家和开发人员可以无缝地配置、查询或建模,从而实现快速实验。

数据湖是处理来自不同来源的不同类型数据和机器学习和数据分析的好方案。数据湖可以存储大量的多源异构数据并进行分析,有利于预测模型、实时分析和数据挖掘。

数据分析与挖掘:适用于市场分析、用户行为分析、风险预测等数据科学家、分析师进行数据分析、挖掘与建模的场景 实时数据处理:实时监控、实时报警、实时推荐等支持实时数据处理和流式计算的应用场景 大数据应用:用于构建大规模、高性能的数据应用,如大数据仓库、数据湖、数据仓库等 智能应用:支持智能推荐、智能客户服务、智能风险控制等机器学习、人工智能等技术的应用场景

在数据成本方面,数据湖提供了一个更具成本效益的存储解决方案,因为它通常可以通过开源技术来实现。即使组织需要处理大量的数据,使用分布式存储基础设施也可以降低整体存储成本。

以下是后续计划。虽然我们对数据湖进行了一些优化,但仍有一些业务抱怨速度太慢,特别是对于一些活动数据的频繁查询,如游戏中的活动,我们可能会关注去年或去年的活动数据。因此,我们希望通过物化视图的能力暂时将这些数据缓存到本地。

在完成存算分离和数据分层的两个步骤中,我们实现了任务计算和存储的灵活性。然而,要更全面地利用它们,只有这两种灵活性是不够的,我们需要考虑更简单和更容易使用的方面。例如,StarRocks 本地对数据湖的支持只涉及阅读,但在我们的场景中,有时通过运行 etl 任务生成数据并将其写入数据湖。

除了计算部分,我们还需要解决存储的弹性需求。目前我们的 StarRocks 集群使用 SSD 存储,为了高可用性,我们所有的数据都存储了三份副本。然而,由于游戏周期长,古代的数据很少被访问,比如五年前或三年前的数据。在本地直接存储这些数据的成本非常高。为了解决这个问题,我们考虑将数据与数据湖相结合,并将数据存储到数据湖中。为此,我们提出了两种下沉到数据湖的方案:

随着大数据技术的发展,对安全的要求越来越高。一些增强的安全技术,包括访问控制、合规框架和加密,可以提高数据湖的安全性,降低未经授权访问的风险。

数据中台

Q2:关于数据湖,在你的场景中,数据存储在对象存储中。你能详细介绍一下“对象存储”在数据库中的优缺点吗?你和其他存储器比较过吗?

*以上内容来源于互联网,如不慎侵权,联系必删!

相关资讯

    暂无相关的数据...