合 数据湖面试题
Tags: 面试笔试云数据湖Delta lakes lakehouses
- 数据湖面试介绍
- 1. 为什么我们需要数据湖?
- 2. 数据湖与数据仓库有何不同?
- 3. 使用数据湖有什么好处?
- 4. 为什么大型科技公司使用和投资数据湖?
- 5. 数据湖如何用于数据和分析?
- 6. 数据湖的元数据应该存储在哪里?
- 7. Data Lakehouse 与 Data Lake 的区别是什么?
- 8. 我们可以在云上部署和运行数据湖吗?
- 9. 数据湖有哪些不同类型的元数据?
- 10. 为什么数据治理很重要?
- 11. 数据湖的挑战是什么?
- 12. 数据湖的安全和隐私合规要求是什么?
- 数据湖面试结论
- Delta lakes lakehouses介绍
- 常见面试问题
- Q1。为什么选择 Lakehouse 而不是数据湖?
- Q2。湖屋有哪些不同的层次?
- Q3。什么是增量格式?
- Q4。什么是三角湖交易?
- Q5。Delta Lake 支持 upserts 吗?
- Q6。delta Lake 如何提供容错能力?
- 问题 7。Delta Lake 的约束是什么?
- Q8。什么是湖屋的三角洲时间旅行?
- 问题 9。什么是自动加载器?
- 问题 10。您如何解决 delta Lake 中的小文件问题和偏斜问题?
- 奖金问题
- 1. 什么是真空?
- 2. 什么是 ZORDER?
- 3. 如何回滚或恢复数据?
- 4. 什么是试运行?
- Delta Lake 结论
- 参考
数据湖面试介绍
数据湖是用于存储、处理和保护大量结构化、半结构化和非结构化数据的集中存储库。它可以以其本机格式存储数据并处理任何类型与大小的数据。数据湖是数据工程和数据库管理系统中的一个重要概念,也是面试问题的重要主题。希望在一个位置存储所有数据以便于访问和分析的组织经常使用数据湖。
数据湖是一个可扩展且安全的平台,使企业能够以任何速度从任何系统中获取任何数据——即使数据来自本地、云端或边缘计算系统;完全保真存储任何类型或数量的数据;以实时或批处理模式处理数据;并使用 SQL、Python、R 等分析数据。
1. 为什么我们需要数据湖?
数据通常以原始形式保存,无需先进行微调或结构化。然后可以针对预期目的对其进行清理和优化:交互式分析、下游机器学习或分析应用程序的仪表板。最后,数据湖基础设施为用户和开发人员提供了对孤立信息的自助访问。它还允许您的数据团队在相同的信息上进行协作,然后可以为适当的团队或运营管理和保护这些信息。它现在是企业迁移到现代数据平台以扩展其数据操作和机器学习计划的关键组件。因此,数据湖很重要。
2. 数据湖与数据仓库有何不同?
虽然数据湖和仓库存储数据,但它们针对不同的目的进行了优化。考虑它们是互补的而不是竞争的工具,因为企业可能需要两者。另一方面,数据仓库通常是业务实践中常见的可重复报告和分析的理想选择,例如月度销售报告、按区域进行的销售跟踪或网站流量。
3. 使用数据湖有什么好处?
数据湖是存储大量数据的一种经济高效且可扩展的方式。数据湖还可以为分析和决策提供数据访问。
4. 为什么大型科技公司使用和投资数据湖?
数据湖是一种大数据技术,允许企业集中存储大量数据。然后,公司内的各个部门都可以访问和分析这些数据,从而可以做出更好的决策并更全面地了解公司的数据。
5. 数据湖如何用于数据和分析?
数据湖是任何组织数据战略的关键组成部分。数据湖使来自各种来源的组织数据可供最终用户使用,例如业务分析师、数据工程师、数据科学家、产品经理、高管等。反过来,这些角色使用数据洞察力来经济高效地提高业务绩效。事实上,许多类型的高级分析目前只能在数据湖中进行。
6. 数据湖的元数据应该存储在哪里?
数据湖的元数据应该集中保存,所有用户都可以轻松访问。这确保了每个人都可以在需要时找到和使用元数据。
7. Data Lakehouse 与 Data Lake 的区别是什么?
数据湖是几乎所有原始数据的中央存储库。结构化、非结构化和半结构化数据都可以在被处理以进行验证、排序、汇总、聚合、分析、报告或分类之前快速转储到数据湖中。
数据湖房屋是一种较新的数据管理架构,它将数据湖的灵活性、开放格式和成本效益与数据仓库的可访问性、管理和高级分析支持相结合。
Lakehouse 解决了将数据湖变成数据沼泽的基本问题。它包括 ACID 事务,以确保多方同时读取或写入数据时的一致性。它支持星形/雪花模式等 DW 模式架构,并直接在数据湖上提供强大的治理和审计机制。
8. 我们可以在云上部署和运行数据湖吗?
是的,可以在云中部署和运行数据湖。一种选择是使用基于云的数据管理平台,例如 Amazon Web Services (AWS) 数据管道。该平台可以收集、处理和存储来自各种来源的数据,包括本地和基于云的数据源。基于云的数据仓库(例如 Amazon Redshift)是在云中部署数据湖的另一种选择。该平台可以存储来自各种来源的数据,包括本地数据中心和基于云的数据源。
9. 数据湖有哪些不同类型的元数据?
一个数据湖可以包含三种类型的元数据:结构元数据、业务元数据和技术元数据。结构元数据描述数据的组织,业务元数据描述数据的含义,技术元数据描述数据的生成方式。
10. 为什么数据治理很重要?
确保数据准确、一致并符合组织标准和法规的过程称为数据治理。这很重要,因为它确保了数据的高质量并且可用于做出合理的决策。
11. 数据湖的挑战是什么?
数据治理、质量和安全性是与实施数据湖解决方案相关的主要挑战。数据治理可确保数据湖中的数据准确、一致且符合适用法规。数据质量是确保数据干净且可用于其预期目的的过程。数据安全是保护数据免受未经授权的访问和滥用。
12. 数据湖的安全和隐私合规要求是什么?
在使用数据湖时,有多种方法可以确保符合安全和隐私要求。一种方法是加密存储在数据湖中的所有数据。另一种方法是使用基于角色的访问控制来限制谁可以访问哪些数据。最后,可以创建活动日志来跟踪访问数据的人员和时间。
数据湖面试结论
我们查看了一些重要的 Data Lake 面试问题和答案。这些将帮助您进行数据工程面试。使用数据湖,数据科学家可以更快、更准确地访问、准备和分析数据。这个庞大的数据池以各种非传统格式提供,使分析专家能够访问用于各种用例的数据,例如情绪分析或欺诈检测。
关键要点
- 商业智能用户对数据湖感到兴奋,因为它们能够处理速度和多样性。现在有可能将处理过的数据与互联网上可用的主观数据相结合。
- 数据湖在高级预测分析应用程序和定期组织报告中很有用,尤其是在涉及多种数据格式时。
- 数据湖最严重的风险是缺乏安全性和访问控制。由于某些数据可能具有隐私和监管影响,因此可以将数据放置在湖中而无需任何监督。
数据湖在现代数据架构中非常重要,我们研究了一些数据湖面试问题。
Delta lakes lakehouses介绍
由于支持 ACID 事务和开箱即用的功能,Delta lakes lakehouses 受到了极大的欢迎。Databricks最近开源了 deltalake.io。组织正在将 Delta Lake 集成到他们的数据堆栈中,以获得 Delta Lake 提供的所有好处。
随着对数据工程角色的需求不断增加,与市场保持同步是至关重要的,即使不是强制性的。
让我们直接进入它并加强我们对 Delta Lake 的了解。
常见面试问题
Q1。为什么选择 Lakehouse 而不是数据湖?
Delta Lake 是数据湖和数据仓库的混合体,采用 Delta Lake 的 Lakehouse 将提供两全其美的效果。利用 delta Lake 的优势来存储具有 ACID 事务的非结构化数据、为 BI 操作提供服务以及在数据上训练 ML 模型是很有效的。
Delta Lake 为处理流数据、机器学习模型、数据质量、治理和可扩展性提供了多种支持功能。
Q2。湖屋有哪些不同的层次?
Deltalake支持多个不同名称的层——“Delta”、“multi-hop”、“medallion”和“bronze/silver/gold”层。
青铜/原始层:这是上游数据源摄取原始数据的对接层。
青铜层用于存储到达时的原始文件或数据。该层是下游银层的源层。
Silver / Aggregate Layer:这是发生 ETL 和聚合的中心层。
银层是我们执行数据质量检查、治理、连接和聚合的地方。
黄金/业务层:这是发生业务级用例特定聚合的最后一层。
黄金层是仪表板、分析和 BI 任务的来源。
Q3。什么是增量格式?
Delta格式是数据砖从parquet数据格式衍生出来的独家开源产品。
1 | delta_format = spark.read.format("delta").load("path_to_file") |