介绍

已完成

许多组织如今都使用 大数据。 大量的数据和各种数据以及数据生成速度需要有一个系统来帮助你管理和控制它。 过去,组织使用关系数据库管理系统来控制数据。 但是,组织现在希望开源软件的功能与托管平台的优势相结合。 Azure HDInsight 是此合作关系的完美示例。 HDInsight 允许使用历史或实时数据处理许多方案中的大数据。

下图描述了如何使用 HDInsight 的概述。 它描绘了多个数据源,包括物联网(IoT)传感器、数据库和多个 Azure 数据存储。 HDInsight 处理来自这些位置的数据。 然后,它将这些数据保存在长期存储中,以用于实时应用和其他分析。

典型组织中的 HDInsight 体系结构示意图,描绘了它管理大数据的多个数据源。

示例方案

假设你就职于一个负责构建引入数据以用于历史报告和高级分析的工作负载的组织。 也许你还有需要分析的流数据。 在这种情况下,可能需要考虑使用 HDInsight。 它允许将所有数据引入到单个 Data Lake 位置。 然后,可以使用它来管理以下工作负载:

  • 批处理
  • 数据仓库
  • 数据科学操作
  • 流媒体

我们将做些什么?

在本模块结束时,你将能够评估 HDInsight 是否有助于组织处理大数据。 你还将能够描述 HDInsight 如何使用支持许多数据方案的常用开源框架。

主要目标是什么?

主要目标是确定 HDInsight 是否适合大数据处理要求。