新闻中心

大数据分析平台架构探讨

2023-03-10
浏览次数:
返回列表

大数据分析平台,是企业用户在大数据环境下用于分析与决策的平台。按技术架构划分,主要包含数据收集与存储、数据 计算、数据分析与决策三个层级。从服务边界来看,大数据分析平台概念小于数据中台,强调平台的数据分析与决策能力, 弱化了数据本身的规划、治理与服务;在 OLAP 之上,又融合了深度学习等技术,在提升数据分析深度和广度的同时,也极大增加了数据服务在业务侧的低门槛和友好性。企业通过构建大数据分析平台,聚拢各业务系统数据,打通全渠道组织 各业务维度,用数据分析驱动业务,满足企业级宽表实时分析、实时 BI 报表分析、用户行为分析、自助分析、 AI智能分析等全方位需求。

一、整体思路

明确业务场景需求,基于数据体量选定平台框架和功能组件。在搭建大数据分析平台前,用户首先要明确自身的数据体量和业务场景需求,希望通过大数据分析平台得到哪些信息,需要接入哪些数据,进行哪些主题分析,最终实现哪些功能。在明确大数据分析平台需要具备的基本功能后,再决定平台搭建过程中使用的大数据处理框架和工具,并将其有机结合以完成海量数据的挖掘和分析。在构建大数据分析平台时,首先要建设企业的基础数据中心,构建统一的数据存储体系,统一数据建模。其次,集中组建数据处理中心,下沉数据处理能力,并通过统一的数据管理监控体系,保障平台系统的稳定运行。最后,构建数据应用中心,统一输出数据服务,满足业务需求,体现数据价值。

图片来源:艾瑞咨询

二、能力建设

基于场景需求,选定分析指标,通过模型训练构建分析能力。大数据分析平台的建设核心是分析能力的建设。不论用户采用何种部署方式,数据分析能力的建设都万变不离其宗。

首先,根据业务场景需求选定指标进行建模,重点建设数据构造、合并和统计处理的运算能力。接着进行模型训练,从大量有噪声的、不完全的、模糊和随机的数据中挖掘多源多维数据间的关联性。通过多维分析数据,加深对数据的理解,提取可能对业务结果相关的影响因子,探索数据的内在规律特征,并寻找模型最佳参数,支撑分析模型对业务的定量和定性分析。 在完成指标建模、模型训练后,对满足业务分析需求的模型进行部署调试,形成可被调用的服务能力,为其它业务系统、 模型提供数据分析能力。此外,大数据分析平台应具备基础框架功能,支持多厂家、多技术类型模型导入,提供对应功能 和工作流程设计,保障分析能力实施落地。

图片来源:艾瑞咨询

三、部署方式

依据行业特征、数据体量以及场景需要自由选择部署方式。大数据分析平台的部署方式主要分为本地化部署和云上部署。本地化部署根据用户数据体量的大小,又可分为基于

Hadoop生态的平台搭建和“数据库+AP分析引擎”的数仓方案。本地化部署的优点是自主可控和灵活度高,缺点是性能调优和运维复杂,自身技术能力要求和综合成本高。云上部署以公有云厂商提供的“低成本存储+弹性存算引擎”的数据湖方案为主,在保留HDFS集群分布式存储可靠性和高吞吐能力的前提下,提供一站式云上PaaS能力,实现各类数据快速便捷入湖,用户无需考虑兼容、安全、性能调优以及运维。尽管国内主流数据湖方案的底层存储系统仍以Hadoop 的分布式架构构建为主,但架构上层拥有的读写优化、内存加速、数据融合等特性是云原生数据湖融合第三方开源组件的价值体现,是本地化部署的Hadoop方案所不具备的。

图片来源:艾瑞咨询

四、架构选择

从离线、在线及实时场景出发,按需选择和组合分析架构。广义而言,大数据分析平台不再局限于产品态,更趋近于包含数据采集层、存储层、调度层、计算层、交互分析层、数据服务层等的集成态。

如果从技术架构的角度进行抽象,大数据分析平台的架构都可归属于Lambda或Kappa架构。若从场景角度进一步抽象,又可拆分为离线、在线以及实时分析架构。在自下而上分层的集成态中,三种分析架构的差异主要源于数据分析层中存算引擎的选用,以满足各自的分析场景。从技术角度而言,数据分析层的部署最为复杂,但也最富于创新,既有云原生数据湖的存算分离与弹性扩缩容,也有本地化部署下,基于Docker技术的平台解耦,解决物理服务器资源供给弹性不足的问题,满足存算能力的横向扩展。在落地实施时,用户的分析场景又趋于融合,既有HTAP数仓方案的融合框架缩影,也有融合AP和TP场景的海量大数据分析平台,用户皆可按需选取。

图片来源:艾瑞咨询

五、组件选择

采取自建方式部署,应着重关注分析层存算引擎的组合搭建。对于采取本地化部署的用户,按照数据量级大致可分两类:其一,年新增数据量在100TB级的传统行业头部用户,由于本地数据体量大,上云的带宽成本高,同时还可能受到合规监管的约束,多采用开源自建或采购商业版Hadoop生态。 其二,年新增数据量在TB级别以下的中小企业,选择抛开架构繁复的Hadoop生态,自建“数据库+AP分析引擎”的数仓方案。自建大数据分析平台必然涉及组件选择,尤其是数据分析层的组件集成,直接影响场景支撑和效率提升。而在数据分析层的存算引擎中,存储引擎的选择显得格外重要。不难发现抛开计算引擎本身的性能,数据的宽表合并、CRUD、批量计算、实时流计算、即席查询等,都依赖大数据分析平台自身的存储引擎。

图片来源:艾瑞咨询

六、技术趋势

打破传统架构下的技术异构,统一数据能力提升业务价值。传统Hadoop架构和以MPP 为主的数仓架构都无法真正适应云平台。Hadoop将存储和计算部署在同一物理集群以拉近与数据的距离,仅在同一集群下实现了存算分离,而MPP 数据库本身存算耦合。

传统架构下的湖仓分体引发数据孤岛的原因有三:第一,异构技术架构;第二,集群规模受限;第三,集群高并发受限。数据孤岛进而造成实施、运维和成本的问题。

湖仓一体技术呼之欲出——在数据和查询层面形成一体化架构,解决实时性和并发度、集群规模受限、非结构化数据无法整合、建模路径冗长、数据一致性弱、性能瓶颈等问题,降低数据管理门槛和运维成本。从架构演进方向来看,国内以基于Hadoop的改造方案为主,从事务特性出发进行优化,如Hudi和Iceberg等,基于HDFS或S3实现支持事务的存储层,其他与Hadoop区别不大。另一方面,以Snowflake为代表,基于多云的数仓架构方案在存算分离等方面的特性更具前瞻性,值得持续关注。

图片来源:艾瑞咨询

说明:本文根据艾瑞咨询《中国大数据分析平台行业研究报告》编写

搜索