新闻中心
大数据分析平台构建建议
导读:大数据分析平台,是企业用户在大数据环境下用于分析与决策的平台。
按技术架构划分,主要包含数据收集与存储、数据计算、数据分析与决策三个层级。从服务边界来看,大数据分析平台概念小于数据中台,强调平台的数据分析与决策能力,弱化了数据本身的规划、治理与服务;在OLAP之上,又融合了深度学习等技术,在提升数据分析深度和广度的同时,也极大增加了数据服务在业务侧的低门槛和友好性。
企业通过构建大数据分析平台,聚拢各业务系统数据,打通全渠道组织各业务维度,用数据分析驱动业务,满足企业级宽表实时分析、实时BI 报表分析、用户行为分析、自助分析、 AI 智能分析等全方位需求。
1. 整体思路:明确业务场景需求,基于数据体量选定平台框架和功能组件
在搭建大数据分析平台前,用户首先要明确自身的数据体量和业务场景需求,希望通过大数据分析平台得到哪些信息,需要接入哪些数据,进行哪些主题分析,最终实现哪些功能。
在明确大数据分析平台需要具备的基本功能后,再决定平台搭建过程中使用的大数据处理框架和工具,并将其有机结合以完成海量数据的挖掘和分析。
在构建大数据分析平台时,首先要建设企业的基础数据中心,构建统一的数据存储体系,统一数据建模。其次,集中组建数据处理中心,下沉数据处理能力,并通过统一的数据管理监控体系,保障平台系统的稳定运行。最后,构建数据应用中心,统一输出数据服务,满足业务需求,体现数据价值。
2. 能力建设:基于场景需求,选定分析指标,通过模型训练构建分析能力
大数据分析平台的部署方式主要分为本地化部署和云上部署。
本地化部署根据用户数据体量的大小,又可分为基于Hadoop 生态的平台搭建和“数据库+AP分析引擎”的数仓方案。本地化部署的优点是自主可控和灵活度高,缺点是性能调优和运维复杂,自身技术能力要求和综合成本高。
云上部署以公有云厂商提供的“低成本存储+弹性存算引擎”的数据湖方案为主,在保留HDFS 集群分布式存储可靠性和高吞吐能力的前提下,提供一站式云上 PaaS能力,实现各类数据快速便捷入湖,用户无需考虑兼容、安全、性能调优以及运维。
3. 架构选择:从离线、在线及实时场景出发,按需选择和组合分析架构
广义而言,大数据分析平台不再局限于产品态,更趋近于包含数据采集层、存储层、调度层、计算层、交互分析层、数据服务层等的集成态。
如果从技术架构的角度进行抽象,大数据分析平台的架构都可归属于Lambda 或 Kappa 架构。
若从场景角度进一步抽象,又可拆分为离线、在线以及实时分析架构。在自下而上分层的集成态中,三种分析架构的差异主要源于数据分析层中存算引擎的选用,以满足各自的分析场景。
从技术角度而言,数据分析层的部署最为复杂,但也最富于创新,既有云原生数据湖的存算分离与弹性扩缩容,也有本地化部署下,基于Docker技术的平台解耦,解决物理服务器资源供给弹性不足的问题,满足存算能力的横向扩展。
在落地实施时,用户的分析场景又趋于融合,既有 HTAP数仓方案的融合框架缩影,也有融合 AP 和 TP 场景的海量大数据分析平台,用户皆可按需选取。
4. 组件选择:采取自建方式部署,应着重关注分析层存算引擎的组合搭建
对于采取本地化部署的用户,按照数据量级大致可分两类:
其一,年新增数据量在100TB 级的传统行业头部用户,由于本地数据体量大,上云的带宽成本高,同时还可能受到合规监管的约束,多采用开源自建或采购商业版Hadoop 生态。
其二,年新增数据量在 TB级别以下的中小企业,选择抛开架构繁复的 Hadoop生态,自建“数据库+AP分析引擎”的数仓方案。自建大数据分析平台必然涉及组件选择,尤其是数据分析层的组件集成,直接影响场景支撑和效率提升。而在数据分析层的存算引擎中,存储引擎的选择显得格外重要。不难发现抛开计算引擎本身的性能,数据的宽表合并、CRUD、批量计算、实时流计算、即席查询等,都依赖大数据分析平台自身的存储引擎。
5. 技术趋势:打破传统架构下的技术异构,统一数据能力提升业务价值
传统 Hadoop 架构和以 MPP 为主的数仓架构都无法真正适应云平台。Hadoop将存储和计算部署在同一物理集群以拉近与数据的距离,仅在同一集群下实现了存算分离,而 MPP 数据库本身存算耦合。
传统架构下的湖仓分体引发数据孤岛的原因有三:第一,异构技术架构;第二,集群规模受限;第三,集群高并发受限。数据孤岛进而造成实施、运维和成本的问题。湖仓一体技术呼之欲出——在数据和查询层面形成一体化架构,解决实时性和并发度、集群规模受限、非结构化数据无法整合、建模路径冗长、数据一致性弱、 性能瓶颈等问题,降低数据管理门槛和运维成本。
从架构演进方向来看,国内以基于 Hadoop的改造方案为主,从事务特性出发进行优化,如 Hudi 和 Iceberg 等,基于 HDFS 或 S3实现支持事务的存储层,其他与 Hadoop 区别不大。另一方面,以 Snowflake为代表,基于多云的数仓架构方案在存算分离等方面的特性更具前瞻性,值得持续关注。
以上内容节选自《2022年中国大数据分析平台行业研究报告》,对报告感兴趣的小伙伴们,可点击阅读原文可下载报告。
如何为企业个性化打造高效、准确、敏捷的大数据实时分析平台成为了技术团队的挑战。电子书《大数据分析平台》收录了趣头条、网易、蚂蚁集团、爱奇艺、腾讯游戏、37手游等各大企业大数据分析平台的设计思路、技术架构演进以及业务应用实践。扫码回复“数据分析”,免费领取:
1.【电子书】数据分析之道
2.【电子书】大数据分析平台