大数据分析平台行业研究

来源：雪球App，作者：慕容衣，（https://xueqiu.com/4866021334/241279895）

大数据分析平台行业研究

行业界定：大数据分析平台逐渐由产品态转向集成态，行业边界模糊。在技术架构上，主要包含数据采集与存储、计算、分析与决策三个层级。

在OLAP之上融合了深度学习等技术，在提升数据分析深度和广度的同时，也极大增加了数据服务在业务侧的低门槛和友好性，满足用户运用数据分析驱动业务发展的需求。

市场情况：尽管行业边界泛化，市场参与者众多，但按照部署模式、架构分类及能力补给，可分为以下五类：

以云上数据湖方案为主的公有云厂商；以本地化大数据分析平台为主的传统软件服务商；提供轻量化数仓架构的数据库/数仓厂商；

为数据应用层提供服务能力的软件供应商；提升数据应用能力的人工智能厂商。行业市场整体呈现竞合状态。

架构选型：搭建平台前用户首先需要明确自身的数据体量和业务场景需求。在明确大数据分析平台需要具备的基本功能后，再决定平台搭建过程中使用的大数据处理框架和工具。

在分层架构中，数据分析层的组件选型和整体搭建十分关键，尤其是存储引擎的选型直接决定了离线、在线、实时三大场景的支撑和算力效率的高低。

趋势洞察：传统架构下的湖仓分体引发数据孤岛，造成实施、运维和成本问题。

湖仓一体架构在数据和查询层面形成一体化架构。突破实时性和并发度、集群规模受限、非结构化数据无法整合、建模路径冗长、数据一致性弱等瓶颈。

同时，平台融合AI 自主学习和自适应能力，增强用数人员的分析和决策能力。

行业界定

驱动业务的全场景数据分析平台，提供实时、多维的数据分析和智能决策

大数据分析平台，是企业用户在大数据环境下用于分析与决策的平台。按技术架构划分，主要包含数据收集与存储、数据计算、数据分析与决策三个层级。

从服务边界来看，大数据分析平台概念小于数据中台，强调平台的数据分析与决策能力，弱化了数据本身的规划、治理与服务。

在OLAP之上，又融合了深度学习等技术，在提升数据分析深度和广度的同时，也极大增加了数据服务在业务侧的低门槛和友好性。

企业通过构建大数据分析平台，聚拢各业务系统数据，打通全渠道组织各业务维度，用数据分析驱动业务，满足企业级宽表实时分析、实时BI 报表分析、用户行为分析、自助分析、 AI 智能分析等全方位需求。

技术沿革

平台技术架构持续更新迭代，由离线处理向实时分析演进

架构剖析

基于 Hadoop 分析架构的流程原理：

各类结构化数据通过采集管道进入Kafka，Spark 实时消费Kafka 的数据，写入集群内的 HDFS，RDS 数据库中的数据通过Spark 每天一次全量扫表同步至 HDFS。HDFS存储汇总用户数据，对数据库数据定期执行 snapshot。

基于 Hadoop 分析架构的优缺点：

优点：借助 Hadoop 集群的高并发能力，实现百 TB 到 PB级数据的离线计算和处理，同时数据存储在 HDFS 上，存储成本低。

缺点：数据定期入库，数据计算的时效性通常是T+1。

架构剖析

数据库结合 AP 分析引擎架构的流程原理：

将平台架构引入 TP 引擎结合 AP引擎实现实时分析平台，各类结构化数据同步至分析引擎后便可进行交互分析。

数据库结合 AP 分析引擎架构的优缺点：

优点：舍弃了传统离线大数据架构，实现实时批量计算，在GB 到100TB 级别的计算有了很大提升，BI 人员无需等待 T+1的离线计算后得到最终结果，大幅提升数据资产的商业价值。

缺点：在处理百 PB 级以上数据时，ClickHouse架构的扩展能力、复杂场景计算和存储成本相对 Hadoop 方案较弱。

平台技术架构持续更新迭代，产品在云上落地和升级

架构剖析

基于云上数据湖的分析架构的流程原理：

可理解为借助云原生存储引擎，基于传统Hadoop方案的云上落地和升级，保留自建 HDFS 集群的分布式存储可靠性和高吞吐能力，借助数据湖降低传统方案的运维和存储成本。

基于云上数据湖的分析架构的优缺点：

优点：对大数据平台的使用者做了区分和定义，针对不同的使用场景，数据的使用方式，分析复杂度和时效性也会有不同。

缺点：数据湖方案本身并没有解决传统方案的所有痛点。

架构剖析

基于云原生结构化存储引擎的分析架构的流程原理：

将类似第二阶段和第三阶段的融合，在线库和分析库隔离，不依赖在线库数据；全量数据支持高效批量计算，分析结果集支持即席查询，支持实时写入实时流计算。

基于云原生结构化存储引擎的分析架构的优点：

优点：在具备宽表合并高吞吐低成本存储的同时，可以提供TB级别数据即席查询和分析的能力，无需过度依赖额外的计算引擎，实现高效实时分析能力。

核心应用

流批一体：统一开发、统一计算、逻辑一致、降低成本

采用流计算+交互式分析双引擎架构，流计算负责基础数据，交互式分析引擎是中心，流计算引擎对数据进行实时ETL 工作，与离线相比，降低了 ETL 过程的 latency。

交互式分析引擎自带存储，通过计算存储的协同化，实现高写入TPS、高查询 QPS 和低查询 latency，从而做到全链路的实时化和 SQL化。

实现用批的方式做到实时分析和按需分析，并能快速响应业务变化，两者配合实现1+1>2的效果。

流批一体实现了建立一套统一的系统，由同一个开发团队开发，同时支持流式计算和批量计算，提供一致的编程环境，降低开发和运维成本，减少资源浪费，提高数据口径的一致性。

商业智能 BI：通过数据整合分析实现商业价值

商业智能（BI，Business Intelligence）是大数据分析最典型应用领域，是由数据库、数据仓库、数据湖、湖仓一体、ETL、OLAP、数据挖掘、机器学习和人工智能等技术组成的一套完整解决方案。

随着大数据处理技术的发展，商业智能的洞察和分析能力进一步提升，数据分析和可视化的门槛不断降低，企业实现不同层级的拖拽式自助分析和多种类型的图表展示。

在统一平台进行整合和共享，获得不同层级的数据洞察，最终用于商业决策。机器学习和人工智能在商业智能中扮演越来越重要的角色。

数据孪生与增强分析：释放数据潜力，加强数据价值转化

数据孪生：利用物理模型、传感器更新、运行历史数据，集成多学科、多物理量的仿真过程。

在虚拟空间中完成映射，在信息化平台创建虚拟的“数字孪生体”，融合多源异构数据，打通企业数据孤岛，让数据在业务侧发挥更大价值。

增强分析：2017年由 Gartner首次提出，并将其定义为下一代数据和分析范式，通过将机器学习和人工智能运用于现有的操作流程中，使数据管理和分析自动化，从而更有效地进行数据分析。

增强分析使更多的用户获得更深入的数据洞察，减少了当前依赖IT 处理所带来的效率问题和口径偏差。

产业链上中下游厂商与中游大数据分析厂商产品存在交叉

商业模式

主要包括一体化解决方案、产品服务和行业应用

中国大数据分析平台的商业模式大致可分为三类：解决方案，为企业搭建大数据分析系统，按照构建和部署大数据系统的费用+每年的维护/升级服务费用进行收取。

产品服务，产品化服务模式包括情报挖掘、舆情分析、销售追踪、精准营销、个性化推荐、可视化、网站/APP 分析工具等，订阅式的按需购买，按年/月收费，持续更新。

行业应用，大数据与传统行业碰撞形成的商业模式，利用大数据获得行业洞察，实现更多的收益。没有直接的变现，通过大数据技术深层挖掘价值，节约成本，优化行业模式。

玩家类型

行业边界泛化，市场参与者众多，服务类型多样

大数据分析平台逐渐从产品态向集成态发展，行业市场的参与者众多，服务类型丰富多样，行业边界趋于模糊，但也可大致分为以下几类：

公有云厂商借助云原生能力自然演进存算分离架构，提供方便接入各类数据、降低存储和运维成本的数据湖方案。

与云厂商以 PaaS形式提供服务不同，传统软件商提供以本地化部署为主的一体化大数据分析平台解决方案。

国产数据库/数据仓库厂商融合创新技术，自主研发存储和分析性能优异的产品和架构方案。

为大数据分析平台的应用层提供BI分析、用户画像、智能运营、可视化发布等能力的软件服务商，与前述市场参与者逐步建立起合作生态。

人工智能厂商提供的 AI能力让数据应用进一步延伸，让数据接入、清洗、存储、分析、训练到可视化输出的过程更加自动化，加强了场景需求与数据分析的自适应能力。

中外对比

国内外大数据分析平台产业探索方向及落地方式有所不同

国内外大数据分析平台的目标客户都主要锁定在特定行业、具有商业前景的企业，致力于为其提供成长初期缺乏的资源，实现商业价值快速增长。

虽然核心诉求一致，但受限于体制、经济与文化等差异，产品的探索方向及落地形式不尽相同。

国外产品更注重创客文化及高技术投资回报，倾向于以股票收获溢价作为主要的盈利方式，通过技术积累与项目展示收获口碑；

国内大数据分析平台紧密围绕政策导向和产业价值定位制定预期发展目标，通过打通产学研加速资源交换与聚焦，为企业获得收益，不断积累资源与品牌影响力形成雪球效应。

趋势一：架构演进

湖仓融合，发挥海量、多模、实时的数据处理能力

湖仓融合作为开放式的数据架构和管理模式，将数仓建于数据湖之上，融合二者优势，优化企业的基础技术栈。湖仓融合打通底层异构数据源/平台，支持多种数据类型并存，实现数据共享。

数据入湖后可直接加工处理，避免数据多份冗余和流动导致的算力、网络及成本开销。

相比传统数仓和数据湖方案，湖仓一体架构增强了实时业务处理以及非结构化数据的治理能力，优势突出体现于：完善的数据管理能力；丰富的计算引擎支持；更高的数据实时性；更高的开放性。

数据安全、访问控制以及数据探索等企业级系统不可或缺的功能都可在湖仓融合架构中部署、测试和管理。

趋势二：AI 融合

围绕 AI核心能力，增强人员分析和决策能力

大数据分析随着人工智能的发展而不断演进，多层面、多维度的提升了数据使用人员的分析与决策能力。

自新冠疫情爆发以来，企业业务环境发生了巨大变化，但从未削弱AI 和机器学习发挥的重要作用。

随着业务决策变得更具关联性、情境性和连续性，企业通过 AI工程编排和优化系统，来适应、抵御或吸收各种干扰因素，提升自适应的 AI能力，以迅速适应场景变化，提供更加快速灵活的决策。

自然语言处理（NLP）增强了计算机系统对自然语言的准确识别、分析和处理，让搜索式分析成为全新的可视化交互方式。

系统智能将自然语言结构的问题转化为SQL 语句进行查询，易用性和自服务程度更高，对业务人员的使用门槛更低。

趋势三：场景多元

数据分析场景呈现多元化趋势，不断向多维纵深发展

随着数字化转型的不断深入，企业的精细化运营更加聚焦于通过数据分析来提升效率和优化生产。

因此用户对于取数的时效、维度、深度以及交互的方式方法（移动、托拉拽、操作的友好体验）要求越来越高。

分析场景和分析需求不断深化使得我们对大数据分析平台所提供的算力、计算和存储组件、资源调度等要求趋于复杂。

企业的分析场景和需求呈现多元化发展，既要满足前端业务人员的实时分析，提供运营人员实时查询当前经营数据，又要向中台建设人员提供统一存算平台，以满足高并发SQL 复杂查询访问。

整体思路

明确业务场景需求，基于数据体量选定平台框架和功能组件

在搭建大数据分析平台前，用户首先要明确自身的数据体量和业务场景需求，希望通过大数据分析平台得到哪些信息，需要接入哪些数据，进行哪些主题分析，最终实现哪些功能。

在明确大数据分析平台需要具备的基本功能后，再决定平台搭建过程中使用的大数据处理框架和工具，并将其有机结合以完成海量数据的挖掘和分析。

在构建大数据分析平台时，首先要建设企业的基础数据中心，构建统一的数据存储体系，统一数据建模。

其次，集中组建数据处理中心，下沉数据处理能力，并通过统一的数据管理监控体系，保障平台系统的稳定运行。最后，构建数据应用中心，统一输出数据服务，满足业务需求，体现数据价值。

能力建设

基于场景需求，选定分析指标，通过模型训练构建分析能力

大数据分析平台的建设核心是分析能力的建设。不论用户采用何种部署方式，数据分析能力的建设都万变不离其宗。

首先，根据业务场景需求选定指标进行建模，重点建设数据构造、合并和统计处理的运算能力。

接着进行模型训练，从大量有噪声的、不完全的、模糊和随机的数据中挖掘多源多维数据间的关联性。

通过多维分析数据，加深对数据的理解，提取可能对业务结果相关的影响因子，探索数据的内在规律特征，并寻找模型最佳参数，支撑分析模型对业务的定量和定性分析。

在完成指标建模、模型训练后，对满足业务分析需求的模型进行部署调试，形成可被调用的服务能力，为其它业务系统、模型提供数据分析能力。

大数据分析平台应具备基础框架功能，支持多厂家、多技术类型模型导入，提供对应功能和工作流程设计，保障分析能力实施落地。

部署方式

依据行业特征、数据体量以及场景需要自由选择部署方式

大数据分析平台的部署方式主要分为本地化部署和云上部署。本地化部署根据用户数据体量的大小，又可分为基于Hadoop 生态的平台搭建和“数据库+AP分析引擎”的数仓方案。

本地化部署的优点是自主可控和灵活度高，缺点是性能调优和运维复杂，自身技术能力要求和综合成本高。

云上部署以公有云厂商提供的“低成本存储+弹性存算引擎”的数据湖方案为主，在保留HDFS 集群分布式存储可靠性和高吞吐能力的前提下，提供一站式云上 PaaS能力，实现各类数据快速便捷入湖，用户无需考虑兼容、安全、性能调优以及运维。

尽管国内主流数据湖方案的底层存储系统仍以 Hadoop的分布式架构构建为主，但架构上层拥有的读写优化、内存加速、数据融合等特性是云原生数据湖融合第三方开源组件的价值体现，是本地化部署的Hadoop方案所不具备的。

架构选择

从离线、在线及实时场景出发，按需选择和组合分析架构

广义而言，大数据分析平台不再局限于产品态，更趋近于包含数据采集层、存储层、调度层、计算层、交互分析层、数据服务层等的集成态。

如果从技术架构的角度进行抽象，大数据分析平台的架构都可归属于Lambda 或 Kappa 架构。若从场景角度进一步抽象，又可拆分为离线、在线以及实时分析架构。

在自下而上分层的集成态中，三种分析架构的差异主要源于数据分析层中存算引擎的选用，以满足各自的分析场景。

从技术角度而言，数据分析层的部署最为复杂，但也最富于创新，既有云原生数据湖的存算分离与弹性扩缩容，也有本地化部署下，基于Docker技术的平台解耦，解决物理服务器资源供给弹性不足的问题，满足存算能力的横向扩展。

在落地实施时，用户的分析场景又趋于融合，既有 HTAP数仓方案的融合框架缩影，也有融合 AP 和 TP 场景的海量大数据分析平台，用户皆可按需选取。

组件选择

采取自建方式部署，应着重关注分析层存算引擎的组合搭建

对于采取本地化部署的用户，按照数据量级大致可分两类：其一，年新增数据量在100TB 级的传统行业头部用户，由于本地数据体量大，上云的带宽成本高，同时还可能受到合规监管的约束，多采用开源自建或采购商业版Hadoop 生态。

其二，年新增数据量在 TB级别以下的中小企业，选择抛开架构繁复的 Hadoop生态，自建“数据库+AP分析引擎”的数仓方案。

自建大数据分析平台必然涉及组件选择，尤其是数据分析层的组件集成，直接影响场景支撑和效率提升。

在数据分析层的存算引擎中，存储引擎的选择显得格外重要。不难发现抛开计算引擎本身的性能，数据的宽表合并、CRUD、批量计算、实时流计算、即席查询等，都依赖大数据分析平台自身的存储引擎。

技术趋势

打破传统架构下的技术异构，统一数据能力提升业务价值

传统 Hadoop 架构和以 MPP 为主的数仓架构都无法真正适应云平台。Hadoop将存储和计算部署在同一物理集群以拉近与数据的距离，仅在同一集群下实现了存算分离，而 MPP 数据库本身存算耦合。

传统架构下的湖仓分体引发数据孤岛的原因有三：第一，异构技术架构；第二，集群规模受限；第三，集群高并发受限。数据孤岛进而造成实施、运维和成本的问题。

湖仓一体技术呼之欲出——在数据和查询层面形成一体化架构，解决实时性和并发度、集群规模受限、非结构化数据无法整合、建模路径冗长、数据一致性弱、性能瓶颈等问题，降低数据管理门槛和运维成本。

从架构演进方向来看，国内以基于 Hadoop的改造方案为主，从事务特性出发进行优化，如 Hudi 和 Iceberg 等，基于 HDFS 或 S3实现支持事务的存储层，其他与 Hadoop 区别不大。

另一方面，以为代表，基于多云的数仓架构方案在存算分离等方面的特性更具前瞻性，值得持续关注。

行业聚焦-金融

基于大数据分析的精准营销、实施管控、分析决策

相比其他行业，金融大数据分析起步早、技术高、发展快，国家对大数据发展整体秉持鼓励和支持的基调。

一方面，出于对系统性和非系统性风险双重考虑，国家对金融大数据分析出台了细致的监管政策，涉及数据收集、数据治理标准、大数据软件应用等多个方面。

另一方面，金融作为数据密集型行业，数据体量大，数据逻辑性强，对实时性、安全性和稳定性的要求高，同时结构化数据占比高，在分析工具成熟度方面具有明显优势。

最后，的数据分析应用场景广泛，包括精准营销、风险控制、客户关系管理、反欺诈检测、反洗钱检测、决策支持、股票预测、宏观经济分析与预测等多个方面。

大数据分析在金融行领域蕴含了巨大的潜力和挑战。

行业聚焦-零售

线上线下场景融合，智能设备终端接入，数据分析日趋复杂

新零售，即依托互联网、大数据、人工智能等手段，升级改造商品环节，深度融合线上服务、线下体验以及现代物流，重塑“人-货-场”业态结构与生态圈的零售新模式。

新零售商在不同的业务场景下，布局各类智能终端设备，进行数据采集、算法运行和数据交互等操作。

由于不同环节接入的设备终端采集的数据种类、敏感程度、商业价值不同，因而数据收集、处理场景和共享链条更加多样和复杂。

随着新零售从消费终端获取的数据量和类别“爆发式”增长，对大数据分析的维度和深度提出了新的要求。

包括从“人脸验证”“人脸识别”到“人脸分析”的创新应用、“不杀熟”和“不强制”的算法模型和个性化推荐，以及数据交互的具体场景和风险识别等。

投资整体分析

受疫情影响，大数据分析行业融资金额及融资频次缩水明显

投资轮次分析

超六成项目难获得后续融资，融资活动集中于头部项目，市场风险偏好下行，资本更青睐产品集成度高的中后期企业。

2019-2022年5月，中国大数据分析行业的项目仅有131（39%）个项目获得两轮及以上融资，197（61%）个项目仅获得一轮融资。

三年内仅获得一轮融资的197个项目中，从起投年份看，64.4%起投年份为2019或2020年；

从当前轮次看，56.93%处于融资早期阶段（种子/天使轮、A轮、B轮），说明中国大数据分析行业的融资事件相对集中于少部分头部项目，超六成早期项目难以获得后续融资

早期项目多为初创或中小企业，技术实力和研发能力弱，资金投入大，在长期没有外部资金注入的情况下，经营和管理缺乏创新动力，将会被市场淘汰。

投资周期分析

投资机构向头部聚拢，融资轮次偏向后期，资本与产业两端的马太效应凸显

2019-2022年5月，资本市场最初对大数据分析行业的早期项目有明显偏好，伴随大数据企业生命周期演进，资本更多投资于成长期和成熟期企业。

高估值融资事件比重逐年提升，反映出大数据分析行业的马太效应显著，受资本青睐的头部企业持续获投，融资轮次多分布于中后期，资源高度集中。

头部企业凭借关键技术和商业模式优势迅速占领市场，借助资本的力量发展壮大成为行业独角兽。

本文地址：http://yybeili.xhstdz.com/quote/78676.html 物流园资讯网 http://yybeili.xhstdz.com/ , 查看更多