基于Hadoop生态圈的数据分析平台设计

VSole2022-04-29 09:14:58

自贵州省实施大数据战略以来，全省社会经济高速发展，通过支付系统贵阳城市处理中心处理的跨行资金交易呈快速增长态势，如何从海量真实交易数据中提取和分析有效信息，对支付系统贵阳城市处理中心提升工作效率、为贵州省人民银行系统及地方政府提供管理决策依据等方面都具有重要意义。

支付系统贵阳城市处理中心现有数据统计分析系统仅提供了跨行资金交易数据的基础查询和初步统计功能，对于全省全年全系统或全省半年全系统或某地区特殊固定时段全系统的数据则需要进行二次人工统计，不仅耗时且容易出错，而对于领导关心的行业资金流入流出、企业资金流入流出、不同时段下资金流动监测预警、各地区经济发展动向等情况则完全无法实现。在全行要求过“紧日子”的背景条件下，为有效解决当前工作存在的问题，高效快速完成对海量跨行交易数据的统计查询，支撑更具深度的数据挖掘分析，实现直观的数据可视化展示，建设一套低成本、高效率的央行支付系统区域数据分析平台迫在眉睫。

本文旨在通过利用支付系统贵阳城市处理中心已有的PC机及网络设备作为硬件基础，结合Hadoop、Hive、HBase、Spark等开源产品，对贵州省央行支付系统数据分析平台进行实践分析。该平台设计方案与原数据统计分析系统基于单机处理的设计方案对比情况如表1所示。

表 1 原数据统计分析系统与基于Hadoop的

贵州省央行支付系统数据分析平台对比

功能分析

贵州省央行支付系统数据分析平台应实现对全省跨行资金交易的数据处理、查询统计、风险预警、多维分析、报告输出和系统管理等功能，其中，数据处理包括数据采集、数据清洗、数据加密等；查询统计即对原数据统计分析系统的数据统计、业务量查询、流量流向统计、精确交易查询等功能进行完善和优化；风险预警即对交易金额、交易笔数、可疑交易等进行预警；多维分析即实现基于业务需求拖拉拽可视化组件进行自助分析，可灵活配置相关指标字段、过滤条件、结果展示等选项，实现对贵州省内各行业资金流动情况、各地区经济发展动向等内容的动态分析；报告输出即根据相关报告模板，结合预设指标参数、算法等，自动填充对应内容，生成图文表并茂的分析报告；系统管理则实现用户管理、资源管理、权限管理、日志管理等系统后台管理功能。

平台设计

1.平台架构设计。平台架构设计除数据源外，平台按照数据采集层、存储层、应用层、业务层、数据展示层共5个模块进行划分。数据采集层主要负责对原始数据的采集和清洗，经过预处理后的数据流向存储层；存储层负责根据业务功能需求和性能考量，提供相匹配的数据存储方式，为业务层和应用层服务；业务层主要负责实现业务处理相关事务，封装业务层面上的算法逻辑，供应用层引入调用；应用层负责与用户交互，根据用户指令对接业务层处理逻辑，调度计算任务，管理各项资源以及调整系统设定；数据展示层负责将处理完毕的数据结果以图表、表格、导出文件等形式反馈至用户。

2.平台搭建。集群复用支付系统贵阳城市处理中心现有9台运维终端，平均每个计算节点分配硬件资源为12核心CPU、28G内存、1TBSSD硬盘，集群部署于支付系统专网运维区，便于系统自动采集更新属地数据，用户通过其他运维终端对集群进行管理。

各计算节点基于Linux部署Hadoop-3.3.0集群，其中1个Master节点、8个Worker节点，通过Zookeeper实现高可用，在Hadoop NameNode上部署Hive数据仓库供数据管理，集群上搭建HBase供快速响应查询，部署Spark提供流式数据处理能力，并弥补Hadoop在执行MR任务耗时较长的短板，集成Superset作为BI工具对数据进行抽取整合，提供展示图表等。

3.原始数据。该平台的数据来源主要分为属地数据和外部数据，其中，属地数据为CSV格式，包含所有流入流出贵州省大小额支付系统、网银支付系统和外币支付系统的支付交易数据，平均每日约80万行1GB的数据量，涵盖每笔交易的交易时间、业务类型、发起行行号、接收行行号、收款人账户及姓名、付款人账户及姓名、交易金额、轧差情况、清算情况、业务处理状态、回执信息等近38个字段。辅助数据则主要来源于公开数据及相关合作渠道，目前可使用的有银行行名行号数据、地理区域结构数据、企业注册数据、行业分类数据、企业信用数据、基金股票统计数据等。

4.数据采集层。为实现每日获取的属地数据为最新数据，可通过Crontab调用Shell脚本实现，设定每间隔6小时检测一次最新数据并完成下载，使用Python脚本对下载后数据进行安全性及完整性检查，由于CSV格式属于结构化数据，入库前的数据清洗工作主要针对个人账号姓名等敏感信息进行脱敏处理。原始属地数据则加密压缩后存放于HDFS中，以备特殊情况下的调取使用。由于部分数据挖掘功能需要引入外部数据，如各行业资金流动分析功能依赖于企业工商等信息数据，流量流向则依赖于行号地址映射关系数据，此类数据由于网络隔离的原因无法实时拉取，由人工定期导入更新，在经过清洗消歧后，属地数据与外部数据关联聚合后流向存储层。

5.存储层。原始数据在经过加密压缩后通过Hadoop的HDFS文件系统存储，设置副本冗余策略为3个。部署Hive作为数据仓库存放CSV格式数据，便于后续通过HQL语句转化MR任务对数据进行抽取，创建满足不同业务需要的数据集。部署HBase存放需要快速响应的数据，存放时考虑查询可行性、性能等问题，分别针对不同查询场景设计RowKey和列簇，形成多个表格，确保数据查询简单可行，避免查询扫描时负载过度集中在个别RegionServer带来性能I/O瓶颈、数据过度分散等问题，进而导致连续数据查询效率低下等问题。

6.应用层。应用层前端Web界面采用Layui编写，供业务操作人员使用与后端通讯，后端部分主要通过Flask框架开发，集成HDFS、PyHive、HappyBase、PySpark等Python库以实现常用功能，搭配调用LinuxShell自动化脚本实现对宿主主机监测以及系统级管理。预留自定义功能接口，以便Shell脚本、Python脚本、Mapreduce Jar包等上传，供系统调用实现特定功能。

7.业务层。业务层作为核心组件，需要开发人员根据特定需求对业务系统和数据有较深的理解，面对各式各样的应用场景，采用的算法模型可能各有不同，所以业务层应集成常见算法，且对各算法的参数阈值应设置为可调整。以ID3决策树算法为例，可应用于判断金融机构在不同地段部署网点的合理性，通过支付系统跨行交易数据结合行号地址映射关系数据能够提取出金额、频率、城区中心化程度等信息，再通过本地调研选取公认分配合理的网点作为训练样本，发现累计交易金额大、频度高、所在位置等属性特征，建立模型，可以找出相对设置不够合理的网点，供金融机构参考判断是否需要调整策略、加以优化。

8.数据展示层。平台对数据分析完毕后，采用基于WebUI的直观图形图表将处理后的数据进行展示。该部分功能主要选用开源免费的BI工具Superset实现，该工具通过连接Hive数据库读取数据仓库中的交易数据，连接Mysql数据库读取交易统计数据、外部导入的企业工商、行号地址映射关系数据，而Superset原生集成Echarts图表库，可方便灵活根据业务需求创建数据集、可视化图表。

9.数据安全性保护。该平台所部署的集群位于支付系统贵阳城市处理中心内部专有网段，与外部网络物理隔绝，可有效防止外部网络攻击。数据采集后在进行数据清洗时，要根据相关管理制度对数据中部分字段进行脱敏屏蔽，对于敏感隐私信息进行Hash处理，实现如收付款人姓名等隐私信息仅可在得到准确信息的情况下才可以展示，普通操作人员无法直接浏览。而原始数据均经过加密压缩后再进行存储，在确保数据分析准确性的同时又能保证敏感信息不被泄露。

下一步工作方向

基于Hadoop生态圈的贵州省央行支付系统数据分析平台设计，在有限成本预算的情况下，能够有效提高分析速度，充分利用好属地数据，解决当前工作中的遇到的一些难题，相较传统单机处理分析的技术实现方法，更适应当今复杂多变的应用需求，高可用性和数据冗余存储的设计更是提高了整个系统的可用性，但与之相对的则是需要额外增加对整个集群的维护管理，对运维工作带来一定的负担。

下一步工作方向：一是结合对数据关联关系的挖掘需求，引入更多算法，探究在不同金融研究领域下的更多应用；二是使用Docker技术建立私有镜像，提高部署效率，防止节点老化损坏后，给运维工作恢复时带来的繁重配置工作，降低集群维护难度，提高灾后重建能力。

大数据数据分析

撤稿纠错

本作品采用《CC 协议》，转载必须注明作者和本文链接

合成数据助力数据分析

2023-09-22 17:04:58

大数据能够为公司带来巨大的经济优势。科学家、信息分析师、营销专业人员以及广告商都依赖于从大量的消费者信息中获取有价值的见解。只要分析合理，这些数据和信息能够为懂得如何利用它的组织提供更为深层次的洞悉，从而帮助其在决策和战略方面做出更为明智的选择，以获得竞争优势。

基于 Spark 大数据平台的云上用户日志行为审计系统

2023-05-23 16:57:33

但是在使用过程中，云上的网络安全性也不容忽视。除此之外，用户的过失和恶意操作也可能会危害云上业务及数据的安全。主要实现了从过滤后的有效原始日志中提取出属于同一个“事件”的操作日志，将其放入某个事件对应的日志集合。日志结构化输出的数据库表中的每一行表示了一个单独的“事件”，每一列表示了这个“事件”的要素。同时根据关联后的信息，生成审计策略，依据审计策略触发告警。

浅谈农村商业银行大数据审计系统建设

2022-08-26 10:34:17

近来年，在中央新发展理念的引领下，江苏江南农村商业银行股份有限公司（以下简称江南农村商业银行）实现平稳快速可持续发展。随着银行业务量的增长，其生成的数据呈几何级增长，传统的内部审计工作模式面临着前所未有的挑战。稽核审计部为应对挑战，积极拥抱大数据技术，引入华为大数据Elk集群，建设大数据审计系统。

[Python从零到壹] 十五.文本挖掘之数据预处理、Jieba工具和文本聚类万字详解

2022-03-04 20:57:36

为了得到更好的数据分析结果，需要对这些数据集进行数据清洗和停用词过滤等操作，这里利用Jieba库进行清洗数据。向量空间模型是用向量来表征一个文本，它将中文文本转化为数值特征。贵州省位于中国的西南地区，简称“黔”或“贵”。

数据中台：基于标签体系的 360°用户画像

2020-08-20 14:17:15

作者丨石秀峰全文共6375个字，建议阅读需18分钟一、从“标签”说起标签是用来标志您的产品目标和分类或内容，像是您给您的目标确定的关键字词，便于您自己和他人查找和定位自己目标的工具。目前标签广泛的使用到我...

网络安全中的实体异常行为分析技术

2022-06-20 14:16:29

基于威胁情报的网络安全监测预警体系在原有能力的基础上，建立网络空间威胁的“情报档案库”，一方面，利用情报全网共享机制达到“一点发现问题，全网风险屏蔽”的防御效果，利用情报库的关联分析机制增强网络威胁的趋势预测，解决由于局部区域的分析检测能力不足导致的“看不见”“看不准”“研判不明”的问题；另一方面，监测预警体系数据经过分析提炼，补充“情报档案库”，针对不同区域、不同时间的数据关联分析，持续地形成具

“分放管服”理念下的数据安全治理

2021-10-29 11:14:30

随着企业信息化的不断发展、企业对数据安全的重视，企业内部数据安全资产数量日趋增多、各系统的关联性和复杂度不断增强，然而当前数据安全形势日益严峻，数据安全管理工作面临前所未有的困难和挑战。同时，由于安全设备资产增多，设备所产生的海量日志需要进行深入分析，企业对数据安全技术人员的依赖日益加深，对技术人员的安全能力也有了更高的要求。

绿盟科技列入Gartner《安全领域新兴技术影响雷达》报告

2022-12-27 17:07:27

构建完善的威胁诱捕解决方案

大数据时代数据中间商处理个人健康信息的法律监管分析

2022-12-16 10:05:56

非医疗机构对个人健康信息收集量的扩大将持续威胁个人医疗隐私。一是个人隐私被侵犯，使个人受到歧视。数据中间商属于该法律规定的信息处理者，《个人信息保护法》规定信息处理者必须遵守一系列的隐私保护原则及义务。其中对数据中间商行业最具影响的是公开透明原则。数据中间商通过自动化决策以及数据画像对个人进行精准评价，并用于销售与健康相关的产品。

基于大数据关联性分析的新能源网络边界协同防护技术

2022-05-12 11:24:26

随着能源互联网的发展，电力信息网络系统架构也在不断变化，使电力信息网络安全面临着新的挑战。研究基于网络流水印的多点协同追踪和多层次的网络威胁协同阻断技术，由此设计高效的水印嵌入和检测算法，通过节点的协同配合，实现对安全威胁的实时追踪，同时针对不同的安全威胁，设计多层次的连接干扰和网络阻断技术，实现网络威胁的弱化和阻断。提出了跨域协同入侵追踪架构，解决了跨域网络入侵路径的快速重构。提出了基于时隙质心

VSole

网络安全专家