不安全的Hadoop集群暴露了超过5000 TB的数据

VSole2022-08-22 08:00:00

直到去年,网络犯罪分子还只是以个人和组织的计算机为目标,使用勒索软件并扣押它们以获取赎金,但随后他们开始以全球范围内未受保护的在线数据库和服务器为目标,以获取赎金。

现在,网络骗子已经开始瞄准未受保护的Hadoop集群和CouchDB服务器,如果您的服务器配置不安全,勒索软件游戏将变得更加糟糕。

使用Hadoop分布式文件系统(HDFS)和近4500台服务器,Hadoop应用程序使用的主要分布式存储,根据使用Shodan搜索引擎进行的一项分析,发现这些数据暴露了超过5000 TB(5.12 PB)的数据。

这种暴露是由于同样的问题—;基于HDFS的服务器(主要是Hadoop安装)尚未正确配置。

Hadoop分布式文件系统(HDFS)是一种分布式文件系统,旨在可靠地存储大量数据集,并以高带宽将这些数据集传输给用户应用程序。

与其他Hadoop相关技术一样,HDFS已经成为管理大型数据集群和支持大数据分析应用程序的主要工具。

Shodan创始人约翰·马瑟利在一篇博客文章中透露,虽然重点放在互联网上公开的MongoDB和Elasticsearch数据库上,但Hadoop服务器却是“真正的巨头”。

尽管MongoDB在互联网上公开了超过47800台服务器,暴露了25TB的数据,但Hadoop总共只有4487台服务器,但暴露的数据量要高得多,超过5000TB。

大多数在互联网上公开数据的Hadoop服务器位于美国(1900)和中国(1426),其次是德国(129)和韩国(115)。

大多数HDFS实例都托管在云端,亚马逊网络服务(Amazon Web Services)以1059个实例领先,阿里巴巴(Alibaba)以507个实例领先。

虽然去年我们看到了针对未受保护的MongoDB和Elasticsearch数据库的赎金攻击,但Matherly表示,这些攻击尚未停止,仍然针对CouchDB和Hadoop服务器。“今年早些时候广泛宣传的针对数据库的勒索软件攻击仍在发生,”马瑟利说。“它们正在影响MongoDB和HDFS的部署”。

Matherly还分享了如何在Shodan搜索引擎上复制搜索的所有必要步骤,用户可以按照这些步骤进行自己的调查。

我们鼓励管理员按照公司提供的说明配置Hadoop服务器,使其在安全模式下运行。

大数据hadoop
本作品采用《CC 协议》,转载必须注明作者和本文链接
美军通过《联邦数据研发战略计划》已将数据技术应用到赛博领域,以及指挥控制、情报侦察、后勤支撑等领域。2019 年 7 月,美国国防部发布了《国防部数字现代化战略》。NIST 发布的数据标准如表 1 所示。JIE 的建设目标为统一数据,通过建立核心数据中心,将重要信息汇总作为共用资源提供给美军各军和各级机构。
当前,以数据、物联网、人工智能为核心的数字化浪潮正席卷全球,全世界每时每刻都在产生大量的数据,人类产生的数据总量呈指数级增长。面对如此巨大的数据规模,如何采集并进行转换、存储以及分析,是人们在数据开发利用过程中面临的巨大挑战。其中,数据采集又是所有数据处理行为的前提。
一文读懂HW护网行动
2022-07-26 12:00:00
随着《网络安全法》和《等级保护制度条例2.0》的颁布,国内企业的网络安全建设需与时俱进,要更加注重业务场景的安全性并合理部署网络安全硬件产品,严防死守“网络安全”底线。“HW行动”大幕开启,国联易安誓为政府、企事业单位网络安全护航!
从全球视野来看,当前的世界并不是一个安全的世界,攻防的博弈一直都在,并且愈演愈烈。我们知道,网络空间已成为继陆、海、空、天之外的第五空间,维护网络安全成为事关国家安全的重大问题。美国等西方发达国家频繁炒作“中国网络威胁言论”,但实际上作为拥有最强大网络武器库、最先进网络基础设施的国家,美国一直依靠其强大的网络攻击能力,对包括中国在内的多个国家持续进行网络攻击,西工大事件的爆发就是一个实例佐证。发达
数据是指大型复杂的结构化或非结构化数据集。数据技术使组织能够生成、收集、管理、分析和可视化数据集,并为诊断、预测或其他决策任务提供见解。处理数据的关键问题之一是采用适当的数据治理框架,这样可以:①以所需的方式管理数据,以支持有效机器学习的高质量数据访问;②确保该框架规范存储和处理在相关监管框架内以可信赖的方式收集来自供应商和用户的数据。提出了一个数据治理框架,指导组织在相关的规则框架
此外,PyDeequ 可以与 Pandas DataFrames 进行流畅的接口,而不是在 Apache Spark DataFrames 内进行限制。Deequ 负责导出要对数据进行计算的所需指标集。Deequ 生成数据质量报告,其中包含约束验证的结果。包装器将命令转换为底层 Deequ 调用并返回它们的响应。
数据安全研究
2021-09-26 08:14:19
随着人工智能、云计算、移动互联网和物联网等技术的融合发展,传统的基于边界安全域和基于已知特征库的网络安全防护方式已经无法有效应对数据环境下新的安全威胁。
对于数据管理,也许很多人都存在一个认知误区,认为数据管理即是“将数据保存起来”。如果想要更好地挖掘数据价值,仅仅做到存放是远远不够的,需要涵盖数据的上收、分层管理、检索调用、归档存放全流程,即实现数据的“全生命周期管理”。
摘 要:互联网开源信息处理是指从互联网上的公开信息源获取数据并分析处理,进而获得有价值的开源信息的过程。为充分了解国外互联网开源信息处理的研究现状,从开源数据采集、预处理、信息分析、决策支撑、相关系统等角度对近年来国外有关研究进行梳理,总结现有研究存在的普遍性问题,对未来研究进行展望。
VSole
网络安全专家