专题研究 | Palantir 大数据能力分析研究

VSole2021-09-21 07:23:09

前言

Palantir公司名称来源于《指环王》,palantir是“seeing-stone”,可穿越时空、洞悉世间一切。公司于2003年5月注册成立,总部设在美国科罗拉多州的丹佛,专门从事大数据分析。2020年9月29日登陆纽交所,估计潜在市场超过千亿美元。公司强大的大数据能力能够帮助客户从所获取的数据中产生实时准确决策并产生正确的行动,并且在数据使用过程中保护数据安全。其客户包括CIA、DHS、NSA、FBI、海军陆战队、空军和特种作战司令部等。最出名的案例是以大数据能力帮助美国军方成功定位和击毙基地组织首脑本拉登。本文首先介绍了Palantir公司典型案例与核心产品特性,其次从中分析梳理出了隐藏在产品特性中的关键技术,最后给出在研究过程中获得的启示并提出几点建议,尤其是,必须要及早开展对手“Palantir级”大数据能力对我们的安全威胁分析。

一、典型案例

一是帮助美军成功定位和击毙基地组织首脑本拉登。Palantir公司软件与专业人员合作,通过搜索与分析包括财政记录、DNA样本、声音样本、视频剪辑、地图、平面图以及来自世界各地的情报等所有可用数据库,识别出了有隐藏关系的信息,抽丝剥茧,成功找到本拉登藏身之所[1]。在讲述本拉登丧命经过的《终结》一书中,作者如此描述Palantir公司:“Palantir公司的软件是名副其实的‘杀手级’应用。公司里的数据分析人员会空降到客户总部进行程序定制。这些数据分析人员把繁杂的大量信息变成直观的关联图、柱状图、可视化地理分布图。只需给工程师们几天时间,让他们分析、标记和整合所有零碎数据,该公司就能弄清楚所有的问题,包括恐怖主义。”[2]

二是帮助美国证监会发现麦道夫“庞氏骗局”。Palantir公司软件与专业人员合作,通过整合长达40年的海量交易记录数据,在进行复杂的分析之后,发现了纳斯达克前主席麦道夫的庞氏骗局,帮助多家银行追回了麦道夫隐藏起来的数十亿美元巨款[3]。

二、核心产品

一是Gotham。产品Gotham用于帮助客户集成、管理、保护和分析来源广泛、类型异构的大数据,帮助客户有效地向数据提问并给出客户可理解的答案。Gotham能够高效集成和管理数据,将所有数据转换成为单一的、一致的数据资产,将数据融合到以人为中心的模型中,数据因而被映射到人、地点、事物和事件等有意义的对象以及对象的关联关系中,从而为数据的理解与应用奠定基础。Gotham能够标记、保护和跟踪数据,在数据持续不断流入产品期间应用安全规则,只有授权用户才能访问数据,当用户处理数据时,会跟踪和记录所有操作。Gotham能够高效分析大数据,搜索所有数据源,探索对于数据不同的假设,发现数据中隐藏的未知联系和模式,能够将人和数据有机融合在一起,当用户进行协作分析时提高数据分享效率。

二是Foundry。产品Foundry用于为客户提供开放、互操作、可扩展平台,帮助客户实现快速的端到端的数据转变,把数据转变为决策,最终转变为正确的行动。Foundry具备开放的API和数据格式,允许多样化的分析工具接入,从而提供多样化的高级分析能力。Foundry能够将复杂的数据转变为整个组织的人员都可理解的通用本体与知识图谱,能够使组织的整个数据生态系统互操作,使数据集和分析结果不断反馈到产品中,从而使不同人员在彼此工作成果基础上进行不断迭代的深化分析,推动大规模协作。Foundry使得数据、分析以及目标知识的获取成为一个循环互生的过程,分析的过程也成为对数据丰富的过程,数据的丰富又对分析反哺,从而使得对数据的持续分析衍生出更多可能性。

三、关键技术

一是数据预处理类技术。包括大规模数据噪声消除技术,消除从不同来源采集到的数据中可能存在的冗余、错误、不精确等类型噪声;多源异构数据统一化模型构建技术,通过统一化的模型描述多源异构数据;通用本体与知识图谱构建技术,通过本体与知识图谱方法组织数据;数据间关系图构建技术,将数据之间直接的显然的联系通过图数据结构表达;数据地理空间映射技术,将网络空间中的数据与数据在物理空间中产生的地理位置、物体、事件等关联。

二是数据存储类技术。主要包括内存数据库技术,基于全新体系结构,改进数据缓存、并行操作等,将大量数据主拷贝常驻内存,大数据分析只与实时内存数据拷贝交互。

三是数据分析类技术。包括大规模图结构分析技术,分析以大规模图数据结构描述的海量数据,从中提取出数据间隐含关系、数据异常值等高价值信息;流数据实时融合处理技术,实时分析以流形态输入的数据,实时地将最近流入的数据与此前的数据及其分析结果融合处理,从中提取出数据变化趋势等高价值信息;事件序列分析技术,分析以时间先后顺序以事件形式描述的数据集合,从中提取出事件历史走向、异常拐点等高价值信息;地理空间分析技术,分析与地理空间直接关联的位置、物体、事件等数据,从中提取出目标活动规律等高价值信息;未知模式发现技术,分析大量的异构多源数据,从不同归属的数据集合中提取数据之间预期之外的隐藏联系等高价值信息;新旧数据关联关系实时发现技术,实时分析最近输入数据,从中提取出其与已经存在的数据之间的关联;行动结果数据增量分析技术,分析由此前的数据分析流程产生的决策而导致的行动所产生的新数据,将其输入分析流程,从中产生对态势新的理解以及对行动决策的调整;数据分析图形化操作技术,将数据集合、关系、模式等以点、线、块等进行图形化表示,并以图形元素的拖动、连接等操作便捷地进行分析任务的表达;数据统一搜索技术,构建格式统一、语法灵活的数据搜索语言,支持使用一种语言对结构化、半结构化、无结构化等异构数据的搜索;数据同步与信息一致化技术,保持在广域分布式协同化数据分析任务中各个不同分析站点中数据变化的同步,保证所提取的信息在不同应用中一致。

四是数据可视化类技术。包括事件序列可视化技术,依照时间先后顺序动态展示变化中的事件数据,将事件的历史走向、异常拐点等充分可视化;数据地理空间属性可视化技术,在底层地图之上展示与地理空间直接关联的位置、物体、事件等数据,将目标活动规律等充分可视化;数据关系可视化技术,将不同数据点、数据集合之间的静态、动态关系,通过图形化、时间线等方式充分可视化;关键数据子集合展示技术,根据具体任务需求通过数据分析提取出的关键数据子集合,通过透视化、细节化等方式充分可视化。

五是数据接口类技术。包括人工直觉机器语言编码技术,将数据分析任务参与人员由于此前相关工作经验积累与知识扩充等因素导致产生的对于当前任务中的数据、数据间关系、数据对任务支撑等方面产生的直觉,使用能够使计算机理解的方式进行编码,输入至数据分析流程中;数据池自然语言查询与反馈技术,根据分析任务不同阶段对不同数据的需求,以自然语言方式,向由海量异构多源数据组成的数据池提出所需求数据的查找请求,并将数据池反馈的数据输入分析任务流程;分布式协作数据共享技术,根据在多个地域、多个不同组织之间协作分析的任务具体需求,在广域网上构建高安全虚拟专用数据网络,以键值对KV数据库表示待共享的数据,高效进行数据共享;多样化分析工具集成技术,根据多样化的数据分析任务需求,将不同的第三方数据分析工具快速融入任务流程,与任务中现有工具分工配合,扩展数据分析广度与深度。

六是数据安全保障类技术。包括数据访问控制技术,通过综合使用基于人员的、基于任务的、基于数据属性的等多类访问控制手段,严格保障只能由必须的人员在必须的时间和必须的地点对必须的数据进行访问;数据操作跟踪记录技术,通过元数据记录、数据库日志、数据运算记录、数据通信记录等多个方面,持续记录所有在数据上进行的操作。

四、启示建议

数据,已经与土地、劳动力、资本、技术并列,成为我国第五大生产要素。对数据的收集、分析、利用、保护,将对大众生活、社会生产、国家安全等产生越来越重要的影响。

Palantir公司在帮助美军成功定位和击毙基地组织首脑本拉登等事件中,展示出世界顶尖的大数据能力。这种顶尖能力,一方面值得我们学习借鉴,另一方面必须引起我们高度警惕。由此,提出如下几点建议。

一是建议加速构建关键应用领域“Palantir级”大数据能力。在开源情报、网络治理等关键应用领域,集合顶尖研究力量,加速突破大规模图结构分析、未知模式发现等一系列关键技术,在此基础之上迅速构建出基于大数据的开源情报精准获取与分析、网络舆情发展预测与管控等急需能力。

二是建议及早开展对手“Palantir级”大数据能力对我们的安全威胁分析。对手“Palantir级”大数据能力,能够从大数据中发现其它人与技术发现不了的模式、关系等新信息,这些新信息可能对我们的安全威胁造成极大隐患。这些隐患,可能是我们当前没有充分意识到的。建议及早开展对手“Palantir级”大数据能力对我们的安全威胁分析,特别要重视对手先进人工智能技术的应用中,可能从我方“自认为已脱敏”的公开数据中分析获取到的新信息,以及这些新信息对我们潜在的安全威胁。

三是建议加速构建公开数据安全预处理能力。对手令人恐惧的“Palantir级”大数据能力,可能对我们造成极大威胁。我们的每一项公开数据,在我们眼里,在我们的“有限认知”里,肯定认为是可以公开的,对我们的隐私、安全等不会造成损害的。然而,在具备“Palantir级”大数据能力的对手眼里,在他们的“超出我们认知范围外的认知”里,我们一项又一项的公开数据之间,可能就已经隐藏了损害我们的隐私、安全等的新信息,而这些新信息,对手的“Palantir级”大数据能力却能够挖掘出来。为了防范此类隐形威胁,我们必须加速突破数据本地扰动等一系列关键技术,构建公开数据安全预处理能力,使得对手的“Palantir级”大数据能力无法从我们的公开数据中挖掘出损害我们隐私、安全等的新信息。

四是建议超前布局“对抗性”大数据能力。当对手在公开数据前对数据进行多类安全预处理后,我们现有的针对分析对手的大数据能力可能大面积失效。为了应对未来可能出现的此类“对抗性”局面,建议及早技术布局,针对进行安全预处理后的数据的处理分析难题,进行原始创新,突破一系列关键技术,构建独步天下的“对抗性”大数据能力。

参考文献:

[1] “基于数据挖掘的犯罪信息分析模型研究与应用”,湖南大学工程硕士学位论文,2018年。

[2] “大数据在涉恐人员管控中的应用研究”,中国人民公安大学硕士学位论文,2018年。

[3] “Leaked documents:Bernie Madoff convicted thanks to mysterious Palantir technology”,

https://www.bizjournals.com/bizjournals/news/2015/01/12/leaked-documents-bernie-madoff-convicted-thanks-to.html

(全文完)

大数据palantir
本作品采用《CC 协议》,转载必须注明作者和本文链接
Palantir公司名称来源于《指环王》,palantir是“seeing-stone”,可穿越时空、洞悉世间一切。公司于2003年5月注册成立,总部设在美国科罗拉多州的丹佛,专门从事数据分析。2020年9月29日登陆纽交所,估计潜在市场超过千亿美元。
此前,本公号发表过的关于数据要素治理的相关文章包括: 《非个人数据在欧盟境内自由流动框架条例》全文中文翻译(DPO沙龙出品) 简析欧盟《数字市场法》关于数据方面的规定 数据流通障碍初探——以四个场景为例 对“数据共享合法化”的分析与思考系列之一:以《关于欧洲企业间数据共享的研究》为起点 对“数据共享合法化”的分析与思考 系列之二 ——欧盟B2B数据共享的案例研究 对“数据共享合法化”的分析与思考
摘 要:互联网开源信息处理是指从互联网上的公开信息源获取数据并分析处理,进而获得有价值的开源信息的过程。为充分了解国外互联网开源信息处理的研究现状,从开源数据采集、预处理、信息分析、决策支撑、相关系统等角度对近年来国外有关研究进行梳理,总结现有研究存在的普遍性问题,对未来研究进行展望。
未来十年,我国网络安全产业的中国式现代化发展之路会怎么走?
以网络安全企业和相关专业服务机构为主体的网络安全产业满足了绝大部分个人和商业机构信息化应用的安全保障需求,也承担了众多政府部门和部分特殊行业的安全保障工作。
FIRST 2022 议题速递
2022-07-28 08:21:45
FIRST 是成立于 1990 年的非营利组织,汇聚了全球的安全团队和安全研究人员,旨在共同维护全球互联网的安全。如今,已有全球 101 个国家的 635 个安全团队加入了 FIRST,其中中国大陆参加的组织包括中国国家计算机网络应急技术处理协调中心(CNCERT/CC)、中国移动、阿里、腾讯、奇安信等。
由白宫支持并由科技巨头Peter Thiel, Eric Schmidt和Craig Newmark提供部分资金的投资基金正在押注“深度技术”将使美国比中国更具优势——尤其是在网络安全方面。吉尔曼·路易 (Gilman Louie) 表示,美国需要做更多的事情来赢得“大国竞争”,这意味着支持人工智能、量子计算、聚变、微电子、6G通信、先进制造和合成生物学等领域的技术创新。
随着网络空间安全上升为国家战略,安全需求已由单一的软硬件产品提供转向全面专业的安全运营服务模式,各安全厂商争先提出安全运营整体解决方案,安全即服务成为网络安全产业发展重点。通过对网络安全服务的国内外产业发展现状进行分析,结合工程实践提出针对网络安全全生命周期的服务体系,并从技术创新和商业模式创新两个方面对网络安全服务产业发展提出建议。全面的分析和研究网络安全服务的产业现状、体系和发展建议,对完善优
随着春运出行高峰临近,消费者频繁买年货、预订机票和酒店,数据“杀熟”相关话题又登上热搜。近期有媒体报道,在同一平台、同一时间、预订同一航班,3部手机机票差价高达930元。还有消费者在订餐时,发现自己等级较高的账号显示的价格贵,等级较低的反而有优惠。
数据农业
2023-11-28 14:39:23
数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。
VSole
网络安全专家