1. 数据采集:让数据汇聚到一起

当前,以大数据、物联网、人工智能为核心的数字化浪潮正席卷全球,全世界每时每刻都在产生大量的数据,人类产生的数据总量呈指数级增长。面对如此巨大的数据规模,如何采集并进行转换、存储以及分析,是人们在数据开发利用过程中面临的巨大挑战。其中,数据采集又是所有数据处理行为的前提。

数据采集是指从系统外部采集数据并输入到系统内部的过程。数据采集系统整合了信号、传感器、激励器等数据采集设备和一系列应用软件。目前,数据采集广泛应用于互联网及分布式领域,如摄像头、麦克风都是数据采集工具。

数据采集并不是随随便便、杂乱无章地采集数据,而是对数据有一定的要求。例如,要求数据量是全面的,具有足够的分析价值;是多维度和多类型的,能够满足不同的需求;是高效的,具有比较明确的针对性和时效性。常用的数据采集方法主要有传感器采集、日志文件采集、网络爬虫采集。

传感器采集:传感器通常用于测量物理变量,一般包括声音、温湿度、距离、电流等,将测量值转化为数字信号并传送到数据采集点,让物体拥有“触觉”“味觉”和“嗅觉”等“感官”,变得鲜活起来。

日志文件采集:日志文件数据一般由数据源系统产生,用于记录对数据源的各种操作活动,如网络监控的流量管理、金融应用中的股票记账和Web服务器记录的用户访问行为。很多互联网企业采用日志文件采集方式,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等。这些工具均使用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

网络爬虫采集:网络爬虫是指为搜索引擎下载并存储网页的程序,它是针对搜索引擎和Web缓存的主要数据采集方法。该方法将非结构化数据从网页中抽取出来,以结构化的形式将其存储为统一的本地数据文件,支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

由于所采集数据的种类错综复杂,因此对不同种类的数据进行分析必须运用提取技术。通过不同方式,可以获得各种类型的结构化、半结构化及非结构化的海量数据。在现实生活中,数据的种类有很多。而且,不同种类的数据,其产生的方式不同。针对大数据采集,目前主要流行运用以下技术。

Hive:Hive是由Facebook开发的数据仓库,可支持SQL相似的查询声明性语言(HiveQL),可自定义插入相关脚本(Map-Reduce),并且支持基本数据类型、多种集合和组合等。只需要一些简单的查询语句,就能分析计算数据仓库中的数据。

Transform:Transform操作是大数据采集中的一个关键流程,利用多种数据分析和计算系统对清洗后的数据进行处理和分析。

Apache Sqoop:将数据在Hadoop HDFS分布式文件系统和生产数据库相互转换,需要考虑数据是否一致,以及资源配置等问题。为了防止使用效率不高的脚本进行传输,将使用Apache Sqoop。Apache Sqoop能快速实现导入和导出数据,解决数据来回转换中暴露的问题,还可通过数据库元数据预测数据类型。

数据采集是挖掘数据价值的第一步,当数据量越来越大时,可提取出来的有用数据必然也就更多。只要善用数据化处理平台,便能够保证数据分析结果的有效性,助力实现数据驱动。

2. 数据分析:机器学习和深度挖掘

数据分析是指用适当的统计方法对数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据功能。数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息提炼出来,并总结出内在规律。

数据分析的概念不难理解,但数据分析是通过什么方法来实现的呢?这就要借助机器学习。机器学习是研究如何用机器来模拟人类学习活动的一门学科,它是研究机器如何获取新知识和新技能并识别现有知识的学问。此处所说的“机器”是指计算机、电子计算机、中子计算机、光子计算机或神经计算机等。机器学习主要包括三种类型:监督学习、无监督学习及强化学习。

监督学习从给定的训练数据集中学习一个函数,当有新数据时,可以根据这个函数预测结果,如图1、图2所示。监督学习的训练集要求包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。监督学习分为回归和分类两种类型,包括线性回归、Logistic回归、CART、朴素贝叶斯、KNN等几种算法。回归是精确值预测。例如,根据已有的销售价格和销售数量建立模型,预测新销售价格对应的销售数量,就是回归的过程。

图1 监督学习模型

图2 监督学习预测模型

无监督学习就是输入一些并不知道输出的数据,然后给这些数据打上标签,如图3所示。它主要有关联、群集及维度降低三种类型,集中使用Apriori、K-means、PCA三种算法。其实,我们每天看的新闻分类就是一个无监督学习,由新闻网站收集网络新闻,根据主题将新闻分成各类链接,读者点击链接时会展现相关的新闻,而这些新闻的关联性不是人工实现的,是算法自动分的。简单地说,监督学习是根据已经存在的数据,如现有销售价格和销售数量,预测在新的销售价格下能卖出多少数量的商品;而无监督学习则是在不知道数据的输出是什么的情况下,根据特征进行分类和预测。

图3 无监督学习模型

强化学习是让机器通过不断的测试,在环境中获得高分。在这个过程中,机器会一而再、再而三地出错,从而获取规律。近两年比较有名的Alpha Go事件,其实就是机器通过不断学习游戏和变换新步骤而得到高分的实例。那么,计算机是怎样学习的呢?其实,计算机就像一位虚拟的老师,只是这位老师比较严厉,它不会提前告诉你怎样移动,不会教你怎样学习,就像学校的教导主任一样只对你的行为进行监督和打分,而不负责教学。在这种情况下,我们怎样获得高分呢?我们只需要记住高分和低分分别对应的行为,在下一次打分时尽量表示出高分行为,避免低分行为,就能够做到。据此,机器学习主要是从历史数据获得模型来预测未知属性,而人类是通过经验总结规律以预测未来,如图4所示。

图4 机器学习与人类思考对比

说到机器学习,不能不提到近年来出现的一个新词——信息机器。信息机器与信息技术密切相关,它不是传统意义上的机械机器,而是接收信息、处理信息的新型机器,诞生于媒介新技术的革新和变迁,更多地体现出人类与机器的交互性。例如,在机器学习的过程中,实际上机器也不断地产生数据和信息,这种现象值得人们高度关注和研究。

除了机器学习,还要提到数据分析的另一种方法——深度挖掘。这就好比挖掘机挖土,挖得越深,就越有可能挖到有价值的东西。数据领域的深度挖掘,就是从大量数据中通过算法搜索隐藏于其中的信息的过程。深度挖掘本质上类似于机器学习和人工智能的基础,其主要目的是从各种各样的数据来源中提取有用信息,然后将这些信息合并,深度分析其中的规律和内在关联。这就意味着深度挖掘不是一种用来证明假说的方法,而是用于构建各种各样假说的方法。深度挖掘不能告诉人们这些问题的答案,只能说明A和B可能存在相关关系,但是无法说出A和B存在什么样的相关关系。与机器学习相比,深度挖掘的概念更广,机器学习只是深度挖掘领域的一个分支领域。

深度挖掘广泛应用于商务管理、生产控制、市场分析、工程设计和科学探索中,通过各种方法来挖掘数据,主要包括分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。

数据挖掘是一种决策支持过程,它通过高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。在市场经济比较发达的国家和地区,许多企业都开始在原有信息系统的基础上通过深度挖掘对业务信息进行深加工,以构筑自己的竞争优势,扩大自己的营业额。美国运通公司(American Express)有一个用于记录信用卡业务的数据库,其数据量已达到5GB,并仍在随着业务发展而不断更新。运通公司通过对这些数据进行挖掘,制定了“关联结算(Relation ship Billing)优惠”的促销策略,即如果顾客在一家商店用运通卡购买一套时装,那么在同一家商店再买一双鞋就可以得到比较大的折扣。这样既可以增加商店的销售量,也可以增加运通卡在该商店的使用率。类似的方法在食品行业也备受青睐。全球著名的卡夫(Kraft)食品公司建立了一个拥有3000万条客户资料的数据库。数据库是通过收集对公司发出优惠券等促销手段做出积极反应的客户和销售记录而建立起来的。卡夫公司通过深度挖掘了解特定客户的兴趣和口味,以此为基础向他们发送特定产品的优惠券,并推荐符合他们口味和健康状况的卡夫产品食谱。此外,出版业也是数据深度挖掘的受益者。例如,美国读者文摘(Reader's Digest)出版公司运行着一个已有40年积累的业务数据库,里面包含遍布全球的1亿多个订户的资料,数据库每天24小时连续运行,保证数据不断实时更新。正是基于对客户资料数据库进行深度挖掘的优势,读者文摘出版公司的业务才能够从通俗杂志扩展到专业杂志、书刊和音像制品的出版和发行。

3. 数据关联:因果关系or相关关系

大数据时代,纷繁芜杂的数据描述的是一个混沌的世界,只有找出看似不相干的数据背后隐藏的逻辑关系和本质规律,才可能看清楚许多真相。目前,对于数据之间的关系,存在两种较主流的看法,即因果关系和相关关系。

对于因果关系,通俗地解释是指一个事件(即“因”)和另一个事件(即“果”)之间的作用关系,其中后一事件被认为是前一事件的结果。从西方哲学的角度来看,亚里士多德较早提出的“四因说”,即质料因、形式因、动力因、目的因,归纳了一般导致结果发生的几个原因解释。后来,在亚里士多德宇宙论的基础上,托马斯· 阿奎那又对这四种原因进行了等级排列,认为目的因>动力因>质料因>形式因。阿奎那把第一因归为上帝,认为尘世的很多事件都是在上帝的设计或计划之中。这种观点流传了很久。不过,在后来的历史中,亚里士多德的“四因说”遭到了后世学者的批评。当代西方哲学中广为流传的关于因果关系的定义出自大卫· 休谟的理论。他提出,人们只是发展了一个思考习惯,把前后相继的两类客体或事件联系起来,除此之外,人们是无法感知到原因和结果的。然而,虽然围绕因果关系是否存在的争论一直延绵不绝,但不可否认的是在传统社会中,因果关系的确对人们分析事物的原因起着巨大的潜移默化的作用。

大数据时代,由于数据对经济生活各个方面的影响,有学者对事物之间的关联提出了新的诠释。例如,舍恩伯格在《大数据时代》一书中一再强调,人们应该在很大程度上从对因果关系的追求中解脱出来,转而将注意力放在相关关系的发现和使用上。他提出,相关关系是指当一个数据发生变化时,另一个数据也可能随之变化,这两个数据有时候没有必然联系。两者可能是正相关,也可能是负相关;可能是强相关,也可能是弱相关。“我们没有必要非得知道现象背后的原因,而是要让数据自己发声”“相关关系能够帮助我们更好地了解这个世界”,他认为建立在相关关系分析法上的预测是大数据的核心。通过找到关联物并监控它,人们就能够预测未来。在大数据的背景下,相关关系较因果关系能在预测功能上展现出更大的优势。对于人们来说,大数据最关键的作用就是利用相关关系进行研究,把数据里面的金子挖出来,或者利用相关性预防或促成某些结果的发生。由于数据超级海量,需要一定的速度应对信息社会“数据爆炸”和诸多涌现出来的“复杂性”,然后才是对其过程和背后原因的探询。

舍恩伯格提到的相关关系与因果关系有很明显的不同。因果关系中,当一个表示原因的数据发生变化时,它对应的结果数据也会发生变化,这两个数据一定是必然关系。但是,有的时候追求因果关系显得既无必要又无可能。例如,在实际生活中,如果要证明熬夜导致秃头,可以找两组身体状况基本一样的人,让一组熬夜,另一组在正常时间睡觉。如果熬夜组秃头的概率大于不熬夜组,那么基本可以证明熬夜和秃头存在因果关系。但是,这种实验在现实中很难做到,因为连原本的客观环境都不能保持一致。而且,这种实验也违背道德,因为很难逼大家熬夜,也无法实时追踪是否熬夜。因此,用因果关系来证明和解释这个现象有待商榷。

那么,大数据时代的关系到底是因果关系、相关关系,还是因果关系和相关关系并存呢?这大概还是取决于人们对数据功能的定位。在相关关系中,预测是大数据的核心功能。对于快速变化的世界来说,探究相关关系的确比因果关系成本更低,耗时更少,而且也更显必要。例如,全球最大的零售商沃尔玛拥有一个超大型的历史交易记录数据库,这个数据库包括每位顾客的购物清单、消费额、购物篮中的商品、具体的购买时间以及购物时的天气。经过分析发现一个规律,就是每当季节性飓风来临之前,不仅手电筒的销量增加,蛋挞的销量也会增加。因此,后来每当季节性飓风来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,这样既方便了行色匆匆的顾客,又大幅增加了商品的销量。在这样的案例中,并没有必要探究为什么手电筒和蛋挞的销量会增加,只要知道这种相关关系就行。

通过相关关系进行预测的案例还有很多。美国折扣零售商塔吉特曾经做过一项关于怀孕女性的预测。公司分析团队查看了登记在婴儿礼物登记簿上的女性消费记录,发现这些准妈妈会在怀孕第三个月左右的时候买很多无香乳液,之后还会陆续买些营养品,整个孕期大概能产生对20多种关联物的需求。通过这些关联物,公司分析团队可以看出准妈妈们的怀孕趋势,甚至能够据此准确地推测出她们的预产期,这样就能够在她们孕期的每个阶段给她们寄送相应的优惠券,从而增加销售额。所以,不论是追求相关关系,还是因果关系,归根结底都是看其能为主体提供什么样的价值,以及主体需要实现什么样的价值。

4. 数据质量:“清洗”后的数据更可靠

大数据时代,人们关注的焦点是如何发挥数据的价值,却鲜有人关注数据质量这个最根本的问题。实际上,大数据处理的关键是解决数据质量问题。《大数据资产:聪明的企业怎样致胜于数据治理》一书的作者托尼·费舍尔(Tony Fisher)曾提到:“如果基本数据不可靠,大多数企业的大数据计划要么会失败,要么效果会低于预期。造成上述结果的关键原因在于,数据生命周期之中流入了不一致、不准确、不可靠的数据。”糟糕的数据质量常常意味着糟糕的业务决策,将直接导致数据统计分析不准确、监管业务难、高层领导难以决策等问题。据IBM统计,错误或不完整的数据会导致业务系统不能正常发挥优势甚至失效;数据分析员每天有30%的时间浪费在辨别数据是否是“坏数据”上;低劣的数据质量严重降低了全球企业的年收入。因此,只有规避数据错误、保障数据质量,才能真正让各数据使用方从大数据应用中获益。

近年来,数据质量管理应运而生。所谓数据质量管理,是指对在数据存在的各个周期中出现的一系列数据质量问题,利用识别监控等措施改善和提高数据质量的管理水平。

其中,数据清洗是数据质量管理中重要的一环,主要是对数据进行重新核验,修正错误数据和去除重复数据,通过过滤掉这些“脏数据”,尽可能地使数据保持一致性和准确性,提高数据质量。

关于数据质量管理,不同的主体有不同思路。曾有篇文章以古人治理黄河水患为例来说明如何管理数据质量,令人印象深刻。

文章提到,现在的数据集成融合就和古人筑堤坝一样:古人筑堤坝是为了约束河水,拓展人类的生存空间;今人做数据集成融合是为了挖掘数据价值,拓展企业的生存空间。古人提出:在修筑大堤前,黄河“左右游荡,宽缓而不迫”;筑堤后河道变窄,发生洪水时泄流不畅,常决口为患。如今的企业在信息化初期,各类业务系统恣意生长,这个阶段就像修筑大堤前的黄河虽然有问题,但是不明显。后来,企业业务需求增长,需要按照统一的架构和标准把各类数据集成起来,这个阶段就像筑堤束水之后的黄河,各种问题扑面而来。古人治理黄河水患,主要有两种方式,一种是“疏通”,另一种是“围堵”。数据质量治理也可以借鉴古人“疏”与“堵”的智慧和考量。“疏”就是开展顶层设计,制定统一数据架构、数据标准,设计数据质量的管理机制,建立相应的组织架构和管理制度,采用分类处理的方式持续提升数据质量。“堵”就是依赖技术手段,通过增加数据清洗处理逻辑的复杂度,使用数据质量工具来发现数据处理中的问题。

5. 数据反垄断:避免数据孤岛的新手段

在2018年12月25日举行的新兴科技中国全球峰会上,被誉为“互联网之父”的麻省理工学院教授蒂姆·伯纳斯·李发表了重要讲话。1991年,他提出了互联网的基石协议——超文本传输协议,并进一步发明了互联网。然而,在此次会议上,“互联网之父”对当前的互联网表示了失望,称“已经失去了原有的精神,需要破而后立”。

伯纳斯·李指出,互联网的发展曾经有一个非常重要的长尾效应。不同规模的企业都有自己的生存空间。但是今天,长尾效应失败了。目前,互联网世界的头部效应是明显的,一些网站占据了主导地位及大部分市场份额。他指出,人类仍然面临许多“数据孤岛”。每个人都在互联网上产生了很多数据,但是这些数据都在像Facebook这样的大公司手里,而且无法连接。这些孤立的“岛屿”不尊重个人,令人沮丧。互联网诞生的初衷是人们可以在互联网世界中形成一个“自由开放的社区”来展示自己的个人想象力。然而,在目睹了一系列个人数据滥用丑闻后,他对互联网的现状感到失望。

伯纳斯·李对现在互联网的不满可以归根于一个很时髦的词——数据垄断。现在,人们提到数据垄断,主要形容“重要数据被控制在少数人手中,并被不合理地分配和使用”的一种状态,而且主要针对互联网巨头企业而言。其实,最早出现的“数据垄断”一词是针对政府的,与“数据民主”相对应。近年来,美国、英国、澳大利亚、新西兰等国家相继建立了政府数据门户,将以前由政府拥有的公共数据推上互联网,掀起了“数据民主化”的浪潮。所谓数据民主化,是指将政府、企业等所拥有的各类公共数据推上互联网,允许任何人访问和下载。也就是说,政府不应该成为数据的垄断者,公民应该拥有对数据的知情权、发言权和决策权。

在我国,“数据垄断”一词是伴随着菜鸟和顺丰事件而兴起的。2017年“六一”儿童节期间,菜鸟和顺丰像两个争抢糖果的小孩子在网络上隔空“掐架”:6月1日下午,菜鸟官微发出一则“菜鸟关于顺丰暂停物流数据接口的声明”,称顺丰主动关闭了丰巢自提柜(由深圳顺丰投资有限公司控股的丰巢科技所提供的智能快递自提柜)和淘宝平台物流数据信息回传;随后,顺丰回应称,菜鸟以安全为由单方面切断了丰巢的信息接口,并指责菜鸟索要丰巢的所有包裹信息(包括非淘系订单),认为菜鸟有意让其从腾讯云切换至阿里云。不过,监管部门并没有让这场“掐架”持续多久。在国家邮政局的调停下,6月3日12点,菜鸟和顺丰握手言和,全面恢复了业务合作和数据传输。

然而,这场突如其来的闹剧,最后却是由用户和卖家买单。在菜鸟和顺丰切断数据接口后,淘宝天猫的卖家无法通过后台录入顺丰快递单号,相当一部分卖家受到影响。根据菜鸟网络给出的说法,双方发生争执后,菜鸟收到了大量卖家和消费者的询问。受影响的卖家担心的是如果继续采用顺丰发货,可能造成财产损失,也会引起买家集中投诉。但是,由于顺丰在冷链物流配送的速度上遥遥领先于其他民营快递公司,要找到合适的替代者确实不容易。

菜鸟和顺丰事件引起了全民热议。在舆论发展过程中,讨论越来越集中于数据方面,“数据垄断”问题被提了出来。不过,这里的对象不是政府,而是企业。

当前,关于数据垄断没有形成统一的定义。从数据占有角度来说,数据垄断是指独占数据。但独占数据本身并不违反《反垄断法》,即使独占的是海量数据。从数据流动的角度来说,数据垄断意味着不共享数据。从个人信息保护角度来说,数据垄断是指控制个人数据。从数据收益角度来说,数据垄断是指独占数据收益。这些说法都有各自的道理,但是又都不完全准确。要构成数据垄断行为,至少应该包括三个要素:一是数据可能造成进入壁垒或扩张壁垒;二是拥有大数据形成市场支配地位并滥用;三是因数据产品而形成市场支配地位并滥用。

2019年2月4日,德国反垄断机构联邦卡特尔局(Federal Cartel Office)采取行动禁止德国境内Facebook在未经用户同意的情况下收集某些类型的消费者数据,指出其数据聚合行为是对其市场力量的滥用。联邦卡特尔局一再强调,一方面,除非用户同意,否则Facebook不能将其拥有的WhatsApp或Instagram账户数据与其主要平台上的其他账户予以关联;另一方面,对于从第三方网站收集其个人数据的情形,用户同样保有同意权。关于Facebook未来的数据处理政策,联邦卡特尔局正在引入Facebook数据的内部剥离措施。与此同时, Facebook对这一裁决提出上诉,认为联邦卡特尔局低估了其在德国面临的激烈的竞争环境,曲解了其GDPR合规状态,而且破坏了欧洲法律引入的确保欧盟内整体一致的数据保护标准的机制。