第七节 原子数据
伴随着人类社会的发展,人类通过不断地创造工具、不停地发展技术,在改变环境的同时也对自身所生存的世界,以及自身所生活的社会有了越来越多的认识与感知。作为高等动物的人类,在认知的过程中在自己的大脑中储存了自己对世界、社会、感情等的认识,它们被储存在脑细胞中,以神经电与神经递质的形式在体内传播,然而为了将储存于大脑中的内容出离于自身的脑细胞,输出到自身以外的世界,于是对媒体的需求就随即产生。
5万年前人类从手脚比画的肢体动作逐渐进化出了可以口口相传具有语意的语言,语言作为第一种成型媒体,人类在语言交流中“信息”得以产生。在随后的万年人类进化史中,人类为了信息跨时间的交换,发明了文字;为了更好地留存与传播,从龟甲、青铜、竹简到了纸与印刷,于是信息得以在实体媒介上留存、固化,人们通过笔迹识别信息的真伪,而1940年马丁·卡门、萨缪尔·鲁宾关于碳14放射性同位素测年法的发明,则为这个阶段的信息储存提供了可追溯的时间验证方式;为了进一步打破空间的束缚,电报、电话、广播、计算机被逐步发明。在现代,信息再次被归于无形,它们成了磁场与电磁波,成了储存于磁盘中与传播于电缆、空气、光纤等各种介质中的数据。而信息的产生也不再局限于人类的大脑,计算机被编程的自动逻辑逐渐被人类升级成了越来越接近自身的人工智能,于是机器同人类大脑一样开始产出对世界与社会认知的信息。
原子数据所要具象化的即这些已被化为磁场与电磁波的数据信息。让这些爆炸式无处不在的信息同它们的祖先们——那些雕刻在龟甲上、书写在丝绸上、印刷在纸上的信息——一样,再次获得可以被留存、固化、认证与追溯的属性,并且让一切信息可以回溯到人类或者机器认知的本源,回溯到它们离开神经元或者处理器那一刻所表达的真实意义。
“27 59 17 86 55 31 8848 NE度分秒米”,这些分散的数字并没有意义,然而当它们被正确排列时“27度59分17秒N,86度55分31秒E,8848米”则表示了地球第一高峰珠穆朗玛峰的三维坐标信息。“珠穆朗玛峰的三维坐标是北纬27度59分17秒,东经86度55分31秒,海拔8848米”,这样的编译方式才是人类,或者说使用现代汉语的人类所能够理解的知识。然而这一切知识被正确传达的基础,则是所采集数据的正确性、数据组合向信息转换的合理性、信息通过语法组织编译为知识的准确性,原子数据所需要确保的就是当四颗卫星共同输出了“27度59分17秒N,86度55分31秒E,8848米”这组数据时它即被固化,并在随后的信息转化、知识编译的全过程中不会出现任何被篡改、错配或者遗漏的可能,从而保证数据——信息——知识的全过程被完整真实地保留。
原子数据的“原子”是为了体现其物理属性,即电子数据物理化、实体化、具象化。使得电子数据也同在龟甲、青铜、竹简、纸等实物上所记录的信息一样简单而直接,一旦产生即不可被修改,能够验真、能够验时、能够保留数据从产生开始的每一个状态。除此之外,原子数据所包含的是能够完整证明、真实记录一条知识所需的最小数据集合。它所包含的数据必须能够经过编译,成为“珠穆朗玛峰的三维坐标是北纬27度59分17秒,东经86度55分31秒,海拔8848米”这样准确真实地传递知识的数据集合。
比特币与区块链的技术架构通过数学逻辑与加密学算法,实现了数字世界虚拟资产的竞争性。竞争性是经济学中财产的特征,大部分有形财产都具有竞争性,而区块链的架构使得原本可以被无成本、不留痕迹地复制与更改的数据信息开始具有了同实物财产一样具有竞争性的特征。就像我们身边的世界是真实而可以触及的一样,原子数据将会简化这个纷繁复杂的数据世界,并保证每一份数据都对应真实原始而完整的信息。
一、虚拟与现实的融合
随着互联网的高速发展,以及芯片计算能力追随者摩尔定律的指数级增长,我们所生活的世界几乎被智能设备所包围。一台智能手机或者一只智能手表的计算能力已经远远超出20世纪计算机时代一整个机房所能输出的算力。而光纤技术的发展也使得互联网的连接变得更加毫无障碍,从台式计算机到笔记本电脑,从智能手机到穿戴设备,无处不在的智能传感器已经在无时无刻地将我们的现实世界映射到互联网所构建的虚拟世界之中。
虚拟现实诸如Oculus Rift,增强现实技术就像Google Glass、HoloLens,正通过新的呈现方式“骗过”人的眼睛,让人类看到原本不属于物理世界的影像。而二维码技术、RFID技术由于其可观的数据存储量,也成了物理世界被虚拟传感器数字化的标识。
从图2.62波士顿动力公司的Atlas机器人测试中,可以看到到处贴着的二维码,而这些二维码正是机器人利用自己的视频捕捉传感器,捕捉现实世界所使用的标识。

在互联网的起始阶段,数据仍像涓涓细流,缓慢地将现实世界倾注入虚拟世界形成镜像;而当前,数据已然是浩浩荡荡的大潮,将物理世界不断地映射入虚拟世界的海洋。人类也在不断地发掘虚拟世界的价值,使得虚拟世界再次反作用于身边的现实。在这样一个虚拟与现实融合得如此紧密,并且还在不断融合的时代,已经没有人可以独善其身,没有人可以不受到来自虚拟世界的影响。而既然互联网的终极世界是镜像世界,如何让镜像中数据化的虚拟世界与原本的现实物理世界一样真实、一样可靠,让虚拟等于真实才是让原本两个互相分立却互为镜像的世界真正实现融合的基础,也是人类最终不迷失于虚拟世界之“虚”,而是享受互联网世界之“实”的最终保障。
二、新互联网时代需求
当前主流的消费互联网以满足消费者在互联网中的消费需求为己任,以技术为驱动在连接人与信息、人与人、人与商业几个方面实现了传统媒介、通信及商业形式向互联网的迁移,因此在中国出现了百度、阿里巴巴和腾讯这样的互联网巨头。从发展阶段划分,其具有两个明显阶段,首先是其从诞生就具有的媒体属性和其日渐清晰的产业属性。从以提供资讯为主的门户网站,到用户自创内容的自媒体,再到分享用户意见、见解、观点、经验的社交媒体,构成了互联网的媒体基础。在这个阶段,互联网的核心模式是以流量变现来维护互联网的“免费精神”,通过免费提供高质量的内容和有效信息的提供来获得流量,再将流量导入广告或游戏来变现。这种以流量为基础、以消费为主线的互联网商业模式被形象地称为“眼球经济”。消费互联网的特性即是所谓的“流量为王”,通过将以个人为主体的线下活动吸引至线上进行,使得人们的活动范围、连接范围等物理局限通过互联网技术被打破,形成了便利优势。
在消费互联网阶段“流量为王”的驱动下,互联网用户数量激增。据世界银行统计,截至2014年年底中国互联网用户已占中国总人口的49.3%,约6.87亿名用户;同时智能手机的迅速普及已经使得中国每百人手机拥有量高达92.27部。也就是说,消费互联网时代,中国大量用户被智能手机、个人计算机、穿戴设备等设备连入了互联网,也因此产生了大量的在线数据。面对如此大量的在线数据,“大数据”分析便成了新的热门。然而在这个阶段,由于互联网的服务对象以个人为主,服务范围没有超出提供个性娱乐的范围,互联网上的数据主要以娱乐内容为主,在电子商务中除在线支付外也是以商品展示为主,大量的冗余数据在各种活动中产生。因此在这个阶段所产生的数据具有大量的噪声和随意性,其数据的可靠性、准确性和可信性尚没有得到广泛的重视,因此对消费互联网所产生数据所进行的所谓“大数据”分析,往往受到了数据质量的严重局限。
随着互联网在各个行业的渗透逐渐加深,互联网经济的关注热点从个人向企业转移。传统产业融合互联网的思维、技术和商业模式,加速了传统产业的转型升级。在产业互联网时代互联网已经不是行业主体,而是作为一种提供信息能量的能力和工具,像水电煤气一样成为社会的基础设施。产业互联网的兴起带动了各传统行业如制造、医疗、农业、交通、运输、教育的互联网化。同时,由于传统的消费互联网巨头在行业经验、渠道、网络和产品认知等方面的局限性,传统行业巨头在产业互联网的蓝海中具有相对优势。
不同于消费互联网B2C为主的发展模式,产业互联网以生产者为主要用户,即B2B。以“价值经济”为消费者提供更好的产品和服务体验,通过在生产、交易、融资、流通等各个环节提供网络技术服务,从而提升生产效率、交易效率,优化资源配置,创造出了比“眼球经济”更具价值的产业形态。产业互联网通过供应链、现金流融合一个产业的上下游,通过服务对象的需求融合几个产业,通过消费互联网所建立的基础进一步融合终端个人客户,从而形成一个B2B2C的全面融合局面,如图2.63所示。

在这场变革中,商业模式的创新和技术的创新成为产业互联网的催化剂。一方面O2O成为产业互联网的新兴商业模式,线上线下一体化是主要趋势。这里又分两个层次:从个人用户的角度讲,人们希望看到网络世界和现实生活有机融合,未来的科技服务能使他们无论是在线上还是在线下,抑或任何时间和地点,都能保持一致的体验。产业互联网适应这个需求从原有以企业为导向的规模型设计转向以用户为导向的个性化设计,企业生产的各个环节从产品功能研发到产品包装设计,都通过互联网思维和用户建立紧密联系;从企业的角度讲,传统企业充分利用线下资源的优势,拓展线上平台,将线下业务流程进行线上管理;为了节约资源与时间成本,企业也更加重视线上平台交易与建立,通过逐步完善支付、电子商务安全认证等体系,促使大量交易由线下转移到线上交易,最终实现生产、交易线上线下一体化。
随之而来的是云计算和大数据成为产业互联网的基础设施,这两个层次均需要大量数据作为商业模式的支撑。个性化生产和服务需要数据进行用户行为的分析,生产性服务和产业生态衔接需要产业生态的数据资产作为纽带,因此数据变得日益重要,且对数据的存储和分析技术有了新的要求。个人和企业服务的线上线下融合,意味着来自个人和企业的大量信息将全天候不间断地向信息中心传递数据。高效运作的云计算能力将对海量数据进行有效处理,协助企业重塑生产环节、交易环节、中间环节,加速产品的革新和商业模式的改变;提升消费者服务体验,增加服务形式。新的计算技术与应用将以更低成本的数据存储和更快的数据分析能力,推动产业互联网时代的到来。
由于产业互联网所服务的对象不再单一,服务的目的也不再是提升个人用户的消费体验或便利,而是通过在生产、交易、融资和流通等各个环节的网络渗透,从而达到提升效率、节约能源等作用,因此产业互联网的连接所产生的数据被赋予了更高的价值期望。产业互联所导流的信息与数据必须精确、真实、可靠、可信,才能实现互联网的全面有效融合,而这些需求则对于当前仍处于消费互联网阶段的数据结构提出了严峻的挑战。
三、原子数据定义与属性
1.原子数据定义
原子数据是基于时效性要求,可完整准确证明和记录某一事件发生或存在的最小数据集合,该数据一旦产生即不可被修改且可通过恰当合规的方式进行访问。
它的首要特点就是“小”。这个“小”在大数据中对应的就是“粒”,可以是一条通话记录、一段录像视频,也可以是一封电子邮件、一条短信、一张电子相片或图像、一条微信留言,还可以是一张电子交易凭证、一份电子合同等,不一一列举了。它的另一个重要特征是必须具有真实性,能够证明及记录原子数据产生过程的事件真相,它必须是原始数据,不能有任何有意或无意的改变。它的另一显著特征就是具有完整性,原子数据拥有事件本身的数据及与其相关的基本数据要素,如原子数据产生的时间、地点、拥有者等。原子数据还有类型多、发展快的特点,它的发展变化与大众的需求紧密相连,只要有新的需求,就会有新的原子数据类型产生。原子数据来源广泛,它来自大众,又服务大众,每个人都有可能产生原子数据或与其产生联系,大数据对大众而言,看不见摸不着,而原子数据对大众而言,看得见摸得着,并与切身利益相关。
2.原子数据特征
(1)原子性:原子数据是证明和记录某一事件发生或存在的最小数据集合,且不可再分。
(2)真实性:数据必须如实反映事件的本来面貌,未经篡改。
(3)完整性:原子数据应包含该事件的所有相关数据。
(4)可获取性:能够在适当的时间以适当的格式和方式访问原子数据。
(5)安全性:具有数据操作权限控制,原子数据不能被非法使用。
(6)不可更改性:原子数据一旦产生,则不能再被更改(包括被覆盖、被擦除)。
(7)安全性:具有数据操作权限控制,数据不能被非法使用。
(8)准确性:数据记录的信息不存在异常和错误。
(9)时效性:所有数据都在各项相关政策和规定所定义的时限内满足以上要求。
3.原子数据形态
大数据来源于处理领域,原始的数据由人们无意识地产生,主要通过数据分析算法发现数据的关联性,大数据的目标在于数据增值。对大数据的发掘依赖于大量地删选和去杂音,同时由于大数据的产生本身没有逻辑关系,因此其随机性常常造成一个一个的数据孤岛,如图2.64所示。

相对地,原子数据则主要产生图处理领域,是人们为了特定场景、特定目的而有意产生的数据,其目的是通过保证数据的真实、系统与完整性来达到数据的保值。而产业互联网中对在生产、流转、存储各个环节的特定场景需求,则说明了原子数据在新互联网时代的适用性。
4.原子数据实例
为了严防科研腐败,目前国内科研经费的管理规则被极度细化,强调实行事前预算评估、事中经费监督和财务检查、事后财务验收和审计的全程预算管理程序,如图2.65所示。采用行政化的手段管理科研,使管理趋于僵化。

科研项目中的科研经费报销要求提供招标文件、设备清单、银行流水、设备出入库单、差旅费支出等一系列数据,这些数据需要从多个部门获得,项目管理部门无法获得完整、真实的数据,因此要求科研单位事先提供非常细致的预算,事后提供大量单据,造成极高的时间、人力成本,同时无法做到真正的监控。
四、原子数据的应用价值
由于原子数据的理论体系的目的在于建立一个真实可信的数据社会,从而替代当前数据杂乱且数据复制、篡改、替换无成本的大数据现状。因此原子数据生态能够首先通过类似于区块链存在性证明这样的应用场景,实现电子数据的固化,即实现虚拟世界中对数据的笔迹验证、印鉴验真、碳14同位素测年,从而实现关键数据的保全。这些关键数据涉及了法律合同、著作权、专利等知识产权证明、财务数据、税务数据及操作流程数据等。
保全后的关键数据通过类似于区块链的开放性验证模式,逐步实现各项流程的透明化、自动化操作。从行业监管、社会治理,到司法立法都能够实现建立在真实可靠数据上的数字化发展。
对于企业来说,原子数据结构下的数据保全断绝了制造假账、偷税漏税、违法经营的可能,也同时由于全程的可信数据化,使得企业能够实现远程报税、财务自动化、生产管理自动化等便利,真正实现工业4.0,大大节约了企业成本,提高生产效率。对于政府来说,政府本身基于数据的公开化、自动化服务,能够为企业和个人提供巨大便利的同时,也能够更好地建立与公民的互信机制,真正实现实时反馈、全民监督,对国民经济的调控也能做到真正的有的放矢。在法律层面,真实的数据证据不仅能够实现更为公平、公正的司法执行,更能够为立法提供更为真实、直接的依据,使得国家能够通过有效立法来长效地解决社会问题。






本书评论