5G 为大数据而生
数据是数字经济的关键要素,大数据是当前最受瞩目的技术之一,深受科学、技术、产业、资本等各界的青睐和追捧。国际电信联盟在2013年11月发布了题为《大数据:今日的大问题,明日的平常事》(Big data: Big today, normal tomorrow)的技术观察报告,分析了大数据相关的应用实例,指出了大数据的基本特征、应用领域和面临的挑战与机遇。2014年12月2日,全国信息技术标准化技术委员会大数据标准工作组正式成立,下设7个专题组:总体专题组、国际专题组、技术专题组、产品和平台专题组、安全专题组、工业大数据专题组、电子商务大数据专题组,负责大数据领域不同方向的标准化工作。国务院在2015年8月31日印发了《促进大数据发展行动纲要》,明确指出了大数据的重要意义和主要任务,同时指出大数据已成为推动经济转型发展的新动力、重塑国家竞争优势的新机遇、提升政府治理能力的新途径。2015年12月,中国电子技术标准化研究院在工业和信息化部信息化和软件服务业司、国家标准化管理委员会工业二部共同指导下编纂发布了《大数据标准化白皮书V2.0》,在援引了多家权威机构、知名企业的定义后,给出了国内对大数据概念的普遍理解:具有数量巨大、来源多样、生成极快、多变等特征,并且难以用传统数据体系结构有效处理包含大量数据集的数据。而5G时代将是一个大数据爆发的时代。
大数据的数据特征
对于大数据的数据特征,通常引用国际数据公司(International Data Corporation,IDC)定义的4V来描述:
(1)数据种类多(Variety)。
除了一般意义上的结构化数据外,大数据还包括各类非结构化数据,例如文本、音频、视频等,以及半结构化数据,例如电子邮件、文档等。数据结构的多样性、复杂性大大提升了数据处理的难度,对系统软硬件提出了更高的要求。如何根据数据结构特性选配合适的硬件设备,制定合理的数据结构预处理方案,是对当前现实情况有针对性的研究重点之一。
(2)处理速度快(Velocity)。
针对大数据的数据处理系统,若
不具有工业级实时处理能力,在实际应用中也就不具有时效性。当今,电子技术的发展极大地提升了硬件的处理能力,然而,相比之下,数据的复杂性和庞大的体量仍然使得高效实时的数据处理在很多场景下显得困难重重。
(3)数据容量大(Volume)。
相对于传统系统而言,大数据系
统的容量必定是海量的,这就需要大数据处理系统具备强大的数据存储和处理能力。除此之外,在特定情况下,数据量往往会出现波动和急剧增长的情况,进一步对系统形成了考验。
(4)数据价值高(Value)。
虽然大数据包含的数据量庞大,但是具有复杂多样结构的海量数据中真正有价值的数据占比很可能是极少的。也就是说,整体而言,大数据的数据价值密度低,如何判断并筛选价值高的数据是相应处理系统的关键技术之一。
随后,一些组织、机构与个人根据各自理解与对数据的要求,对IDC所定义的4V特征进行了改进和拓展。IBM在2013年3月给出的《分析:大数据在现实世界中的应用》白皮书中对4V进行了重新定义,在保留了涵盖大数据本身的关键属性的Variety(种类)、Velocity(速度)和Volume(容量)的同时,还考虑了一个重要的第四维度:
Veracity(精确性),来凸显与管理某些类型数据中固有的不确定性的重要性。《大数据标准化白皮书V2.0》中转引了阿姆斯特丹大学尤里·杰姆琴科(Yuri Demchenko)等人基于原有4V基础上拓展为5V的理论,即增加了Veracity(真实性),对大数据的可信性与真伪提出了要求。
各国际标准化组织对大数据开展了较多的研究工作。ISO/IEC JTC1 SC32(数据管理和交换分技术委员会)下设电子商务、元数据、数据库语言、SQL多媒体和应用包四个工作组,致力于研制信息系统环境内及其之间的数据管理和交换标准,为跨行业领域协调数据管理能力提供技术性支持。2013年11月成立的ISO/IEC JTC1 SG2负责调 研 国 际 标 准 化 组 织 ( ISO , International Organization for Standardization ) 、 国 际 电 工 委 员 会 ( IEC , International Electrotechnical Commission)、第1联合技术委员会(ISO/IEC Joint Technical Committee 1,ISO/IEC JTCI)等在大数据领域的关键技术、参考模型以及用例等标准基础,确定大数据领域应用需要的术语与定义,评估分析当前大数据标准的具体需求,提出ISO/IEC JTC1大数据标准优先顺序。2014年11月成立的ISO/IEC JTC1WG9(Work Group9,大数据工作组)负责大数据国际标准化,具体工作包括开发大数据基础性标准,包括参考架构和术语;识别大数据标准化需求;同大数据相关的JTC1其他工作组保持联络关系;同JTC1外其他大数据相关标准组织保持联络关系。国际电信联盟ITU–T SG13(ITU–T标准化部门第13研究组)负责大数据的标准化工作,下设Q2、Q17和Q18(分别指不同的课组),并由Q17牵头开展ITU–T大数据标准化路标的制定工作。
从技术角度上看,大数据离不开海量数据采集、云计算、数据挖掘等技术;从学科角度上看,大数据属于数据科学。作为新兴的交叉学科,数据科学本身的基础体系尚未发展成熟,具有较多的开放问题有待深入讨论,但这不影响大数据技术在各个领域的成功结合与应用,尤其是人工智能领域。
5G时代的大数据
大数据自2005年随Hadoop(分布式计算)技术诞生而萌芽,到逐渐受到技术认可,进而被各国政府重视,我国已将其列入十二五、十三五规划中,大数据已逐渐成为产业中不可忽视的一部分。5G时代为以大数据为中心的多领域技术全面进步提供了很多机遇,并能够通过高带宽支持粒度更高的数据传输与处理,通过低时延推动更多样算法模型的实现,通过高可靠性扩展更高难度的应用场景,使大数据在多种应用平台上得以实现价值化操作。
首先,5G的高速率网络传输将为大数据提供源源不断的海量的数据规模。5G支持x速率的高密度用户传输,单位面积的联网设备可达到4G的100倍。
5G使大数据内容更加充实和丰富。5G对万物互联的支持,能够增加数据的来源多样性,并进一步丰富数据维度。如物联网、智能家居、可穿戴设备、车联网、智慧城市、智慧工厂、农业物联网、远程医疗、无人机等。来自各种设备终端、各行各业的结构化或非结构化的数据的收集将更加可行和容易,进而促进大数据的算法落地和新技术的研究开发。数据都是来自已知世界,没有超出数据采集终端的范围,所以必然造成对未知世界的无知。通常,机器学习是基于已知观测数据建立模型,并依据模型来求解问题。获取更加丰富的大数据内容将有助于以机器学习、深度学习为代表的大数据智能处理技术发展,从而突破“黑天鹅”认知瓶颈。
5G促进了大数据分析处理能力的提升。5G的数据传输速率和网络架构能力都有显著的提升,这对大数据分析处理平台是非常有利的。
大数据的海量数据运算量难以通过单一平台支持,通过5G网络较高的数据速率和超低时延级联多台运算和存储设备并行处理,高效协作,将促进更多受以往设备和网络连接所限的数据处理算法的实现和应用,并进一步推动大数据运算能力的提升。
5G对大数据应用垂直化起到了积极作用。大数据应用的垂直化一定程度上被自身所牵制,不利于人工智能的快速发展,而5G将为垂直业务带来发展机遇。大数据应用对垂直行业的专业性要求很高,只有深入理解垂直行业的需求、现状,才有可能有效发挥大数据的优势。
而人工智能从专家系统开始就已经意识到业务的专业性是该领域发展最大的瓶颈。5G能够加速垂直行业的数字化转型,带来更广阔的覆盖和更稳定的网络连接。同时,5G得益于其技术的融合特性,具有广泛的应用范围和良好的适应性,能够多行业、多领域运作,最终促成传统垂直行业的大数据采集与处理,并推动人工智能技术在垂直行业的进一步发展。
虽然当前大数据技术和应用在很多方面还不够成熟,行业生态还不够完善,各方面尚面临诸多挑战,但在5G新技术的助推下,在各项制度的逐步完善下,5G必将助推大数据来为世人呈现出一个美好崭新的未来。
本书评论