行业动态| 如何构建数据基础设施?

发布时间:2019-11-29

《中国互联网发展报告2019》指出,2018年中国数字经济规模达A31.3万亿元,占GDP比重达34.8%,数字经济已成为中国经济增长的新引擎,正在深刻改变全社会的生产和生活方式。虽然学界对数字经济的构成模式和理论体系还没有清晰的界定,但数据作为数字经济时代最有价值的生产资料已经是毋庸置疑的共识。

数据应用的现状

云计算、大数据、物联网、移动互联网、人工智能等ICT新技术、新模式的发展和应用无一不是以海量数据为基础,又反过来带动了数据量的爆发式增长。面向海量数据的“采-存-算-管-用”是支撑数字经济运行的基础能力。

数据的有效应用推动了经济社会发展。各行各业加速数字化进程,对数据的有效应用成为关键。如,提高金融风控能力,美国银行的调查指出,银行每创收100万美元,会平均产生820GB的数据,业务数据量高踞各行业之首,远超紧随其后的电信、保险和能源行业。银行是经营风险的行业,一方面,监管层对银行机构的风控能力提出很高要求,另一方面,风控直接会影响银行机构的利润水平。通过对海量数据的有效利用,能够在用户画像、反欺诈、信用评级等方面大大提高银行机构的效率和风控能力。

与此同时,新技术持续推动数据爆发增长。GIV2025报告显示,到2025年,全球将产生180ZB数据。新技术的出现持续推动着数据增长与流动,其中,5G、IoT、车联网带来数据量激增,让数据采集和云边协同能力发生质的变化,5G时代,物联网将得到较大程度的发展,人与物、物与物之间的连接将急剧增多,数据采集渠道将更加丰富,如联网汽车、可穿戴设备、机器人等,这也对数据存储与采集技术提出更高要求。同时,5G时代下越来越多的IoT设备将通过边缘计算进行存储、处理和分析,云、边协同能力变得尤为重要。

新技术和产业的出现,正在加速企业的数字化转型,大量新的硬件与应用带来数据量快速增长的同时,也让数据类型越来越多样化。生产、采集和保存尽可能多的数据,用于全量分析以洞察先机,成为企业的共识。海量数据蕴含巨大的价值,也给存储系统带来了前所未有的挑战,数据存不下、流不动、用不好成为了各行业数据应用最普遍的难题。

创新业务推动企业的数据量从PB级向EB级迈进,由于存储系统仍为传统架构以及成本等原因,当前企业数据仅有不到2%被保存,数据“存不下”的问题日益严重。首先是存储扩展性不足。传统存储由独立的控制器与硬盘框组成,当容量不足时可增加新的硬盘框进行级联,但由于控制器的处理能力受限,存储的扩展能力非常有限。其次是存储协议类型单一,而非结构化数据逐步成为企业数据的主体。随着电商、物联网等业务扩张,80%的新增数据由各类音视频、日志等非结构化数据构成。然而传统存储协议类型单一,无法同时满足块、对象、文件、大数据等多样性数据的存取需求,企业不得不为每一种新的数据类型新增一种存储设备,增加了高效利用存储资源的难度。最后是存储成本依然高昂,越来越多的企业选择将数据长期保存,企业或将因为存储成本而放弃大量宝贵数据。

其次是由来已久的“流不动”的数据孤岛难题。孤立的数据价值并不显著,只有打破“数据壁垒”,最大化释放其价值。然而当前企业保存下来的数据,由于技术与流动性问题,只有10%的数据能得到分析,数据孤岛、多样性设备、业务迁移成为数据“流不动”的主要瓶颈。而产生这些问题的根本原因在于企业在建设数据基础设施时,从满足客户的诉求出发并考虑投资成本问题,会选择不同的计算资源、网络资源和存储资源来分别满足客户的不同诉求。

最后是数据供应不足造成应用复杂低效。海量的数据孕育了前所未有的机遇,也带来了巨大的挑战。不论是“数据多了反而成为一种负担”,还是“数据只是资源,而不是资产,很难产生价值”的观点,其根本原因是没有用好数据,数据没有释放价值。而影响数据价值释放的主要原因是数据供应不足,无法反馈业务本质,支持业务决策。而数据供应不足的主要原因在于,一是大量数据未存储,传统的数据录入需要预先的人工规划,这导致大量非结构化数据以及一些新型的数据无法进入系统(例如IoT数据、视频数据、图片数据等);二是找不到数据,传统企业通常通过数据表来管理和分析数据,规模较大的公司数据表甚至可以达到数百万张,而且分散在各个业务系统中。如果没有统一数据目录和全局数据视图,则无法应对灵活多变的业务需求;三是分析业务通常需要跨平台的数据协同,但如果需要从前端多个业务系统获取新的数据,再加上缺乏统一的隐私与安全共享机制,数据就需要经过多部门间协调、拉通、核实才能获得。数据分析的链路冗长,无法保证数据供应稳定和高可用,更无法实现高效的数据融合分析。

构建数据基础设施

社会数字化、智能化加速发展,海量的数据带来了巨大的挑战,也孕育了前所未有的机遇。各行各业都在加速数字化和智能化进程,越来越多的企业已经意识到,数据基础设施是数字经济成功的关键,而数据“存不下、流不动、用不好”等问题也促成了各行业积极构建新型数据基础设施,加速实现数据价值变现。

数据基础设施的范围应涵盖接入、存储、计算、管理和数据使能五个领域,通过汇聚各方数据,提供“采-存-算-管-用”全生命周期的支撑能力,构建全方位的数据安全体系,打造开放的数据生态环境,让数据存得了、流得动、用得好,将数据资源转变为数据资产。新的数据基础设施是传统IT基础设施的延伸,以数据为中心,服务于数据,最大化数据价值。

数据基础设施由基础设施层和数据管理层组成。

其中,基础设施层包括存储、计算、网络等硬件设施,区别于传统的硬件设施,数据基础设施将引入多样性计算,从单一算力到多样性算力,匹配多样性数据,让计算更高效;存储也会从单一类型存储走向多样性融合存储,构建融合处理基础,应对存储效率低、管理复杂的问题。数据管理层由操作系统、数据库系统及大数据系统组成,构成支撑数据存储及数据全生命周期管理的软件设施。将结合大数据系统和数据库系统提供全流程的软件支撑,从单一处理向多源数据智能协同、融合处理发展,应对更实时和智能的数据应用需求,加速实现数据价值。

数据基础设施应具备以下5个特征:融合、协同、智能、安全、开放,以帮助企业实现存储智能化、管理简单化和数据价值最大化。

融合数据基础设施包含五个层面的融合。异构算力融合:支持以GPU,FPGA和ARM为代表的异构计算,即从单一算力到多样性算力,匹配多样性数据,为中心、云和边缘提供更高性能的计算资源,使能数据基础设施中的应用更高效运行;存算融合:将一些数据的处理直接在存储控制器中的盘内进行处理,将计算出来的有效数据返回给计算层,这样可以最大限度地减少在存储层和计算层之间移动的数据量,提升计算效率;数据库存储融合:采用计算-存储分离部署的架构,数据库计算和存储资源可以灵活配置,根据业务需要各自独立进行弹性扩展,使得资源匹配更精准、更合理,大幅提升资源利用率;协议融合:支持多种应用和数据源的接入,并通过开放式数据接入框架,灵活扩展接入第三方数据源;格式融合:为上层应用和客户端提供工业界标准接口,能够支持多种服务,如块存储服务、文件存储服务、对象存储服务和大数据存储服务。消除传统数据基础设施中多类型存储系统烟囱式构建而形成应用孤岛。实现一份数据同时满足数据库、大数据、AI等多种业务的分析需求。

协同数据基础设施包含六个协同场景。跨数据源协同分析:实现分散在多个数据源的多张数据表进行交叉分析。如常见的数据源:Hive、SparkSQL、MPPDB、ES、HBase、Oracle、MySQL等;跨域协同分析:实现分散在异地数据中心的多张数据表进行碰撞分析。可以像访问本地数据表一样访问异地数 据表,并可以将分散在多地的数据表进行碰撞操作;云边协同分析:实现云侧和边侧之间特殊的跨源、跨域协同分析;异地数据即时访问:只要数据进入一个数据中心,通过协同分析联网的其他数据中心就可以马上访问这部分数据,而不需要等待数据复制到本地;统一访问接口:协同分析对外提供SQL或命令行等统一的查询接口,降低开发人员的学习门槛。开发人员无需关心数据的存储位置,只需要像处理本地数据一样提交处理任务;跨域计算能力共享:同一个企业组织的多个数据中心分布在不同地域,不同地域之间的计算资源利用往往不平衡,通过协同分析的任务分发和调度能力,可以实现跨域的计算能力共享,提升整体资源利用率。其中涉及的关键技术包括:智能算子下推、计算任务下推、跨域高速数据传输等。

智能数据智能是一个跨学科的研究领域,它结合大规模数据处理、数据挖掘、机器学习、人机交互、可视化等多种技术,从数据中提炼、发掘、获取有揭示性和可操作性的信息,使数据“智能”,为人们在基于数据制定决策或执行任务时提供有效的智能支持。数据智能的标志是数据驱动决策,让机器具备推理等认知能力,大数据能够指导决策。同时完成业务数据化的进程,开始进入到业务智能化,依靠数据去改变业务。智能的数据基础设施应该从每个环节都能够提供智能化的能力支撑。其中,智能数据治理是当中的关键环节之一。数据治理需要人工流程保障一系列数据规范、标准的贯彻执行。而智能化的数据治理能够让数据规范和标准的保障自动判断,自动完成,减少对人工审核的依赖;数据治理需要大量数据专家理解数据,理解业务,构建数据安全和数据质量体系,基于AI的数据治理平台通过算法理解数据和业务,对不同的数据自动采取相应的分类安全和质量保障体系,降低对专家的依赖。数据治理的智能化可以降低客户数据治理方案的总体成本,缩短上线周期,减少对人的依赖。

安全数据基础设施承载着海量的数据,包括业务的核心数据以及隐私数据。这些数据支撑着企业的所有业务和运营,关系着企业的生命线。需要构建全方位的数据安全体系,帮助企业实现数据在全生命周期过程中的数据不丢失、不泄露、不被篡改、业务永远在线、可追溯和隐私合规。数据基础设施应具备平台安全、数据安全、隐私合规三个层面全方位的安全技术体系。平台安全即系统自身的安全和防攻击性是安全防护体系的基石,需要从产品的需求、设计、开发、测试、交付和运维的整个生命周期进行管控,确保系统具备预期交付承诺的安全能力,满足交付质量的要求。数据安全是指基础设施为支撑数据存储、传输、处理等全生命周期过程提供的数据安全保护能力,如数据加密、数据隔离、访问控制、完整性校验等。数据融合背景下,由于缺乏有效的安全访问控制,不同网络融合、各种数据汇集,数据泄露及滥用风险成为主要矛盾之一。隐私合规是指基础设施为保障数据存储、移动、再利用等过程中的合规提供的能力,如数据脱敏、违规分析、密文搜索、同态加密等。

开放“开放”的数据基础设施需要包容开放的技术和产业生态。数据产业是一个有众多细分领域、众多参与者的产业,它需要数据、产品和服务间的紧密协同,而数据基础设施作为其中的关键支撑环节,涉及到硬件产业、软件产业,以及各类开源技术、闭源技术等,这就决定了数据基础设施具有生态复杂性,需要很强的生态协同能力,并通过技术和产业的开放性来吸引更多的参与者以保持生态的活力。构建“平台+生态”的数据基础设施新模式,需要产业各环节的协同操作,包括基础设施和应用服务间的协作、同类型供应商之间的协作、上下游供应商之间的协作、甚至内部产品之间的协作。使产业链上下游实现高效率、低成本的多赢局面。制定公平、透明规则,建立生态信任体系与建立价值分享模式是实现产业生态开放与协同的两项重点内容。

过去十年,中国数字经济蓬勃发展,而数据已经成为了数字经济时代的最核心的生产要素。海量数据蕴含巨大的价值,在带来更多机遇的同时,也给传统的IT基础设施带来了前所未有的挑战,培育和建设新的数据基础设施成为了解决数据应用问题的关键。融合、协同、智能、安全、开放的数据基础设施可以帮助企业实现存储智能化、管理简单化和数据价值最大化。随着企对基础设施(包括数据基础设施)的要求也会逐步提升,其稳定性和先进性将深刻影响到企业数字化转型的效果和进程。

来源:泰一数据

上一篇:关于北京人大金仓信息技术股份有限公司 下一篇:行业动态| 大数据能为宏观经济分析做什么