腾讯云的四代大数据平台进程

930 变革两年后,被寄予厚望的腾讯云在 To B 这张考卷上都写了什么?

从「深圳市腾讯计算机系统有限公司」注册成立,到成为服务用户最多的中国互联网企业之一,腾讯经历了互联网发展的黄金二十年。拥有众多国民级应用、十多亿 C 端用户的同时,这家公司对于自身技术的披露却一向低调。

当然,事情也正在发生变化:两年前,腾讯宣布正式「拥抱」产业互联网,并进行了第三次组织架构调整,史称「930 变革」。这家科技巨头积淀多年的技术能力,终于越来越多地从幕后走到台前,被寄予厚望的腾讯云,成为腾讯 To B 路线中的一张王牌。

在前段时间举行的 2020 腾讯全球数字生态大会上,腾讯云副总裁刘煜宏透露:经过十年的积累,腾讯云大数据平台的算力弹性资源池达500万核,每日分析任务数达 1500 万,每日实时计算次数超过 40 万亿次,每日接入数据条数超过 35 万亿条,训练数据维度达 1 万亿。无论从量级、平台规模还是调度量,腾讯大数据平台在国内都处于领先水平。

根植于 To C 业务多年沉淀,再到转身 To B,一路走来,为什么腾讯云能踩对历史的进程?

10 年,腾讯云迈了 4 个台阶

很难想象,十年前的腾讯「管理几百个节点都很困难」。

2019 年的腾讯 Techo 开发者大会,是大众和业界第一次真正走近腾讯云。在那之前,腾讯刚刚完成第三次组织结构调整,腾讯云从原社交网络事业群(SNG)转入新成立的云与智慧产业事业群 (CSIG)。大会上,腾讯云首次完整介绍了自身多年来在基础设施和大数据计算方面的实践成果。

虽然低调,但腾讯已经是国内实时计算量最大的公司。通俗地理解,微信、QQ、腾讯游戏三者的用户数量就接近 30 亿,所带来的海量数据可以想象。尤其在 2012 年之后,移动互联网进入高速发展阶段,这让腾讯的业务数据在五六年间增长了几千倍。

百亿、千亿、万亿、十万亿…… 在这种爆炸式增长的趋势下,腾讯云必须快速成长。

去年 Techo 开发者大会,腾讯云副总裁、数据平台部总经理蒋杰首次正式对外介绍了十年来腾讯云大数据的演进之路。

离线计算阶段(2009 年 – 2011 年):以 Hadoop 为核心的离线计算时代,直接用社区的版本计算,再做一些局部优化,腾讯第一代大数据平台由此构建。从关系型数据库到自建大数据平台的全面迁移,腾讯用了三年。

实时计算阶段(2012 年 – 2014 年):这一阶段的背景是 PC 互联网向移动互联网的进化,对业务计算能力也提出了更高的要求。这个阶段的腾讯从 hadoop 转向以 Spark、Storm 为核心进行流式计算,从之前的天、小时、分钟迈进到秒级、毫秒级的时代,开始支持在线分析和实时计算场景。这个阶段也是三年。

机器学习 & 深度学习阶段(2015 年 – 2018 年):这一阶段主要完成了从数据分析到数据挖掘的转变,可归纳为「智能化」。之后,腾讯研发了分布式的机器学习引擎 Angel 和一站式 AI 开发平台智能钛 TI,专攻复杂计算场景,可进行大规模的数据训练,支撑内容推荐、广告推荐等 AI 应用场景。

目前,腾讯云正在研究以批流融合、ABC 融合以及数据湖和联邦学习为方向的下一代大数据平台的研究,该平台将具备混合部署、跨域数据共享和边缘计算等能力。

十年来,伴随着业务发展,腾讯云形成了「大数据 + AI」的双引擎技术架构:

从这张图可以看出双引擎技术架构的整体布局,最底层为分布式存储层,存储结构化及非结构化数据,第二层是资源调度层,做 CPU、GPU 和 FPGA 的管理,第三层是计算层、分析层、数据采集层。最顶层是业务应用层,这四层完整的技术架构,自下而上为腾讯整个应用生态提供支撑。

全链路数据开发平台 WeData

我们可以从一张图来理解腾讯云的大数据产品矩阵,分为基础设施、场景开发、应用服务三个层面。

第一层是底层基础的存储计算设施,包括 EMR、神盾联邦计算;中间一层是产品开发层,强调「开箱即用」;最上面是应用层,提供了各种比较接近业务的 SaaS 化产品。

这张图的 C 位、全链路数据开发平台「WeData」,是腾讯云前不久才发布的重磅产品。

为什么要做 WeData?腾讯云大数据产品副总经理雷小平将云端大数据比喻为「企业数字化转型中的石油」,但大数据开发平台的构建、维护和升级成本是非常高的,要涉及从数据集成到开发调度多个模块。

WeData 提供了涵盖数据即席分析、数据任务可视化编排、运维等在内的全链路数据开发能力。同时,WeData 在云端构建了统一的元数据管理能力,涵盖技术元数据和业务元数据的管理,并打通了 EMR、CDW 数仓、MySQL 甚至对象存储等在内元数据,以便于企业数据在不同云端数据设施之间进行无缝流转的同时,还能保障其元数据的一致性和可维护性。另外,WeData 还为数据科学家提供了全面的资产管理、数据治理能力,全面提升数据价值发现的效率。

等到 WeData 成熟以后,合作伙伴就可以基于这个开发平台做各种各样的应用,和苹果应用市场是同样的道理。借助于 WeData,企业数据开发门槛可有效降低 60%。

以 QQ 音乐为例,重构之前,所有的数据分析能力都是基于 Spark 构建,所有报表的延时也都是小时级。基于 WeData 进行大数据能力的重构之后,将热数据全部升级到 Clickhouse,并通过 WeData 进行数据开发工作,数据决策能力从小时级别提升到秒级。

最近,在更细分的场景上,腾讯云也对流计算服务 Oceanus、云数据仓库 CDW、ES、弹性 MapReduce、神盾联邦计算以及企业画像等 6 项能力进行了发布和升级。

针对大数据开发场景,腾讯云首次正式对外发布了流计算服务 Oceanus,面向大数据实时计算领域,可应用于实时点击流分析、物联网监控、实时推荐、实时金融风控等场景。而全新发布的云数据仓库 CDW,则可以帮助中小企业快速构建数据仓库,对于常见的运维操作进行高度封装,屏蔽底层复杂的逻辑细节,同时提供多维度全方位智能化的监控体系。此外还全新升级了「明星产品」ES,新增自研中文分词系统,准确度和性能均达到行业领先水平。

在大数据生态的基础设施层,腾讯云全新升级了弹性 MapReduce,将企业大数据构建成本降低 30%;同时实现了异构算力的融合,能够在计算高峰期通过云原生的弹性资源或者在线业务的空闲资源快速补充算力。此外还全新发布了神盾联邦计算,可以零门槛进行企业间的数据融合计算。

私有云方面,腾讯云以 TBDS 为主,在公有云方面,以 EMR 和 WeData 为主,这两大产品体系一起构成了腾讯云大数据产品生态。目前,这些都已经以腾讯云产品和服务的形式,面向开发者和企业开放。

安全、智能、统一:腾讯云大数据的下一个十年

从最初解决计算的问题,到解决时效性的问题,再到提升平台拥有的数据价值,腾讯云大数据平台的发展总体来说是一个从粗放到精细化耕耘的过程。

接下来,腾讯云大数据平台将会在数据安全、智能化、统一平台三大方向重点发力。

腾讯云 AI 平台总监陶阳宇透露,腾讯云目前正在研发联合安全计算平台,将安全加密技与大数据计算、人工智能相结合,能够有效解决跨机构跨公司之间的数据协作问题。在保护数据隐私的同时,提供联合数据分析、联合数据建模等能力,实现数据的互融互通,释放数据价值。

跨机构、跨公司之间的数据协作一直是大数据行业最难解决的问题之一,腾讯联合安全计算平台扩展了现有的大数据和 AI 计算框架,基于联合计算编译和基础安全算子,将数据分析、数据建模的任务,翻译成由安全算子组成的物理执行计划,在多个数据源之间完成安全、协同的联合计算。整个平台提供了联合数据库、安全求交、隐私安全查询、联合分析、联合建模等计算能力,可以广泛应用在政府机构、金融服务、广告平台等多种行业。

智能化方向,作为整个腾讯大数据平台的大脑,腾讯将基于平台本身的日志、事件、指标特征等数据,通过机器学习算法,实现对平台状态的智能分析,达到平台的自动驾驶。

对于下一代大数据平台,腾讯云也将聚焦统一平台的研究,包括大数据和人工智能的统一,以及数据处理和数据挖掘统一,提供一站式数据处理交互体验。

这个过程中,腾讯云也联合了大量合作伙伴:包括硬件层面的英伟达、AMD、Intel 等厂商,合作优化计算性能,提供高性价比的大数据基础设施;以及技术层面的 Apache 基金会、Elastic 和 Cloudera 等商业化公司,推动技术演进。

积淀、迭代,然后开源

回过头去看,腾讯之所以成为腾讯, 与其自身积淀和开源实践都是密不可分的。在技术平台不断迭代的同时,腾讯也在这个过程中成为了大数据领域开源最全面的厂商。

自 2010 年以来,腾讯内部就开始试水开源,比如将好的项目进行跨团队、跨部门、跨业务广泛使用;2014 年,腾讯将其第一代大数据平台的核心——腾讯版 Hive 开源;2017 年,腾讯将其第三代大数据平台的核心——Angel 开源;2018 年 8 月,腾讯将机器学习框架 Angel 捐赠给了 Linux 基金会旗下的 LF AI 基金会;2019 年,腾讯更陆续开源了实时数据采集平台 TubeMQ、资源管理平台核心 TKE、分布式数据库 TBase 及基于 OpenJDK 的自研 Kona JDK 等项目,全栈机器学习平台 Angel 也成为中国首个从 LF AI 基金会毕业的开源项目。

除了开源自研技术,腾讯还结合业务场景帮助开源技术落地,并通过业务沉淀和技术创新来贡献项目、回馈社区。日前 JDK15 正式发布,腾讯作为国内对 OpenJDK 贡献最大的厂商,进入 OpenJDK 全球贡献者榜单前列。

近年来,腾讯不断将内部开源出来的优质项目在 GitHub 上发布,截至目前,腾讯已经在 GitHub 累计获得了超过 32 万个 Star。对于腾讯来说,开源二字已经是自身成长过程中无法分割的一部分。

不久前,由腾讯主导的 Ozone 1.0.0 版本在 Apache Hadoop 社区正式发布。经过 2 年多的社区持续开发和内部 1000 + 节点的实际落地验证,Ozone 1.0.0 已经具备了在大规模生产环境下实际部署的能力。

此外,腾讯也积极拥抱业内一些优秀的新兴开源技术,助力该技术的发展。例如新一代的开源数据湖技术 Apache Iceberg,腾讯数据平台部在 2019 年就正式对其投入研发,进行了可用性等方面的优化和改进,并在实际场景中应用落地。

基于多年的积累,腾讯已经把网络、存储、数据库等 IaaS 能力,大数据、机器学习等 PaaS 的能力,以及上层的图像、语音、NLP、BI 等 SaaS 能力,通过腾讯云对外开放。如今,我们在腾讯身上看到的,更多是一种技术自信。

原文:https://mp.weixin.qq.com/s/EIv1S6AxJKIcfcDijh01-g

- Posted in: Report

- Tags:

0 条评论 ,2,346 次阅读

发表评论

  1. 既然来了,说些什么?

Top