当前位置:首页 > 创业圈 > 商学 > 论道 > 正文

「拓数派」创始人冯雷:数据仓库赛道中的前三架马车,要向客户交付“真正的大数据愿景”

来源:36氪 发布时间: 2023-04-04 16:53:15 编辑:夕歌

导读:两年前,当时任Pivotal(中国)的创始人兼总经理冯雷决定创业时,不少数据库创投圈人士颇为关注。

作者|真梓

两年前,当时任Pivotal(中国)的创始人兼总经理冯雷决定创业时,不少数据库创投圈人士颇为关注。

一是因为,Pivotal这家美国公司,旗下有着Spring框架、数据仓库Greenplum等知名产品。而Greenplum,这款在二十年前就问世的全球数仓代表,是冯雷及他的团队过去十余年的业务重心。二是,作为Greenplum在中国的核心团队,冯雷的一些同事早前已经创业,并打造了声名在外的数据库产品。再加上,在冯雷决定创业的2021年,正值国内基础软件走入主流投资视野。这些都意味着,这位前Pivotal(中国)的创始人兼总经理的新职业旅程,势必不会默默无闻。

一个有意思的插曲是,在新公司刚成立的2021年,曾有基础软件领域的投资人告诉36氪,自己想去见冯雷却吃了闭门羹——据称,那时这位行业大咖正在"闭关",专心思考新的创业落点。

而2023年春天,当36氪见到已是「拓数派」创始人的冯雷时,他首先对外界的围观不置可否,认为自己引起关注是因为"数据库圈子太小了"。

至于创业落点,早前拓数派已经宣布要沿着数据计算不停探索新产品,前阶段的主要产品是云原生eMPP数据库PieCloudDB企业版与社区版。这一次,借着新产品发布会,冯雷又发布了"基于新一代云原生数仓虚拟化技术打造的全新PieCloudDB「云上云」版"。

据他介绍,PieCloudDB「云上云」的核心价值体现在,降低数仓硬件和管理成本、提升数据计算资源利用效益。

首先在降本方面,这款产品可以让多个数仓归并至云虚拟数仓,打破传统数仓场景下数据孤岛,解决数据多副本问题,帮助企业降低数仓管理复杂度。

至于增效,PieCloudDB「云上云」的目标是让数据计算资源按需扩缩容,实现计算资源配置最优化,提升数仓的敏捷性和弹性,打开无限数据计算空间。

单看云原生的理念,或许不算最新颖的idea。毕竟,和云概念相辅相成的"存算分离",早被视为降本增效的代表。而且,早在云原生数据仓库公司Snowflake2020年上市时,资本市场已为此买单。

但在冯雷看来,虽然国内"云原生"热度也很高,但真正的落地程度还有待商榷。依旧以数据库为例,即使过去不少企业号称"云原生",但在使用中,很可能只是简单把传统架构的数据库"搬上云"。在实操中,客户还是需要以租用虚机资源的方式使用,并不能达到真正的、只在计算时按计算用量计费。

冯雷表示,要做到真正的云原生数据库,修修补补是不行的,一定需要把传统架构打散、重构——这也是PieCloudDB「云上云」的研发过程。冯雷介绍,这一版本的研发经过近百万行代码推倒重写过程,“我们基本上都是重头再写,不仅实现了PostgreSQL的存算分离,而且调度引擎都换掉了,实现了多虚拟数仓并发计算。”

摒弃固有熟悉的产品架构,某种程度上看出冯雷这次"破坏式创新"的决心。但产品创新只是一面,落地才算数。尤其,对于数据库、数据仓库这种古老产品,要创新、替代,并不容易。

对此冯雷也坦诚,目前在推广自家产品时,会遇到客户依旧认为独立数仓更灵活的情况。尤其是私有云客户,或许更难"破局"。但他同样坚持,这件事是大势所趋。

"时代的信号很明显。比如国家成立大数据局,肯定会推动数据交换。又比如亚马逊的数据蓝图里也有很多的数据治理,数据交换等价值。"冯雷说,"如果一个人有惰性,是抓不到时代的信号的。"

以下是对话部分(经36氪编辑):

36氪:为什么选择在2021年创业?行业里也一直关心你的下一步计划。

冯雷:首先数据库是个小圈子,大家确实也比较熟悉。

说到创业,主要有几个契机。首先我们团队原来在中国负责Greenplum产品已经十几年了, Greenplum的研发也基本在中国。我们知道技术要上云、要云化、要虚拟化。VMware是虚拟化技术的提出者,但可能做一个跨云的数仓产品不是它的核心战略。而我们的逻辑是跨云,不太能在原来的企业里实现。再加上,这件事其实是一个破坏式创新,等于要把Greenplum推倒重写。破坏式的创新,按照《创新者的窘境》,一般要在一个新机构去做。再加上,中国对这个技术的需求更强。

36氪:怎么理解中国客户有着更高的需求?

冯雷:数据仓库的云原生虚拟化,是说我们把这个数仓做成一个虚拟数仓。你不用的时候,它是不占资源的,用的时候才启动资源。

在中国, 我和客户交流下来,发现他们经常被困在传统数仓中。也就是说,传统数仓中数据割裂得太厉害了。各种各样的数据孤岛,大的企业可能有100多个数仓。客户给我们反馈,说如果有这种统一平台,能够把物理数仓变成虚拟数仓。把它们底下的数据放在一起,通过权限可以让数据互访,会很有需求,更何况还能降低硬件成本和维护成本。

同样的需求,美国奔着公有云的趋势走,中国在私有云停留的时间会比美国长很多。这种情况下,中国客户怎么办?毕竟美国的Snowflake等公司也不提供私有云的场景,服务国内客户也不现实。

36氪:所以你觉得这是一个空出来的机会。

冯雷:对,我们觉得这是一个重大的稀缺市场。而且,我们团队是虚拟化的提出者,也是云原生的提出者, 本身也是搞数据库的,所以大家会希望我们去做。再加上,我们团队刚好也面临创新者的窘境,整个可以说是水到渠成。

要突破性创新,要做到云原生、提供虚拟化数仓的能力,又要服务中国公有云、私有云及行业云客户,市场上看下来就是我们这支力量。

当然,拓数派现在也和阿里云正式宣布了合作,我们是一个公有云、私有云同时发力的企业。美国的资本市场不看好大家在私有云发力,估值和市值会很低。在美国一个做私有云生意的企业,PS是5左右,但公有云的PS能达到50倍以上。所以,在美国企业做私有云没有市场。而中国的资本市场能够包容对私有云的支持,做到对公有云和私有云的兼顾。所以,两边的环境还是挺不一样的。

36氪:看到拓数派的投资人有挺重的人民币色彩。

冯雷:对,我们拿的都是人民币。你看我们,其实是一个世界级团队,国际化程度非常高,但我们反而觉得要全人民币投资,兼顾公有云和私有云。前段时间国内数据库也出现了Global的趋势,但我们决定要优先把这边的事情做好。国内数据量的优势意味着,在这里锤炼这款产品可能也会独一无二。

36氪:拓数派产品的一个突出特点是"数仓虚拟化"。也就是把零散的元数据和用户数据分别抽出来,统一放在一起计算。这确实降低了重复造轮子的可能,但实际落地时,各个业务线会不会还会有一些传统思维?

冯雷:现在来看,只要是“苦过”的客户,就会欢迎这件事。譬如我见到的一些大的金融机构,可能有上百个数仓,它们彼此之间要互通就很痛苦。我们以前在Greenplum会提供一个拷贝工具,让客户各种拷。但拷贝带来一些资源浪费, 和存储介质\ 数据不一致的问题。所以,这些痛苦过的客户会有动力突破数据授权。

36氪:那没“苦过”的呢?

冯雷:没苦过的,day one就用这样的一个设施也很好。以后,数据都放在底下共享存储的介质里面,然后通过权限可以互访。但他们没苦过,可能确实现在还不认为这是个问题,或许也有各个部门、业务各自独立的情况。

再拆解,我觉得有很多物理数仓的企业会加感兴趣。就类似服务器虚拟化,一个小企业买10台服务器就好了,要服务器虚拟化做什么呢?但是大的、有上千台服务器的企业,明白维护这么多硬件、淘汰硬件、软件迁移都很累,会对这个事情感兴趣。服务器虚拟化也是一样的道理。

为什么美国玩家不提虚拟化这个事情?因为公有云说的就是降本增效,就像你去阿里云上申请一台服务器,你申请的是台虚拟服务器,公有云用户其实第一天就享受到了低成本的好处。

我们的产品,数据已经存储在虚拟数仓,客户不计算的时候不占资源。底下的存储,比如2个T数据,一年的价格和百度云盘差不多,几千块钱。用户要计算的时候,虚拟数仓再分配资源,最后再统计产生的计算费用。

用非虚拟数仓,也就是用实体数仓,软硬绑定,即使虚拟机也绑定在存储资源在里面,一年下来怎么也有20来万块,是两个数量级的成本差别。

36氪:但实际落地,可能还会有某个业务线自己很强势,要独立。

冯雷:时代的信号是很明显的。比如国家成立大数据局,肯定会推动数据交换。又比如亚马逊的数据蓝图里也有很多的数据治理,数据交换等等价值。如果一个人有惰性,是抓不到时代的信号的。

例子也很多。有些人不喜欢上公有云,因为上公有云运维的工作就没了,可能会想在自己机房搭数仓。很多老板也头很大,自己机房搭一个10来台服务器的小数仓,而且和行业里的数据格式还不一样,和生态割裂。老板也很痛苦,很想上公有云,不想被这类工程师"绑架"。

36氪:也就是说,你觉得这件事即使有困难,也是大势所趋。

冯雷:对,大势所趋。无论是看美国的经验,还是看国家大数据局,再看我接触过的那些痛过的机构,大家都下定决心要干。但是真的从执行角度,还是需要很高层次的人拍板。也就是要总经理、董事长级别的人,推动公司层面的数据治理。从各个数仓的层面去推数据统一,肯定是有阻力的。

36氪:现在拓数派的项目是对接CEO还是CIO更多?

冯雷:看什么样的项目,平时上单个数仓,CIO拍板就行。董事长一般不会关心到具体哪家IT供应商这种级别的事情的。但董事长会关心,为什么我的数据没有打通,我的数据为什么有这么多孤岛。这时候他就会推动CIO解决这些问题,找到我们这种方案。

36氪:拓数派一直在强调大数据的愿景,这件事能再详细拆解一下吗?

冯雷:Hadoop比较火的时候,有很多著作讲big data的好处。比如把数据全部整合到一起,用更大的数据去训练一个模型,能训练出更好的结果,

用户也buy in了,所以就说数据不删了,都放在里面。但是,数据孤岛也可能因为各种原因存在着。

应该把数据统一,模型会测出更好的结果,但是如果用户使用的软件不具有资源共享能力一些金融机构部署100多个数仓也挺多的,数据之间互访怎么办?一家顶级的券商说最头大的问题就是多副本,源头改了以后副本要拷贝,浪费资源也就是一定的。

而且,硬件的资源利用率也很低。一般场景下,计算资源1/3都不到,大家要扩容都不是因为计算资源不够,而是说存储资源不够。这也是因为多部门、多副本导致的,所以事实上我们有信心把硬件成本降低一个数量值。

再加上,客户如果存储不够,那就不要扩计算。就像客户本来只想买个移动硬盘,供应商一定要给一台电脑。现在就有这些痛点。

我们现在就是通过云结构,真正实现了大数据图景。存储不够也可以扩存储,没需求的时候计算也不开。这两个事情单独扩容,用户的成本会降低,计算空间就会大很多。

从这个角度上,我们真正交付了大数据的promise。

36氪:之前大家也提云原生,整体差别在于?

冯雷:什么叫云原生,第一天生在云里就叫云原生。数据库出生得比云早,所以如果说你要定义一个数据库是云原生的,就必须把原来数据库拆了,再按照云上的这种结构重写。

如果有一家公司成立在云计算都没产生的时候,它写的数据库也说是云原生,就很奇怪。是不是在云里面?还是默认硬盘在本地?它不仅不云原生,还逆云原生。因为它是原来老的数据库装在云里面,默认硬盘在本地硬盘,其实硬盘也不在本地,也没有利用云上的弹性资源。

我见过美国的一家企业去AWS上申请5台服务器,搭了一个传统数据仓库的集群,不用的时候服务器也开在那里。

不像我们的虚拟数仓,你不用的时候我是真的帮你把资源拿走。数仓是虚拟的, 所有的计算节点都是虚拟的,你不用的时候它是不启动的。只有做到拆解,在云里面把结构逐渐拆开来,才有这个计价优势,要不打不出这个账单,

我相信中国的数据库企业最终会按照云上去重写、拆解,真正做到云原生。

36氪:拓数派闭门研发了一年。你感觉做这个产品,技术上的难点在于?

冯雷:就好像,服务器操作系统,和服务器虚拟化是两个不同的技术。VMware做的服务器虚拟化是把这些操作系统打包成一些文件,然后用hypervisor来分割底下的硬件资源,这是操作系统底下的资源管理系统。它在下面管内存、网络、CPU资源,并进行切割。这个技术是很难的,难到什么程度,甚至英特尔的芯片也要为它们进行一些支持,

你想,我们也把各种数仓一起管理。比如10个虚拟数仓的里面还好,结构和原来的数仓差别没有那么大。如果10个节点访问同1条记录,就用数据库的事务属性各方面进行保证。但是这10个数仓之间,我怎么分割资源,保证它们之间的协同性,等于是写了一个数仓的数据库来协调这些数仓。

比如,当两个虚拟数仓同时访问一个表的行,一个数仓完全不知道,另外一个数仓也在干这个事。所以我们在上面其实又加了一层基础软件层来切分这些资源的协调性、并发性。这就好像两个虚拟机同时访问网络的时候,下面的hypervisor会对它进行分割,都是具备难度的。

我们今天把这一层叫元数据管理。其实整体是一个数据库的数据库,也就是又在外面又放了一个数据库,来协调各个虚拟数据库访问一个物理数据库的数据。等于又嵌套了一层数据库在里面,这是比较难的点。

另外一个是云调度。hypervisor本身不是云计算,还要加一个云的调度引擎。比如硬件坏了,我可以把虚拟机迁移到另外一个硬件上面,这也是云管理系统做的事情。我们虚拟数仓在资源不用的情况下,可以把一个虚拟数仓的资源拿走,给到另一个繁忙的虚拟数仓,这就是管理。所以难点在于两件事情,一个是虚拟数仓的底层资源协调,另外一个虚拟数仓占用资源的动态优化和配置。

36氪:看到有评价说,拓数派的产品是最有可能实现弯道超车的本土创新热点。怎么看待这个评价?

冯雷:当然非常感谢大家这么说。我们这个团队受Greenplum开源技术影响比较大,其实在2019年,Greenplum是世界领先的分析型数据库,在Gartner的排名都在Snowflake上面。我们也知道,Greenplum的结构需要变成一个云原生的能够提供虚拟数仓能力的一个系统。我们最终决定重新做,中间耽搁了大概一两年时间。而2020年、2021年,正好是美国那几家企业发展很快的时候。也就是说全球范围内,这件事本身就是这几支力量在竞争。当然,这次我们着眼全球,但先立足国内。

36氪:也就是说,这件事对你来说不是"弯道超车"。

冯雷:不是。就团队而言,我们本来就在国际范围内角逐。我们一直是赛道里面的前三驾马车。