从图数据平台入手,「费马科技」未来要开发分布式数据库
36氪 · 2019-09-11 09:47:06 · 热度:加载中...
一入“图论”深似海。

编辑 | 石亚琼

根据Gartner的预计,全球非关系型数据库(NoSQL)在2020~2022预计保持在30%左右高速增长,远高于数据库整体市场。图数据库作为非关系型数据库的一种,在数据存储、关联上优势明显,是未来处理复杂数据关系的技术趋势。今天要介绍的费马科技就是一家专注于图数据技术,为企业提供高性能图数据存储及分析平台的公司,拥有自主研发的两大核心产品——图数据平台(LightGraph)和图计算平台(PandaGraph)。

首先我们先来简单了解一下“图”的发展史。

图论起源于18世纪欧拉对哥尼斯堡七桥问题的研究,并经由众多数学家乃至计算机科学家不遗余力的发展帮助人们解决了很多实际问题。如今,基于图模型的数据分析方法已经应用在了互联网的很多场景,例如社交网络分析、网页排序、社区发现,在计算化学、天体物理学、生物信息学等自然科学领域也有广泛应用。

图数据库并非指存储图片的数据库,而是以图这种数据结构存储和查询数据。节点和关系是构成图的两要素,图计算是将数据按照图的方式建模,把各类数据关联起来,将不同来源、不同类型的数据融合到同一个图里进行分析,得到原本独立分析难以发现的结果。

图数据库的出现是互联网时代信息爆炸和数据复杂化的结果。由于以Oracle为代表的传统的关系型数据库只能以二维表的形式表示关系,因此在处理复杂关系上效率较低,而与之相比的图数据则更擅长处理复杂的关系网络;此外,费马团队在图数据技术上已经积累了十多年的技术经验,掌握了大量研究成果,因此团队希望将技术落地为应用来解决现实问题,这也是费马进入图数据库市场的原因。

费马图数据平台

在产品性能上,费马与竞争对手相比,技术优势体现在:

图数据平台(LightGraph):目前速度可达千万顶点/秒,能够实现10TB级外存存储。拥有存储、查询,和简单分析的功能。LightGraph在简单任务的执行速度上远高于Neo4j 及TigerGraph。图分析平台(PandaGraph):费马图分析平台的优势在于速度快、省内存。在处理速度上,PandaGraph的速度是Spark 及 GraphX的300倍;在内存使用量上,PandaGraph比Graph X节省一个数量级(12倍)。

此外,费马在图计算及图数据市场的竞争优势还体现在团队实力和市场空间两方面:

公司表示:费马在图计算及图数据领域投入了大量研发力量。目前公司共有员工16人,其中13人均为研发,核心团队来自清华大学及知名通信设备商,公司每年研发成本占总成本80%以上。

根据Gartner研究报告,2019~2022年,图数据库市场将会以每年100%的增长率增长;而在过去的2018年,图数据库市场大概是5亿美元,到2022年保守估计至少80亿美元。市场尚处于蓝海。

在盈利模式上,费马提供标准的软件产品,采用相对通用的技术,因此不需要针对行业进行产品定制化。采购周期约为1年,主要依靠招投标的方式。

目前公司已服务7-8家大中型公司,平均客单价约百万。其中约80%-90%来自金融领域,公司近期开发了工业领域客户,未来也将开拓中小型客户。公司早期以直销作为主要获客方式,目前正在开拓渠道。公司预计今年营收约几百万,明年可达两千万。主要增长点来自于图数据库,目前已与多家大型银行在谈合作。

尽管图计算及图数据拥有性能优势及广阔的市场空间,但要落地依然面临技术及商业模式上的难点。

对于图数据来说,图数据要实现大规模应用,难点首先在技术上。因为图数据的存储和分析与传统的关系数据库不同,对数据规整性要求高,一旦数据规整性差,就会影响计算,且分析难度会随着分析维度的增加而增加。

业务上,对于图计算来说,图计算对数据全面性要求高,因为会涉及到多个数据源,且数据源往往会分属于多个系统,因此数据集成是个难题,这也是所有大数据平台面临的问题。尽管图数据库产品可以在技术上保证工具的易用性,但总体来说还是需要协调分管不同系统的部门来配合工作,这要耗费极大的人力成本。

另外,目前市场上图计算市场尚未打开,因为收费模式是个难点,主要在于难以对产品定价。由于客户的使用频率和重要性不完全成正比。例如,给网页做排序计算会涉及到万亿级别的网页数据处理,按数据量收钱对于客户来说费用太高;况且计算系统可能每天只运算一两次,这样也很难按照机器台数收钱,另外计算机闲置也会造成高额的运维成本。

图数据面临的是全球的竞争,目前公司的竞争对手包括:

美国的TigerGraph (2012年成立,目前A轮);国内公司包括BAT,这些互联网头部公司会在内部针对自己的产品开发相应的图数据库,但这种图数据库的应用针对性较强,所以并不适用于市场上其他客户。

费马科技于2016 年 5 月获得锋瑞、青岛泰屹、金沙江和臻云基金等投资人种子投资,投后估值 8000 万;2017 年 11 月获得京东金融 pre A 轮投资,投后估值约 1.6 亿。

公司表示,图计算在应用领域上将从金融领域向工业、生产制造、互联网领域扩展;图数据目前行业上缺乏标准规范,公司目前正积极参与行业标准定制,希望能够成为像传统关系数据库一样的标准数据库。目前费马的图数据库可以支持百亿级别的节点,适用于市场上绝大部分客户,但在未来如果涉及到超大规模数据的话,可能需要分布式数据库,公司目前也处于研发阶段。

本文来源:36氪