「造数」用智能云数据采集技术降低门槛,节省的或许不止一个工程师的成本
36氪 · 2017-12-19 17:20:04 · 热度:加载中...
数据时代的“石油钻井平台”

数据驱动企业发展,企业对数据需求有三个层次,一是业务数据,代表性企业是神策;二是类似企业订单数据、CRM 数据等 SaaS 服务数据,如销售易做的事情;三是互联网公开数据,例如企业工商、电商网站、社交数据、招投标数据等开公开数据。互联网数据量是最大的,但很难拿到全部互联网公开数据,非结构化数据很难结构化。

通常互联网公开数据的获取有三种方法,第一种是复制粘贴收集数据,成本高、效率低;第二种是雇佣爬虫工程师,一个人的工资成本是每年至少20万元;第三种是用云端智能采集,机器人挖掘数据,这样做获取数据门槛降低,不再需要技术人员,效率高、成本低。造数采用的是第三种方法,是一家智能云数据采集服务商。

造数产品无需专业技术人员完成,产品对互联网页面做智能解析,采用了可视化爬取,可爬取需要登录的网页、对网站进行多次采集,支持批量规则配置,采集结果可以按时推送。最终可以到处各种格式文件,如 excel、csv、xml 等。此外还提供了 API 接口,爬取的数据可以直接接入到企业内部系统。

看这个项目考虑两个问题,一个是技术实力,一个是应用场景是不是对产品有刚需。

首先看技术,造数区别于其他爬虫公司的一点是,造数全部在云端。从用户角度讲,不用下载任何软件就可以直接爬取,产品配置和使用的门槛降低了,用户体验更好;从可视化角度讲,云端爬取“越用越聪明”,即别人爬过的数据或者之前爬过的数据不用二次爬取;此外,云端部署在 Docker上面,可以快速同时伸缩几千个节点爬取,有大规模爬取数据的能力,云端的扩展性提供了大量的 API 接口,可以和上下游产品协同,如数据可视化工具等;最后云端支持大量数据存储。

除了云端优势之外,造数在技术上的突破还有智能解析和浏览区交互页面实现,以往的爬虫产品通常是做浏览器的插件,而造数直接在网页上实现。

其次看应用场景是不是对产品有刚需。业务数据、内部 SaaS 数据和互联网公开数据的重要程度并没有高下之分,在不同行业和场景有不同侧重点。企业内部数据通常用作用户画像和精准营销,用来优化转化率;外部数据是对大环境的分析,主要是用来辅助局侧,比如外贸电商群体,需要从外部数据了解到市面上的潮款爆品,也需要从海量评论中知道消费者真正关心什么,甚至产品的陈列、排外、库存状况都受外部数据的影响。

当然,对外部数据有强烈需求的还有零售选址,金融行业中一级市场投资者需要第一时间发现好的创业公司、融资信息的分布情况、二级市场股民舆情倾向、上市公司分析等,咨询行业则需要了解调查领域的各项数据。所以对于金融、电商、零售、咨询等领域,外部数据发挥很大作用,是引领生产、调整战略的重要依据。从这一点说,快速获取、门槛低的云端爬虫采集产品是不错的切入点。

造数最终能为中小企业节省人力成本,为大企业开源节流,将人力用在该用的地方。

造数目前有15000多家用户,包括数之联、Geoconcept、天气宝、优易数据、星客多、发改委等。合作伙伴有云基础服务商京东云、电子科技大学大数据研究中心、大数据教育平台 Datacastle、数据分析培训机构数据团学社、可视化平台BDP等。其中造数与 BDP API 接通,用户在爬取万数据后直接将数据可视化。

数据采集赛道上还有八爪鱼和神箭手,八爪鱼是传统软件,神箭手更面向开发者;国外则有 import.io 和diffbot,import.io 累计融资 2200 万美金,diffbot 获得腾讯领投的了1000 万美金 A 轮融资。

造数科技成立之初获得了明势资本、仟跃科技数百万元天使轮融资,2017年7月获得了逐鹿资本领投的千万级pre-A轮融资。

本文来源:36氪