技术人访谈 | “匪气” CTO 易观郭大侠,追寻数据的灵魂之旅

技术人:易观 CTO 郭炜
本文采编:SegmentFault COO 江波 Nadia

像找媳妇一样找人才,真情换真心

Nadia:可以简单介绍一下您此前的求学和职业经历吗?

** 郭炜:** 我是北京人,高中毕业在北大读了七年书,直到研究生毕业。我从研究生阶段学的就是数据,那个时候还不叫数据挖掘,叫信息与信号处理,毕业论文题目是《过程神经网络的客户流失分析》,那个时候(2005 年)还没有 AI 人工智能。毕业后我去了 TereData,美国当时最大的数据仓库公司,后来去了 IBM、中金、万达、联想,都在聚焦大数据平台建设及项目应用的落地。还是会感觉在大公司在数据创新应用上的体系化管控流程更复杂,也受到了易观创始人于揚的感召,2016 年加入易观。

Nadia:2016 年易观是什么状态?好像那个时候我印象里的易观还是一个做分析报告的公司?

** 郭炜:** 当时的易观其实已经开始通过数据产品为客户数据洞察赋能了,也开始建起了技术团队,但是整个团队能力其实还不够达标。甚至那个时候,市场上还不太理解技术背景到易观来做什么。所以,我中间有一个阶段,重新调整了技术团队,更加聚焦数据架构、算法等方向。

Nadia:你加入的时候,易观的商业模式是已经规划得很清晰了,还是说也是摸着石头过河?

** 郭炜:** 那时候,易观的创始人于揚一直坚持要做产品和技术,但具体是哪个产品,哪条产品线能做到什么程度我们都不知道,但是我们通过易观千帆(移动互联网产品对标分析平台)迈出了第一步。

Nadia:2016 年加入易观之后都遇到了什么挑战?

** 郭炜:** 大家可能都看过 “创业曲线”, 一开始是特别快速的上升,然后断崖式下跌,在谷底沉寂一段时间后还要再跌一下才能慢慢曲线上升——其实创业经历都是这样的。

我刚进入易观的时候,大家都很乐观,觉得易观有品牌、有想法、有数据源,只是缺技术。我当时也非常乐观,觉得仅仅是把技术弄起来,这个简单。但亲自去做时候才发现,我们向技术公司升级的路上要过的山头真的很大,遇到的问题特别多。

之前我其实已经很多年不写代码了,但那时候没办法,尤其一些核心的模块只能我自己上。2016 年,易观千帆能够承接分析的用户月活跃数据也有接近一个亿了,当时遇到一个很大的挑战就是数据接收并发的问题。在千帆刚开始服务客户的时候发生过一次比较严重的事故,整整 3 天,系统 down 在那里没数据。我印象特别深刻,6 月份,CEO 找我谈话说“你们很辛苦,但是这个问题怎么解决呢?”当时我也不知道怎么解,后来没办法,我重新学了 Lua 语言,然后用了两天时间把代码重新写了一遍,问题解决了。这是当时的状态,整个技术团队对于技术与业务结合的理解其实都还不够,也是从那个时候我发现创业团队招人最重要,人才是核心

Nadia:创业团队不好招人吧?

郭炜:我们开源项目 Dolphin Scheduler 的核心贡献者代立冬当时是我去找他吃了多少顿饭才说服他加入的。他是第一个大数据方向我觉得不错的人才,也是从他开始,我开始像找媳妇一样找人才,到现在也是跟团队和人才们聚会的时间比陪家人的时间长得多。就像糟糠之妻,那个时候你什么都没有,通过真情换真心,把这个团队从没有到 1,到 3,5 个,到现在 100 多人慢慢成长起来。

Nadia:你们招人的时候会比较喜欢什么样的人才?

** 郭炜:** 我觉得招人第一是看价值观,是不是真的想做数据这个事,谈到数据的时候,是不是眼睛会有亮光,会有光芒,这个很重要。第二个是看潜力,逻辑性、学习能力、阅读能力、沟通表达能力行不行?第三个才看究竟现在能力怎么样。

究竟会什么、会不会 Hadoop、懂不懂大数据这都不重要,如果你真的很想做这个事,很愿意去学,我们就愿意给你这样的机会。不是每个企业都有这么大的六个亿的月活数据让你去学习,也没有像招商银行、当当这样的客户能够让你去实践。

郭大侠的开源情怀,易观技术的变与不变

Nadia:2016 到 2019,您加入易观 3 年,帮助易观从一个大众认知里的分析报告公司,转型为一个产品技术驱动的大数据公司,技术上发生了哪些变化?

** 郭炜:** 变化真的蛮多的,下面的图片大概体现了易观从 2016 年到 2019 年的技术架构变迁。

从产品上,2016-2017 年,我们主要的产品还是易观千帆、易观万像,它本质上是易观自有的大数据平台。到 2018 年的时候,我们发现自己的大数据技术是可以帮助更多企业的,我们开始做技术输出,开始有了易观方舟,今天已经成为了包含用户行为智能分析、智能运营及技术开放的智能用户运营产品套件。

我们自己原来的东西特别庞大,6.8 个 PB,几百台服务器,不是每个企业都用得了,所以在 2018 年我们开始把这么复杂的大数据组件通过一个新的架构来精简,我们希望帮助企业方也都能用上好用的大数据平台。

这个新的架构叫 IOTA(Big Data IOTA),它的核心思路其实就是边缘计算——原先大数据都是将所有的数据存到云端去计算,但现在其实我们的手机都越来越厉害了,所以我的思路是要通过边缘计算的方式,在手机端先做好一些计算,云端只做存储和查询,这样效率就大大提高了,当年好多的大数据集群的东西浓缩在一台服务器上就可以完成。

把我们的自己的技术,通过新的架构迭代抽象成一个可让用户去用的产品和技术(易观方舟),这其实就 2018 年我们在做的事情。

到 2019 年我们又发生了变化,在过去易观方舟只做用户行为分析,今天已经实现了智能运营功能,后来我们发现很多用户希望基于自己的需求去做一些二次开发。我们把易观方舟 PaaS 化,从一个产品变成了一个平台。比如说你要做推荐,我们把相关数据通过 SDK 全都收集上来了,把非结构化数据整理好变成了结构化数据,基于这些数据你自己的分析师就可以在里边做一些推荐引擎,用户画像等等。

2020 年,我们会进一步把这个平台做得更稳定,希望除了我们之外,也可以有更多的开发者在上面开发一些东西。

Nadia:所以从明年开始,其实也会做一些开发者生态的事情?

** 郭炜:** 其实我们今年也在做,易观方舟本身是一个商业产品,但其实我们有免费版本。私有化、单机服务器的这个版本我们把它免费了,叫易观方舟 Argo。在这个之前,国内现在还没有私有化部署的用户数据分析免费产品。私有化部署,数据放自己这里,用户放心。普通开发者可以直接把这个产品接入自己的后台,一台服务器,你就可以开始做用户行为分析。将来我们希望基于易观方舟 Argo,可以有各种各样的新的小东西开发出来,我们鼓励大家开发各种新玩意儿,开发完以后你可以自己用,可以把它 Share 出来我们帮你去售卖,也欢迎你基于我们的产品开源,做开源组件让大家都去用,因为易观方舟 Argo 本身就是免费的。

Nadia:刚刚提到了 IOTA 架构可以实现更高效的数据处理速度,能否在具体应用层面为我们解释一下它的价值?

** 郭炜:** 比如说拿 SegmentFault 举例,最近 SF 某一个渠道注册留存超过七天的用户在最近一周没有登录,你想发邮件做一次召回。原先你需要提一个需求给技术,他需要跑个 SQL,SQL 跑不过可能还得跑 ETL 脚本,两三天才能给到你,公司需求多了以后或许还需要排期。但在基于 IOTA 架构的易观方舟里,你只需要勾选一些条件,不到三秒钟,这个数据马上就出来了。

几秒内,可能我们就要查 100 亿条数据,出一个结果,在技术上是非常难的。所以 IOTA 架构解决的核心问题是在大量数据中做一个复杂查询,秒级把这个数据查回来。那么随之而来的其实就是帮助我们将数据能力平民化,让数据分析师之外的角色也可以用这个产品去做点数据分析,而不需要大数据工程师天天去给你写脚本。

Nadia:提到数据处理效率,您之前还曾提到过“数据河”(Data River)的概念?

** 郭炜:** 数据河其实是 IOTA 抽象化的东西。过去云厂商经常提到“数据湖”——把数据全部装进去,它的好处是把它存下来了。但你真的想去用这个数据的时候成本就会越来越高,数据越放越多,慢慢就会变成数据沼泽。我们做的其实是让数据流动起来,通过 IOTA 这样的架构,数据是直接从产生端流向消费者,不再经过数据湖,不再需要工程师去写 ETL。

Nadia:那有什么是这三年一直坚持不变的?

郭炜:我们有两个基本点是不变的,我把它称之为技术价值观——一是开源,二是云化

今年我们的开源项目 Dolphin Scheduler 入选了 Apache 基金会,但它其实不是我们第一个开源项目,我们此前已经开源了很多个项目,这是我们慢慢运营、拥抱开源的成果。

数据是有灵魂的,我将用此生去追寻

Nadia:现在很多公司都在谈自己是数据驱动,当然大部分都是假数据驱动,在你们的客户里面,有没有哪个公司是你们认为他真的已经把数据应用到非常好的案例?

** 郭炜:** 在我们客户里,有一家第一梯队的股份制城商行做得非常不错。其实即便是互联网公司,也不一定真的能把“数据驱动”这个词落下去。数据驱动是一个管理思维,不是一个工具能搞定的事儿。

我们见过这家银行用北极星指标(即所有员工都要关注的唯一关键指标),这个指标对招行来讲是它的月活,他的营业员都要扛这个。使用的时候,我们能感觉到他们的 APP 确实好用,就是因为 APP 每个的点击、每个功能模块分栏目的流程,都是有明确分析路径的。这点很多互联网公司都做不到,它跟一个公司的管理阶段和成熟度是有关系的。

Nadia:大数据这几年一直是一个热词,你个人是如何去理解大数据的?展望一下未来,它背后真正的价值是什么?

郭炜:我有一个座右铭叫数据是有灵魂的,我将用此生去追寻。

从整个技术和行业来讲,我觉得是会越来越火的。因为人们通过各种各样数字化的手段,能把这个现实世界变成数字、信息和数据,再基于此去做相关的分析。

最早我做 BI 的时候,报表全都是内部 CRM 产生的。到后来大家拿 APP 的点击做分析,现在又有了人脸识别,线下动作的识别,声纹的识别……其实一个人在线下的所有行为都是可以采集到的,数据把这个世界本身数字化,那么怎么用起来呢?每一个行业、不同的赛道其实用法都不太一样,未来再加上 5G、IoT……可能大家在这会议室里面就跟黑客帝国一样,摆一个姿势、说一句话,这些服务就都到了,这些其实都是数据的应用。

对于大数据公司来讲挑战还蛮大的,很多数据公司后来都变成项目型公司了,他们就没有办法去做更好的增长。2016 年前后,国内大概有十几家公司都在做易观千帆同类型的产品,现在做得好的只剩两家了。易观方舟现在可能还有很多的竞争者,在这个赛道里面将来可能也只会留下几家。 对于未来,易观还是根据用户实际的需求去解决用户的问题,大数据不是一个特别容易做的赛道,每个能坚持下来公司都值得尊敬。

CTO 的匪气:管理不是两利相衡取其重, 而是两害相较取其轻

Nadia:最后我们来聊一聊创业这个话题,作为一个曾经一直在大平台的技术人,您是怎么看待创业的?

** 郭炜:** 创业本身九死一生,哪怕易观到现在其实依旧战战兢兢,因为其实很多时候你不知道什么是对的。创业是一件很有挑战也很有意思的事情,它的魅力和风险都来源于未知,你每天面临的情况都是未知的情况。

对于做技术小伙伴来讲,我建议如果你还没有商业思维就先不要创业。走到创业这条路上,你会发现技术其实是创业的必要非充分条件。创业没有技术不行,光有技术也不行。因为在商业逻辑面前,你再厉害的技术,如果不能为用户提供价值也是伪技术。所以对技术小伙伴来讲,商业思维比技术能力更重要。其实不一定是技术大牛,但是你有商业思维,会和人沟通,可能就能成为一个很好的技术创业者。

Nadia:大家都叫您“郭大侠”,为什么说很多 CTO 身上一定要有匪气?

** 郭炜:** 讲一个具体的例子,很多时候大家都会觉得管理决策是择优,其实大部分选择并不是两利相衡取其重, 而是两害相较取其轻——面前有两坨翔,一坨大一坨更大,你吃不吃?不吃立刻翻一倍,迟早必须吃,那就必须要杀伐决断。

匪气在于,你可能根本看不清楚未来究竟是什么样,这两个都不太好,但你必须果敢地选一个不那么差的,然后一边鼓励团队一边被各种 PK。你要把这个扛下来,而不是文绉绉地调研一下这个再看看那个。没时间让你看,就这么干了!

Nadia:所以这个其实可能是很多技术人能否成为一个领导者挺关键的一点。

** 郭炜:** 对,因为技术人普遍非常客观,逻辑性很强,但是做 CTO 意味着你必须经常在非常没逻辑的时候拍一个你认为不好的方案。初级管理者可能体会还没有那么深,但高级管理者一定会体会到:世间没有那么容易的事情,全都是很难办的事,只是看你选哪一个。

采访手记

今年 9 月底,我第一次在易观北京办公室见到了江湖人称“郭大侠”、易观的 CTO 郭炜。历经三个月,「SegmentFault 思否」技术人访谈栏目终于在新年之际上线了。而这三个月, 秒算引擎 2.0 升级上线,易观方舟 Argo 社区收获了来自用户的开放源代码,OpenTechnology 技术开放策略发布,易观马不停蹄奔向 2020。

数据行业是公认的集“脏活、累活、苦活”为一体,然而“入行”十九年,他身上却丝毫看不到疲倦的影子。热爱让他苦中作乐,两个小时聊天式的交流,从技术到创业,从个人经历到公司业务,他的真诚、严谨、热爱与侠气展露无疑。若是个晚来天欲雪的黄昏夜,真有冲动道一句“郭大侠,能饮一杯无?”

(本文完)