阿里 AI“航母”下水
阿里的人工智能“航空母舰”终于下水。
造一艘真正的航母有多难呢?
全世界拥有航母的国家只有 10 个,拥有完整航母制造技术的国家只有中国与美国。
相当于将一个机场、3000 人的小城镇、军火库、核反应堆集结到一艘船上,能打,能扛,跑得快,不易坏。
1993 年,俄罗斯总理访问黑海造船厂,询问完成“瓦良格”号需要什么条件。
厂长马卡罗夫回答:苏联、党中央、国家计划委员会、军事工业委员会和九个国防工业部、600 个相关专业、8000 家配套厂家。
“总之需要一个伟大的国家才能完成。”
造一艘人工智能的航空母舰更难。
对应用场景、对算力、对数据和算法的强依赖,让人工智能产业也必须以航母的形态进行竞争,这是超级大公司之间,超级大国之间的竞争。
最后一块零件
伴随含光 800 芯片的出世,阿里巴巴人工智能航空母舰最后一块零件入列,不仅首次亮相,更是火力全开。
9 月 25 日,云栖大会主论坛,做工作报告的阿里云总裁张建锋,说着说着掏出了一块芯片,这是阿里第一颗自研芯片“含光 800”。
张建锋
张建锋(行癫)说,“它比目前业内最好的 AI 芯片性能高 4 倍,包括前几天兄弟公司发布的芯片”。他没指明“前几天发布芯片的兄弟公司”是谁,不过,场下会心一笑。
行癫得意是自然。平头哥发布自研 AI 芯片,意味着阿里打通了人工智能全链路。
航母动力不足,无法为战斗机起降提供足够的甲板风。自研芯片,等于攻克航母动力技术。
在主论坛外的人工智能芯片专场,身形瘦削的焦阳坐在第一排中央,他是平头哥研究员、含光 800 芯片负责人,作为东道主的他与相继到场的分享嘉宾握手寒暄。他们大多是芯片界的老人了。
现场连站的空间都没有。一个晚到的观众从一侧门口挤进去,不过,似乎无论他站在哪个位置,都会挡住后方观众视野,最终,他从这一侧门口,腾挪到长条形会议室另一侧门口。
含光 800 用 7 个月完成了前端设计,之后仅 3 个月就成功流片。回忆起芯片设计研发的过程,焦阳说了 5 次“Crazy”。
去年才成立平头哥的阿里,一定程度上落后于友商。为了消除业界顾虑,阿里一定要在一两个点上做到 No.1,不做 Me too 或者 New Follower,才能在下一波浪潮中崛起。
问题来了,要做什么芯片?
谷歌、Facebook、苹果等互联网公司纷纷自研芯片,并非偶然。人工智能对算力需求已经超过了摩尔定律。互联网公司要走到下一个阶段,必须要有自己的硬件技术,才能把自己的算法跟硬件做垂直的软硬一体化设计,达到极致的性能。
“含光 800 芯片预计 2019 年年底可以完成主要业务方适配、验证的过程。”焦阳对锌财经说,虽然取得了一些成绩,但要达到英伟达的水平还有一段很长的路要走。
随着含光 800 的发布,平头哥端云一体全栈芯片产品家族雏形已现,打通了芯片设计链路的全覆盖,涵盖终端处理器 IP 玄铁系列,一站式芯片设计平台无剑 SoC,以及云端 AI 芯片含光 800。
“先在云端做大芯片、技术上占领制高点,如果在云上做成了之后,客户对于公司在 PC、手机等端上也会充满信心。”焦阳计划了然于胸。
昨天上午,在云栖大会“飞天智能”论坛上,阿里云第一次亮出了全体 AI 核心负责人阵容。
“最大人工智能公司”,“阿里 AI 全景图”,“阿里 AI 平台重磅发布”……舆论一片狂欢。
相比铺天盖地的解读,阿里人自己却稍显迟钝。
AI 集体亮相
这张图最右边的鄢志杰告诉锌财经,自己也是今天看到外面传来的图,才真正意识到“我们已经集齐了‘龙珠’”。
偶然与必然
内部的迟钝是正常反应。毕竟,与造实体航母不同的是,阿里人工智能最初并没有清晰的设计图。
就连行癫,也只能概括为“需求牵引、技术驱动”。
但要说阿里航母成于偶然,又必然不正确。
五年以前,马云在 iDST 内部提出,他们是坐在金山上啃馒头,金山就是阿里巴巴拥有的丰富数据。“如果数据的价值不能被挖掘出来,那不过就是普通的土壤”。
如果要给阿里人工智能确定个起点,这句话再合适不过了,坐拥金山是家底,挖掘价值是驱动力。
阿里庞大体系内生需求,驱动了人工智能技术的应用。比如,鄢志杰最早做的“淘宝客服质检”,司罗最早做的“聚划算智能推荐算法”。
众多巨头,唯独内部需求催生了阿里 AI 航母,这里一定有其他特别的因素。
2017 年 12 月,当时被称为“黑科技”的阿里云语音售票机在上海地铁落地。简单来说,售票机的视觉模组能看到到你靠近,嘴唇开合,识别到你在讲话,机器便将麦克风阵列聚焦到目标说话人,很大程度上隔绝了旁边的噪声。
这种多模态组合已经存在多年,为何由阿里语音实验室再次提起并应用?
“因为我们语音与视觉的小伙伴坐在同一间办公室”,鄢志杰告诉锌财经,这项运行了快两年的黑科技,实际来自于内部“无用的研究”。
“我们想看看语音加上视觉有什么奇妙的效应,于是用上阿里内部人脸识别、定位、测距等“开箱即用”的能力,展示给隔壁的视觉实验室同学看,那哥们看了以后觉得很有意思,于是,我们提出‘希望可以识别到嘴唇开合”,他用他的专业吭哧吭哧马上做出来了。”
后来,团队把机器与地铁关联,摇身一变,成一个在噪声环境下,可以卖票的机子。
“大家分别有了百分之七八十的东西,然后一起完成剩下一二十,这是蛮关键的。如果大家都是 0% 的话,估计也没法合作起来。”
世界杯期间,阿里直播团队能在比赛结束后几分钟内做出集锦视频,得益于语音团队开发的特殊语音识别能力,视觉团队只需要找到哨声、欢呼声的节点,并切片。
又比如,7 月底才面世的玄铁,已经和内部不同部门合作发布了语音芯片等专用芯片。
这一切起源于“我们在一间办公室”。
在阿里这个庞大的培养基里,这种偶然又必然的化合反应,时刻都在发生。
8 月 30 日晚,某款换脸软件瞬间刷屏朋友圈。上线几个小时之内,流量如山洪暴发,服务器濒临峰值极限。
事实上,在这款 APP 上线前,阿里云就已经收到了需求,被定了一批服务器。没想到上线前几个小时,流量就已超过了预期峰值,越来越多的人上传照片,排队时间越来越长。
阿里云异构计算产品研发负责人龙欣带领的十几个工程师赶到客户在北京的办公室,直到凌晨 2 点,稳定性和峰值基本满足了客户要求。龙欣当时很笃定,觉得问题已经解决。
6 点 40 分,仅过了 4 个半小时,龙欣又被电话叫醒,“新的峰值现在的资源没法扛了,必须要做混合的资源支持和调度”。他们又回到了办公室。
用户抱怨,媒体施压……龙欣的团队更慌。
客户使用的主力 GPU 是阿里云主售实例 gn6v (使用 Tesla V100 GPU),阿里云工程师在弹性扩容多地域 gn6v 实例的同时,还需要快速扩容轻量级的推理 GPU 实例 gn6i(NVIDIA Tesla T4)以帮助客户进一步降低成本。这带来的最大挑战是要保证客户适配阿里云两款主售产品不会出现兼容性挑战,不会产生服务不稳定。
顶着巨大的压力,在很短时间内龙欣团队最后确定了技术方案。
9 点多,阿里云方案设计并完成验证。
龙欣自信地告诉锌财经,阿里云是业界第一个把人工智能算法和 GPU 的算力大规模应用到 to C 的现象级 APP 上的云服务商。
这是厚积薄发的结果。在熟悉客户业务环境和软件的基础上,阿里云从最基本的异构计算 IaaS 层服务的稳定和弹性,到开源框架的支持,再到深入客户业务环节工程化的支持,在这三个不同的环节做点对点的定向服务,进行优化和细致,才能支持这款现象级软件刷爆网络。
出走象牙塔
1918 年,第一艘航母“百眼巨人 号诞生之初,就被评价为“世界海上力量发生了从制海到制空、制海相结合的一次革命性变化 ”。
曾经信仰“Talk is cheap, show me the code”的阿里科学家们,在攻下算法山头后,把目光聚焦到新世界:AI 实战。
这意味着他们要离开实验室的象牙塔,到生产环境中接受考验。海况复杂,甚至有些境遇让人啼笑皆非。
在阿里新六脉神剑中,使命是“让天下没有难做的生意”,价值观是“客户第一”。理解这两个简单的陈述句,对这帮智商超过 130 的 AI 科学家们而言,其实并不容易。
负责语言技术的司罗在加入阿里前是普渡大学计算机系的终身教授,他告诉锌财经:“在学校,能带十几个研究生,有四台服务器,这已经算是非常好的配置了,但在阿里,内部有五千台服务器,甚至有几百张 GPU 的网卡。”
司罗
可调配的资源越多,面对的环境也更复杂。在实验室里,用来检验模型质量的数据都是干净的结构化数据,而在许多阿里的场景中,面对的则是“方言、省略、简要、重复”等各种日常口语化数据。
有一回,一个项目负责人说了句:“我们领导是一句笑话,但我们要认真对待”。这是司罗工作的日常:“人都能理解这句话的语义,可是机器不能”。
“以前在学校里,工作的成绩和成就感是论文、标准数据集上的提升,但是在阿里,成就干是看到你的算法能力在实际场景中得到了巨大的提升。”
数据的复杂只是业务上的挑战,更多时候的是观念转变的挑战。
“来到阿里之后,我们这些搞技术的‘被迫’嗅到了前线的味道:算法只是冰山一角,如果要在产业中产生价值,还有很多功课要做”,鄢志杰把进入阿里前的环境比作象牙塔,那时候只需要衡量论文、算法的先进性。
“你们搞科学技术的,跟‘让天下没有难做的生意’有什么关系”,这个问题在鄢志杰加入阿里后时常被问起。
而他现在悟到了“人工智能,最终还是要为客户产生价值,他在生意里取得成功,让他的生意好做,因为给他创造价值,他愿意分一点钱给我们。”
批量赠送屠龙刀
给鄢志杰启发的是,有一家深圳的叫“硅基智能”的公司,他们悄无声息地用阿里云语音识别能力,加上移动的来电转移,开发了一款接听电话人工智能助手“硅秘”。
这让鄢志杰十分惊喜,“完全不知道有这么一款产品在研发,客户开发完上线了才知道”。
这是让他有了“真的有点像云计算”那种感觉。
“我们只要把这些能力放到云上去,很多 magical(神奇的)事情会自然的发生。这种结合中,我们只需要做好自己那部分事情就好了,这些民间的高手,他懂行业,自然会有很多的想法出来。”
大多数时候,鄢志杰团队的成果以插件式的很小的模组,嵌入客户的产品中,希望用 2B 的方式,降低整个行业的门槛。
“我们把原来少数人才拥有的屠龙刀,放给了很多人,让他们用这把刀到自己的行业去拼杀。这帮人现在刚刚冲出去,我希望他们能够快点成功。”
AI 航母也一样,从它诞生开始,就扛起了为客户服务的重任,这个诞生于阿里巴巴的庞然大物,正在搅动中国产业的数字化,成为数字经济的一把屠龙刀。
“客户在前阵杀敌,我们在营区打磨屠龙刀”,这是阿里云的常态。
阿里云高性能计算负责人何万青常常接到客户的“抱怨”:别的团队都是七八个人来我公司,你们每次就那么两个人。
说到这句话时,何万青笑了,是欣慰的笑。
云栖社区有一个故事,2008 年,何万青当时还在某家硬件厂商,因为给 Ali Search 进行性能优化,为阿里省下来买 200 台服务器的需求,这对设备厂商而言可不是好事。
“硬件公司想办法让客户买更好的、更贵的,而在阿里云,这种成就感在于把超算变成云产品,这个产品是所有人可以受益的”。上汽集团乘用车采用 SCC 集群进行混合仿真,整体提升 25% 效率;安世亚太基于 SCC 集群为客户提供 HPC 解决方案,总体成本下降 20% 以上;大连化物所国家重点实验室使用 E-HPC 集群做分子动力学仿真计算,相对上一代 GPU 集群效率提升 200% 。
更多时候,阿里的 AI 航母行驶在肉眼看不到的地方“磨刀”。
驶入深水区
能落地的人工智能,才是好的人工智能,才是有价值的人工智能。
在落地这件事情上,阿里试水的航母已经进入未知的海域。
客户认为“我们说的语言,阿里云的人听不懂”。
外包团队抱怨“客户提的需求太奇怪了”。
互联网与工业天然存在语言隔阂,在很长一段时间里,负责落地正泰新能源项目的达摩院视觉计算算法专家魏溪含两头为难,心里委屈。
2017 年 10 月,当阿里的商务快要放弃与正泰新能源的合作时,两方突然碰撞出火花:用视觉识别给太阳能电池片瑕疵做检测。
魏溪含与她的团队为这一瞬间的“荷尔蒙”,懵懂地趟入深水区。毕竟,这玩意没人做过,客户只在德国见过相关检测设备,但效果不佳,还得辅助人工。
2018 年初,魏溪含和同事交付了项目结果,便安心回家过年。
事情没那么简单。
魏溪含和同事交付的方案中,瑕疵是用方框框起来的。但客户不仅想知道瑕疵在哪,还想知道它长什么样。这意味着,他们要把瑕疵的轮廓分类描绘出来。
30 多种瑕疵,两万多张图片。
于是发生了开头那一幕,客户认为“我们说的语言,阿里云的人听不懂”,标注数据外包团队抱怨“客户提的需求太奇怪了”。
魏溪含也不理解,但还是得做。
于是她带着领外包团队,下工厂,学瑕疵,标轮廓。
这太难了,标注项目结束的时候,30 多人的标注团队,人走了近一半,还有生病倒下的。
另一方面,魏溪含与算法的同事不断打磨算法模型,优化算法速度,她自嘲“我们是在炼丹”。
算法模型上线后,精度达到 97%,这比人工检测的上限还高。但是,一下产线测试,精度腰斩到 50%。
魏溪含心里咯噔了一下,“当时真是抱着必死的决心”。
实际工况远比测试环境复杂,摄像、灯光、产业更换、原材料等都是干扰因素。
“大不了这个项目就做砸了,但是我想知道在哪做砸的。”
故事的结尾是,项目达成,精度长期稳定在 97% 以上,质检速度比人快 5 倍,提升一倍到两倍,实现全量检测(原来只能抽检 10%),电池片出厂的良品率从 95% 到 99%。
9 月 25 日,阿里发布了工业质检云平台,第三方厂商可以收集、标注数据,训练模型,部署服务,快速实现不同行业的质量检测。
从项目到平台,这是阿里云落地的一贯打法。
曾震宇说,过去五年,AI 支撑起阿里巴巴,今后五年 AI 将支撑起各行各业,城市大脑、工业大脑这是阿里在产业 AI 里面的实践。
在阿里云和萧山国际机场的合作中,城市大脑能够把一架航班从降落、滑行、停靠廊桥各个保障节点,再到退出、离开的整个过程,做精确还原。这样可以提高机场的工作效率和安全性,提高航班准点率,为乘客节约时间。
工业大脑能够帮助工业企业把工业的全生产链条数据打通,构建工业的数据中台,并通过 AI 帮企业实现从单点智能到局部智能再到全局智能的提升。
以垃圾焚烧为例,工业大脑能够把熟练工人的经验和数据相结合,构建模型,以 AI 辅助人工的方式去操作锅炉,使锅炉的燃烧稳定性可以提高 23%。另外,以往工人平均每 4 个小时要操作 30 次,在工业大脑的辅助下,现在只需要操作 6 次,大幅度降低了工人的劳动强度。
产业 AI 正在帮助各行各业进行智能化的转型,是数字经济的新动能。数字经济是阿里 AI 航母行驶的前方,是真正的无人区。
作为庞大经济体中的技术中台,阿里 AI 航母在阿里巴巴的业务里经受了很多锻炼,完成了下水前的演练。
张建锋说,“比如人工智能。如果没有产业实践,没有业务尝试,要去做一个高质量的云,变成数字经济体的基础,是不太可能的。”
这相当于再造一个人类大脑,它不仅能计算与感知,还要能认知甚至创造。从人工智能的三个层次:算力、算法、数据,无论从哪方面单点突破,都不可能点亮人工智能产业海域的全貌,因为我们始终在岸边作战。
阿里在做的事情,是将算力、算法、数据集结成航空母舰,将我们在人工智能产业海域的活动能力从近海推向中海。
纵观当前的全球科技大厂,同时拥有算力、算法、数据能力的企业寥寥无几。有算法的,缺少数据;有数据的,还在研制芯片。
即便下一巨头,紧跟着阿里之后点亮了三大技能,他们将面临没有实战经验,缺少造系统能力的困境。
套用马卡罗夫厂长的一句话,“总之,需要一个伟大的企业才能完成”。