OR 新媒|oror.vip跨平台阅读首选
2024-01-11 20:17
科技

高伟明:AI时代,提升算力需要更多的想象力和产品思维

趋势成就了一代人的选择,也考验他。现代人工智能,乃至未来绝大多数行业的生产、创新,都将会被数据、算法、算力这三大因素所驱动。
芯片半导体市场今年或回暖,中国机遇何在?
Forbes

■趋势成就了一代人的选择,也考验他。现代人工智能,乃至未来绝大多数行业的生产、创新,都将会被数据、算法、算力这三大因素所驱动。

它们在农耕、工业化、智能化等庞大趋势所创造的动荡环境中被商业推向高位。今天的人们迫切的想知道,如何通过它们走向未来。

这几个概念虽然如影随形一般同时出现,但算力只在变得极度稀缺时才会被人们惦记起来。如大多数人不记得算盘是被谁发明的,但算出圆周率小数点后七位的祖冲之却被记录在小学课本中。最近两年,当英伟达、AMD等公司的名字又铺天盖地的出现在全球主流媒体上时,高伟明和他的团队也变得更加忙碌了,他们意识到,一个时代的底层驱动方式可能又变了。

过去20年中,高伟明管理和运营了超过20个高等级数据中心和HPC算力中心,领导建设了十余个高等级数据中心和HPC算力中心,为JPMC、Black Rock、Apple、AWS、Zoom、Google、Starbucks、Allianz、Roche、BP等巨头公司提供世界级数据中心托管服务。他也因此成为了数据中心领域最有影响力的华人之一。

他在2021年所创立的B&D Power Solutions 是目前全球市场上成长性最高的算力解决方案提供商之一;高伟明所创造的庞大的“计算集群”目前已向各类客户提供了大约300MW的算力中心项目,正在规划和设计的项目超过1GW。按照高伟明的预计,B&D Power Solutions未来三年内,每年至少还会向客户提供300MW的算力项目,其中很大比例是以可再生能源驱动的。

我们与高伟明先生进行了长达数个小时的深度对话,并梳理了他回答的8个关键的问题。通过他详实的分享,我们正试图了解算力在未来将如何改变世界?

上一次算力这么被关注可能还是在20世纪80年代。与当时家用电脑普及趋势一样,从今年开始,大众突然意识到了我们离人工智能竟然如此之近。

彼时,苹果、IBM等主机厂商在消费者的见证下,用大笔、持续的订单投票选出了硅谷最明星的芯片公司和代工厂。但如今,做选择的人可能变了;在代表消费者的主机厂与芯片之间会横亘着第三个重要的角色——云计算中心和最新的算力中心。

自2017年以来,作为高科技、重资产相结合的数据中心产业开始受到全球投资人和网络运营商的高度重视。也在这一年,行业整体开始大规模赚钱,单个数据中心的规模大幅度增加,单个机柜的用电量也开始翻倍。此外各个供应商都加速开发数据中心相关的新技术,最新的技术使数据中心的安全性和冗余性得到跨越式提高。但更重要的是从客户的全球网络或者区域网络架构来看,数据中心已经成为中心节点,这实际上是数据中心从单一的存储功能向计算、存储和传输三大要素均衡发展的过渡。

而到了2020年,新冠疫情对人类生活方式的影响再次加速了这一趋势。大数据与人工智能、物联网、区块链、云计算等新一代信息技术的深度融合以及数字基础设施投资的热度放大了算力的短缺。资本市场的回报水平也更加肯定了这一稀缺性。据JLL的报告中提供的数据,全球最大的6家IDC REITs,包括美国的Equinix、Digital Realty(DLR)、CyrusOne、CoreSite、QTS Realty DC(QTS),以及新加坡的Keppel DC,2015年至2019年,他们的年化增值回报率平均值为17.7%,而2020-2021年这个数值达到了29.4% 。

当2023年人工智能领域的革命性产品GPT4出现以后,趋势真正变得再也无法阻挡——全球可能会有一半的算力由算力中心完成、并至少消耗人类2%的电力;而今天最能感受到未来机会与曲折的人或许不是埋头狂奔的芯片巨头、广袤也好奇的C端用户或是迫切寻找方向的人工智能应用开发商,而是真正“实现”算力的人——他们正在定义人工智能时代的“石油”,其中有的人或许会因为创造标准而成为21世纪的洛克菲勒。

但不可否认的是,目前算力中心领域仍然是一个和房地产类似,且极度分散的行业;因此,关于芯片、人工智能,甚至更上游的能源问题的前瞻性判断,或许在这个行业中只有很少一部分满级玩家能够提前看见。

他既需要长期深耕数据中心和电信行业,对头部科技公司需求足够了解,还得熟稔如今芯片产业的技术进展与产品周期,此外在人工智能、液冷、可再生能源、储能、光通信、海缆等相关技术的发展趋势相互交叠下,如何做出正确的构架和布局同样也至关重要。

而真的走到一个高等级算力中心的落地运营阶段,新的问题还会如期而至——其中包括各地的地理环境、法律政策是否真的适合产业长期发展?项目所在地的供电和未来全球天然气和电力的供需关系和价格走向将会如何?是否可以帮助客户锁定价格便宜且供应稳定的电力?

同时在巨头们的盘更错节下,这也是一个复杂程度和成长潜力远超人们预期的市场。另一个证据来自于一家提供大规模 GPU 加速工作负载初创公司Coreweave。去年4月,这家公司的估值突破了20亿美金,之后还以英伟达 GPU 为抵押,拿下了 23 亿美元债务融资。事实上,当去年以太坊合并成功以后,大部分以太坊上的"矿商"都将面临转型挑战,Coreweave是其中之一。它的成功转型一方面要归功于握有不少GPU芯片可以提供可观算力;另一方面,英伟达也将大量的AI服务器芯片分配给这些“老客户”支持他们转型。站在英伟达的一侧看,当时AWS、谷歌等云计算等服务商已经开始开发自己的芯片以减少对英伟达的依赖,而扶持Coreweave这样的创业公司以对冲未来可能的用户流失也是黄仁勋的战略之一。

如今数据/算力中心产业已经在高烈度竞争中不可避免的成为了一个综合与跨学科的行当。但在这个领域的玩家中能真正发现机会、完成“知识”迭代的却并不多。

当我们开始用以上这些条件进行筛选时,最后只能剩下为数不多的一些人能被看作是算力的“满级玩家”,高伟明一定是其中之一。

高伟明和他的团队也是最早认识到算力产业衍变趋势的那批人。因为那时候已经看到随着人工智能技术和应用大发展,传统的数据中心很难为未来数据和算力需求爆发性增长提供支撑,而矿商们的“挖矿”其实是最极致的算力输出,“矿场”的建设和运营里面运用的很多新技术和实用的理念可以改造传统数据中心,以便更加高效地提高算力服务。高伟明如今也在带领团队与曾经提供技术支持的几家全球著名的“矿商”讨论实施和Coreweave类似的全球算力平台转型。

至于算力和算力中心未来的挑战,高伟明还有更多的思考。他认为“目前大家的聚焦都是在计算芯片和存储芯片上,毫无疑问这些肯定是非常重要的算力中心基础。但是只要算力需求还在以指数倍增长,新玩家和新技术就会不断涌现,这块还会不断高速提升而且不时出现突破的。

从为人工智能应用提供支撑的算力中心角度来看高伟明和他的团队所担心的瓶颈反倒是芯片间的传输带宽。由于数据传输的通道数量受到芯片面积以及生产成本的限制,数据传输的时钟频率受到工艺功耗等因素的影响,而且现有数据传输技术在尺寸、速度和能效方面接近极限,需要创新技术来进一步扩展数据传输容量。相比于过去十年间计算能力的高速提升,芯片间数据传输带宽的提高明显要缓慢很多而且一直未得到应有的重视,很可能会成为一个制约算力发展的瓶颈。如何提高芯片本身的传输带宽,通过软件来优化传输效率,或者算力中心整体设计通过存算一体的架构以及最大限度缩短传输距离的方式提高传输效率将成为这个行业的新赛点。

高伟明认为,如果说传统数据中心的设计重点是冗余性和安全性最大化,而“矿场”是算力单位成本控制最大化,那么未来支撑人工智能应用的算力中心是计算、存储和传输的平衡,安全冗余和成本控制的平衡,还需要特别考虑绿色环保和可再生能源以便保证其发展的可持续性。基于以上的因素考虑,很明显在全球范围内可以支撑大规模算力中心平衡发展的电力资源和土地资源的重要性和价值就越来越大,这也是中国算力行业的机会之一。


B&D Power Solutions 高伟明

以下为与高伟明先生的对话节选:

记者:您大约是在什么时候感受到AI对于算力需求开始了显著的增加?同时他对于云计算中心创造了一种什么样的新需求?

高伟明:回顾过去的十年,有四个时间节点见证了算力需求的增长同时也促使对数据中心/算力中心的需求和要求不断跨越式发展:

第一个是2013-2015年,那个时期数据中心在国内是比较新的概念,还仍旧被称为机房,非常形象地描述了在大多数人眼中那是电信设备操作的场所。我们那个时候主要是为全球五百强欧美跨国企业提供数据网络服务,而数据中心是他们网络设计中的中心节点。一般他们的需求大概都是几十个机柜个别超过100个机柜,已经是那个时代非常大的需求了。而那个时候的机柜单位电量一般都是2KW, 今天看起来非常初级。但是那个时候我们的客户对数据中心用途上来讲主要是用来存储用户和技术数据的,因此对安全性、可靠性和冗余性的要求非常高,可以说当时是全球最高水平的,很多的技术和解决方案今天看来也是非常领先的。我们实际上是在给客户提供服务的同时从客户那里学习了很多知识和经验,打开了数据中心设计和建设的大门。

第二个时点是2017年左右,因为2015年前后数据中心行业开始赚钱,作为高科技和重资产的结合,数据中心开始受到全球投资人和运营商的高度重视。对于客户需求来讲,单个数据中心的规模大幅度增加,单个机柜的用电量也开始翻倍,而且各个供应商都加速开发数据中心相关的新技术,最新的技术使数据中心的安全性和冗余性得到跨越式提高。最重要的是从客户的全球数据网络或者区域数据网络架构来看,数据中心已经成为中心节点,这实际上是数据中心从单一的存储功能向计算、存储和传输三大要素均衡发展的过渡。那个时期我们最主要是给跨国企业客户,特别是世界五百强金融机构和互联网客户,提供当时最高安全等级的数据中心托管服务,因应这些客户的需求,我们是第一批给客户推出来“双活”的数据中心,之后是“两地三中心”,之后是一个云服务区域三个数据中心呈三角形部署互为备份,等等一系列综合解决方案。这也可以看出来,新技术新产品新方案的采用都是为最大限度保证数据的安全性,提高数据中心的冗余度和稳定性。这些方案直到今天也是很领先的。

第三个时点是2020年,疫情对工作生活方式的影响、大数据与人工智能、物联网、区块链、云计算等新一代信息技术的深度融合以及数字基础设施投资的热度大幅度提高,相应地我们给客户提供数据中心托管服务和定制化服务过程中明显感觉算力需求大幅度增加,机柜的需求规模成倍增长,高密度机柜的使用也逐渐成为方向。大规模的数据中心建设为未来算力需求的满足打下了良好基础,同时数据中心成为资本投资市场投资回报率最高的领域之一,根据JLL的报告中提供的数据,全球最大的6家IDC REITs,包括美国的Equinix、Digital Realty(DLR)、CyrusOne、CoreSite、QTS Realty DC(QTS),以及新加坡的Keppel DC,2015年至2019年,他们的年化增值回报率平均值为17.7%,而2020-2021年这个数值达到了29.4% 。当然大规模的数据中心投资和建设也产生了新的挑战。各地投资建设高等级数据中心如火如荼,而且大多数是大规模或者超大规模的数据中心。这如同在旅游城市投资建设饭店,投资人投资海量资金短时间内建设大量的五星级甚至是七星级饭店,然而真正来旅游的可能只有5%的客户用这么高大上的饭店,剩下的游客三星或者四星饭店已经非常满意了,然而建好的五星级和七星级饭店是按需求20倍的规模投资建设的。这就造成大家投资几亿甚至几十亿建好一个T3标准的数据中心,一看周边很多同质化的竞争对手,只能内卷打价格战,赔钱先签约提升上架率,结果就造成大家日子都不好过。

好在我们的目标客户大多数是那5%的高需求客户,而且数据中心的规划、设计、建设期间一直强调要做好数据中心的模块化建设,先建好一期之后有了订单再建设二期三期,而且二期三期可以灵活地改进设计。再有就是强化传输能力和数据网络低时延解决方案,为客户的整个数据网络的高效传输提供基础。

因为长期为世界五百强跨国企业提供服务使我们深刻理解数据中心是关键的信息基础设施,但是再重要它也是客户数据网络里面的一个中心节点,它的效能不仅仅体现在高大上的建筑、顶级的机电和传输设备,更重要的是客户整个数据网络的传输效率和可靠性。所以我们总是要求新的数据中心在运营商中立、带宽和云平台接入方面要做到在所在地区最好。要知道有些金融客户连接国际金融中心,比如纽约、芝加哥、伦敦等地方传输时延的要求近乎苛刻,甚至是看似不可能完成的任务,因为每减少一毫秒就可以每天多赚几十万美元甚至更多。我们有非常成功的案例,包括曾经给客户提供东京到芝加哥期货交易所和NYSE及Nasdaq交易所、香港到伦敦金属期货交易所等全球最“快” 双向时延最小的解决方案。而游戏或者视频平台对此也非常看重,时延稍微大一些,用户体验就会差很远。总之,这个时期是数据中心的高速发展期,投资金额和规模总量成倍增加,为未来人工智能的兴起和算力大发展打下了良好基础。

第四个时点就是从2022年开始的新一轮人工智能大爆发带动的算力大发展。2022年11月ChatGPT正式上线,实际上在此之前以ChatGPT为代表的人工智能技术驱动的自然语言处理工具和相关应用就大幅度带动数字基础设施的投资,因为数据、算法、算力作为人工智能核心三要素,算力是最根本的数字基础设施。据OpenAI测算,2012年开始,全球AI训练所用的计算量呈现指数增长,平均每3.43个月便会翻一倍,目前计算量已扩大30万倍,远超算力增长速度。另外据华为发布的《计算2030》预测,2030年人类将进入YB数据时代,全球数据每年新增1YB。通用算力将增长10倍到3.3ZFLOPS 、人工智能算力将增长500倍超过100ZFLOPS。100ZFLOPS的算力是什么概念,相当于一百万个中国超级计算机神威“太湖之光”的算力总和。所以算力的大发展是人工智能发展的基础之一,也是具有非常大挑战性的任务。特别是考虑到现有的大多数数据中心其实没有真正规划设计作为人工智能时代的算力中心,都是按照Uptime或者国标设计建设的高等级数据中心,支撑存储功能的保证级别和冗余度极高,但是算力的效率不一定很高。这如同一个航空公司需要采购的飞机有空客A380、波音747这样的飞洲际骨干航线载客量超过400人的大型客机,同时也需要采购数量更多的飞短途支线空客A320和波音737这类载客量在100-150人的客机。如果都是使用大型客机来飞支线航线不仅经济性差,而且对机场和环境要求高很多,实际上是不可能完成大多数旅客出行保证的。这也解释了为什么世界第一的巨无霸空客A380和四发的A340现在在逐步退役中,而兼顾载客量和经济成本的双发A330在全球市场卖的非常火爆。回到算力这方面,毋庸置疑未来算力中心的技术参数肯定要求更高,整体技术含量也会更高,但是必须考虑一个关键因素,就是每一个客户的需求都不一样,我们必须根据每一个客户的不同需求从提高算力效率的角度量身定做,目标是在相同条件下计算效率最高成本最低。否则今天数据中心已经在消耗全世界2%的电力总量,如果未来几年算力需求增长100倍或者500倍,即使考虑到新能源技术的发展和芯片数据处理能力的增强,但是算力还是会成为人工智能发展和人类社会进步的瓶颈之一。对此我们感到任务艰巨压力巨大,同时每天面对新的算力需求和技术挑战兴趣盎然,深深感到这也是难得的商业机会。

记者:亚马逊在2005年成立了AWS云服务子公司,阿里巴巴在2009年成立了云计算子公司阿里云。对云计算市场刚出现时候的设想和今天云计算产业的新愿景,您觉得最大的颠覆在哪里?或者对于您而言,最大的机会是什么?

高伟明:这是一个非常好的对比也是非常有意思的话题。亚马逊 CEO Andy Jassy在一次演讲里面说到“当初我们只是针对公司内部的需求,开发出这个系统,从来没想过未来这个系统会变成AWS"。这不仅仅是自谦的表述其实也是大实话。如果要总结其成功的原因,其中最重要的是算力需求助推AWS从内部的计算系统变成2022年全年营收为801亿美元的全球最全面、应用最广泛的云计算平台。阿里巴巴也有类似的历程。

而今天AWS对人工智能的未来算力需求是有充分准备的,AWS在三个层面上推出的客户服务,包括框架和基础设施 (配备 Apache MXNet 和 TensorFlow 等工具)、API 驱动型服务 (将智能功能快速添加到应用程序) 和机器学习平台 (适用于数据科学家)。阿里巴巴也有类似的准备。至于这两家云计算巨头在过去十几年最重要的成果实际上是推翻了过去客户自建机房、自购服务器、自行配置算力设备和数据网络的模式,接受专业的第三方提供商通过公共Internet为用户提供的云服务,用户可以通过Internet访问云并享受计算、存储、网络等服务。这个模式突破了算力规模的限制,为算力指数级提升打下了基础,也随着算力需求的提高而飞速发展。未来发展的潜力我们拭目以待, 虽然很难具体预测,但是有一点我个人很确认,就是随着人工智能应用推动算力需求的强劲发展,未来AWS和阿里云这类云计算服务商的成功会是今天的几倍甚至几十倍,今天只是开启了一个序幕而已。

至于商业机会,我们可以先从人工智能谈起,在我心目中今天人工智能驱动的各种应用有点像1997年前后的互联网初步发展时期。我们都知道今天的很多互联网大厂都是那个时期产生的。人工智能技术未来肯定对人类社会的生活生产方式产生巨大的促进作用,重塑我们很多的思维和行为模式。当然和互联网初生阶段类似,今天的人工智能应用的盈利模式和盈利能力还没有确立,可能也会出现短期的泡沫,但是应该也如同互联网一样在经历了2001年的大泡沫之后有了广告、游戏和电商等可行的流量变现手段从而以惊人的速度高速发展。今天的人工智能应用在商业模式和盈利模式都不太明朗,大多数是在烧钱。但是我个人非常确认,未来人工智能技术和相关应用一定会高速发展,对人类生产和生活的促进甚至有可能超过互联网。

其实我们今天已经在享受人工智能技术带来的巨大便利,而未来的价值创造空间是空前巨大的。拿我们身边的例子来讲,比如我们常常抱怨天气预报不准确,台风中心登陆路径不可测,如果可以大幅度增加算力优化算法,肯定比今天的预报准确度提高很多倍。从目前全球数值天气预报水平看,5公里分辨率是很高水平了,目标将达到1公里;而对于区域模式而言,1公里分辨率已可以做到,下一步则要实现100米级的分辨率。然而建立在谷歌强大算力基础上的谷歌DeepMind的最新人工智能模型GraphCast,2023年11月发布的一项研究表明,GraphCast比现今被认为最为可靠的HRES模拟预报系统更精确、更快速。在一项内部测试中,GraphCast在1380个天气变量中的90%以上的变量上实现了比HRES更高的准确性。并且,该系统还预测了比以前更远的未来极端天气。例如2023年9月,该系统提前约9天准确预测飓风“李”将在加拿大新斯科舍省登陆。

还有在金融领域,去年三月全球最大的财经资讯公司彭博社开发了专为金融领域量身打造的拥有500亿参数的大型语言模型(LLM)——BloombergGPT。彭博的数据分析师已经收集和维护了40年的金融语言文件。团队从这个庞大的金融数据档案中提取信息,创建了一个包含英语金融文件的3630亿标记的综合数据集。该数据集与一个3450亿标记的公共数据集结合,创建了一个包含超过7000亿标记的大型训练语言资料库。听起来这个数据量级别太大了,超出一般的想象空间,对比一下GPT-3.5模型的参数量为2000亿,GPT-3的参数量为1750亿,我们就会感叹这个专注金融领域模型巨大的潜力和颠覆现有金融服务模式能力了。

类似的例子数不胜数,每个月都有新的突破,人类对人工智能应用的要求不断提高,而支持其运营的算力需求的提高也是永无止境的。这就是我们对人工智能和算力平台充满希望和信心的缘由,同时也是我们心目中巨大的商业机会。

去年11月专门在AI领域进行投资的风投公司Air Street Capital发布了《2023人工智能现状报告》。再次强调算力就是人工智能时代的石油,这个比喻是很贴切的,而且算力有可能比石油更有战略价值是在于石油有替代能源,算力在很长一段时间将是有独占地位的。我很推荐大家看一下Air Street Capital的预测,我们跟踪他们过去六年的预测,很多说中了。

说了这么多发散性的话题,回到问题本身我个人觉得人工智能和算力方向的投资和建设是有巨大机会的,如同20年前投资互联网和互联网基础设施。投资回报有可能超过20年前投资互联网。

记者:从您目前服务的客户看,他们过去一年最显著的变化是什么?

高伟明:从我们的客户和合作伙伴的角度来看,过去一年最显著的变化来自于这几个方面:

一是算力需求爆发性增长。过去大型企业客户典型需求就是几十个机柜,多的几百个机柜,考虑到扩展预留超不过2MW。而现在单一客户特别是人工智能领域的客户,一般都是10MW或者20MW起,很多要求扩容空间到100MW。而且整体客户需求是每年翻倍增长的。

二是高密度机柜需求显著增加。过去4KW机柜是高等级数据中心的标准配置,而根据我们自己的统计,过去12个月我们的客户需要的平均电量是9KW/机柜,而最高要求是18KW。这基本上是现有风冷系统支持的天花板了,再往上就得依靠液冷了。目前液冷数据中心单机柜可支持30kW以上的散热能力,并能较好演进到100kW以上。看到这样的趋势,我们也在争分夺秒布局算力中心的液冷方案以便未来可以满足客户高密度机柜的需要。

三是庞大的算力支出使得人工智能领域的客户已经开始寻找相对于传统数据中心而言计算效率高和单位算力成本经过优化的算力中心。按照The Register的测算人工智能带动超大型数据中心需求未来6年增长三倍,而WSJ报道2023年前三个月美国数据中心最集中的北弗吉尼亚地区数据中心的租金上涨7.7%,这都造成算力成本的大幅度增加,也促使我们必须开发更多计算效率高成本相对便宜的算力中心。

另一方面,比如现在ChatGPT依靠Microsoft的Azure云平台的支撑,但是每一次搜索的成本大约在1.3美分,相比于谷歌这样的传统搜索成本0.2美分要昂贵很多,而且如果今后因为自身的战略或者由于地理位置覆盖的原因走出Azure可能这方面的单位成本还要增加。去年二月份ChatGPT的访问量突破10亿次,而今后会更加快速增长,这个成本是巨大的很难长期支撑。加上大模型训练的成本大概是200万–1200万美元一次。这些都造成如果不加以改进算力成本会大到难以维持人工智能应用的发展。我们需要做的事情就是要为人工智能提供更大规模、更低单位成本、计算效率更高的算力,而这一领域的提高空间是无止境的。

第四就是由于快速增长的算力需求和能源消耗产生的矛盾,很多公司在ESG(Environmental,Social & Governance)责任方面提出更高的要求,从而在满足巨大的算力需求增长的同时还有兼顾这方面的要求。表面上看有了上述新增的要求是极大增加了算力中心规划设计和建设运营的难度,但是另一方面也是在起始阶段就为可持续发展打下了坚实基础。因此可再生能源作为算力中心的能源来源越来越受到重视。而ESG还促使我们从能源使用效率和减少碳排放的角度考虑算力中心选址和配置的问题,例如我们前两年的几个项目在美国北部的威斯康辛、俄亥俄等地,这些地方的电价其实并不是美国电价最便宜的地区。但是我们给客户规划设计和建设算力中心时考虑到北部的MISO和PJM两大电网电力供应非常稳定,生产生活配套设施相对完备,而且北部地区比如威斯康辛年平均温度大约为5度,相比其它一些地方有15度左右的温差,这就为充分利用自然冷源,大量节省能源和减少碳排放创造了条件,也使得威斯康辛、明尼苏达和俄亥俄这类地方综合比较是有一定优势的。这一点也证明绿色环保低碳和投资收益之间不一定是绝对矛盾的,如果从项目规划阶段就可以整体综合考虑ESG,有可能做到投资回报高的同时减少碳排放促进绿色环保。

记者:2024年应该是AI应用大爆发的一年,国内因为芯片问题业界也有很多的担忧。您如何看待这些担心?您觉得这方面还有哪些新挑战需要解决以便支撑AI应用大发展的?

高伟明:芯片确实对于数据中心/算力中心和云计算服务而言至关重要,高性能芯片绝大多数是用在数据中心里面的,而且大多数数据的调取和传输是在数据中心内部发生的,如果高性能芯片出现供应问题,对于数据中心/算力中心和云计算服务的影响是巨大的。

目前大家的聚焦都是在计算芯片和存储芯片上,毫无疑问这些肯定是非常重要的算力中心基础。但是只要算力需求还在以指数倍增长,新玩家和新技术就会不断涌现,这块还会不断提高而且不时出现突破的。从为人工智能应用提供支撑的算力中心角度来看我们所担心的瓶颈反倒是芯片间的传输带宽。由于数据传输的通道数量受到芯片面积以及生产成本的限制,数据传输的时钟频率受到工艺功耗等因素的影响,而且现有数据传输技术在尺寸、速度和能效方面接近极限,需要创新技术来进一步扩展数据传输容量。相比于过去十年间计算能力的高速提升,芯片间数据传输带宽的提高明显要缓慢很多而且一直未得到应有的重视,很可能会成为一个制约算力的瓶颈。如何提高芯片本身的传输带宽,通过软件来优化传输效率,或者算力中心整体设计通过存算一体的架构最大限度缩短传输距离的方式提高传输效率将成为这个行业的下一个赛点。

记者:可再生能源对于数据中心未来发展会创造新的机会吗?

高伟明:可再生能源是数据中心行业发展的趋势也是今天必须要规划的方向。刚才提到客户大多数有ESG责任方面的战略性考虑,因此对可再生能源的要求是现实且严苛的。甚至有时候感觉是不可能完成的任务。但是从另外角度来思考,一个是现有的数据中心已经消耗了全世界2%的电力,如果未来几年算力需求要提高上百倍,这个是不可能持续的,第二就是正是这方面的要求现有技术和资源要素很难达到,也给大家一个非常好的商业机会。其实过去几年全球太阳能和风能发电的增长是巨大的,截至2022年底,中国太阳能发电装机容量3.93亿千瓦,而美国2022年底太阳能发电总量达到145.6TWH。这无疑都有巨大的发展。但是太阳能和风能都有不稳定的缺点,受气候和昼夜影响大,不配套建设储能设施很难并网使用。而现有技术条件下储能设施的建设费用巨大,大规模推广的成本高。好消息是储能技术在突飞猛进,过去我们预计要到2030年储能才能达到投入产出平衡,但是新技术大大缩短了实现平衡的时间。照目前的趋势,大概3-5年就可以实现,那时候风能和太阳能的利用效率和使用范围就会增加很多。总之,可再生能源在可持续发展战略上非常重要,也是创造巨大商业机会的领域。

记者:在之前的沟通我们有聊到,比特币或2022年9月以太坊合并前狂热的“挖矿”活动事实上是整个行业算力提升的重要驱动力。伴随Web 3行业兴起的“矿场”运营技术对于今天的云计算中心有什么具体的帮助?

高伟明:这是一个非常有意思且令人深思的话题。实际上很多“挖矿”本身就是一种追求算力最大化的尝试,可以说是极端的算力最大化,即在成本相对最低的情况下实现算力最大化。大约在2021年前后,我们为包括来自美国和中国的几家大型“矿商”基于我们成熟的数据中心规划、设计、建设管理和运营维护的经验帮助他们开发新的北美大规模矿场提供咨询服务。刚开始参观他们运营的“矿场”对我们是有极大震动的。“矿场”比较于数据中心确实是做到了节省单位算力成本的极致。例如建设T3级别数据中心很多时候成本在700万美元/MW以上,而那时候矿场的设计要求是20万美元/MW以下,这个确实是数量级的差别。

但是接触时间久了,技术进行深入探讨之后,发现矿场的规划、设计和建设里面有很多的智慧,用最简单易行的办法解决了很多数据中心建设和运营里面的难题。从这个角度来讲我们是非常佩服他们的,他们很多的理念启发了我们在未来数据中心和算力中心建设方面如何进一步提高计算效率降低TCO成本。

另一方面,相关算力的任何最新技术和新解决方案,只要是有利于算力的效率优化就会马上用在“矿场”里面,甚至试错很多次也一直坚持。可以说我们从矿场学习了很多东西,这些经验和技术对未来算力中心的发展进步而言非常宝贵。

当然我们的团队用长期建设数据中心获得的经验帮助这类客户系统性提高他们矿场规划、设计、建设管理和运营维护的水准也对他们非常有帮助,可以说相互成就。另一方面我们团队里面有美国本土非常有经验的能源和电力资源专家,他们有的具有几十年在能源和电力领域运营和电力交易的经验,这方面对客户的帮助是非常巨大的。要知道美国的电力很多州是完全自由交易的,每时每刻电价是浮动的,而且各个地方有需求响应(Demand Response)项目, 用电高峰期可以自行限电把电力卖回给电网,这样既可以拿到电价相对低的长期购电合同,这种电力回售有时候回报也是很高的。而且参加需求响应, 在当地电网出现故障或者其它极端条件下实施自愿限电的用电企业本身也是对社区的社会责任方面的贡献,自愿成为超大号的UPS不间断电源保证民生。

对于锁定电价工作最重要是要确保客户能够锁定足够的电量,单位电价足够低,同时也要确保供电的稳定性,这是非常专业和有价值的工作,因为很多客户一个月电费要花一百万美元甚至几百万美元,能够锁定低价同时参加需求响应可以节省很大一笔电力成本。

其实还有很多方面是可以和“矿场”相互学习借鉴提高的。必须说“矿场”某种意义上来讲在算力中心的技术和解决方案的优化方面很多是走在前面的。我们认为未来人工智能应用需要的算力中心应该是在高等级数据中心和成本控制到极致的“矿场”之间的一个平衡点,根据不同客户的具体需求,有的可能要简化高等级数据中心的某些冗余设计,另一方面也可能是在矿场基础上加大安全性和冗余设计,保证算力高效低成本安全稳定。很有可能十年或者二十年后我们回顾人工智能所需要的算力中心发展历程会发现“矿场”的建设是算力中心发展的前驱之一。

记者:边缘计算去中心化和大模型应用所倡导的数据集权似乎在一开始是相互矛盾的,现在您怎么看待这些质疑?

高伟明:边缘计算对于物联网和未来人工智能应用来讲是非常重要的组成部分,假如没有边缘计算在贴近用户端最大限度解决数据处理和计算,那么所有数据都必须回到中心节点的数据中心里面进行计算和存储,这样造成极大的资源浪费,海量的数据传输有可能会造成网络严重的”拥堵”。

更为重要的是有些应用必须用低时延甚至超低时延的解决方案才能保证安全性或者达到设计指标。比如自动驾驶未来一定是交通出行最重要的模式,而自动驾驶对时延要求很高,V2V, V2P最大通信时延不能超过100毫秒;特殊应用,如碰撞感知,V2V的最大时延不超过20毫秒;实际操作中如果停车精度要1米的话,扣除处理的时延10毫秒,制动感应30毫秒,V2X的时延只允许5毫秒。这就必然要求大量的数据传输和计算在边缘数据中心“就近”解决。

这只是一个简单的例子,还有很多必须通过边缘计算和中心节点数据中心配合才能完成的任务。所以分布和集中、中心和边缘是相对的概念也需要相互配合无缝衔接,必须根据不同客户要求做好规划。

记者:美国创业人群中,Web 3和AI两个看似不相关的领域似乎有很多交集。如Sam 除了创办OpenAI以外还创办了Worldcoin;Stability AI前联合创始人Cyrus Hodes去年3月也在香港发布了基于Web 3的GPT大模型。从您的视角看,是否有一些发现能够解释这些现象。

高伟明:这也是非常有趣的现象,其实还远远不止这些例子,我们接触到的很多成功创业者或者创业公司都是Web3和AI跨界的,某种意义上来讲这种跨界也是相互促进相互支持的。其实可以这么看,传统互联网是帮助我们作为现实世界的主体接触到虚拟世界,是通过互联网完成现实世界中的两个主体之间的信息交流、数据交换或者货物交易,而没有真正使我们进入虚拟世界。但是人工智能将会真正把我们带入虚拟世界,未来虚拟世界和现实世界的交互和相互改变会极大提高我们的生产效率和生活质量。Web3是基于区块链的去中心化网络。而区块链技术最突出最本质的特征去中心化,不再依赖于中心化机构,实现了数据的分布式记录、存储和更新。Web3可以帮助人工智能解决包括数据隐私、专有模型执行的公平性以及创建和传播可信内容的能力,而人工智能可以为智能合约、数据分析、人机交互和区块链安全等方面为Web3提供更加智能化和高效的服务。所以跨界发展是非常合乎逻辑的,在这个技术融合的时代也可以发挥综合性的优势。

顺便说一下,从我们理解的客户未来需求的角度来看,具有巨大影响力的融合还有生物技术(BT)与信息技术(IT)的融合。过去三十年间,人类技术发展最快的领域无疑是以基因工程、细胞工程和生物传感为代表的生物技术和以互联网、云计算和大数据为代表的信息技术,可以说这两个领域硕果累累,极大改变了我们的生活和生产。近年来这两种技术的融合例如在基于DNA的大规模信息存储、基于细胞或细胞启发的信息系统、智能传感器系统和细胞-半导体接口、电子-生物系统设计自动化等方向都显示出巨大的发展潜能,这种融合带来的生产力增长和生活质量的提高也将远远超过已有的成果。而这些融合的不断发展也意味着提高算力、优化算法的需要和发展的可能性也是无尽的。■ 
                                                                                      
读者评论
MORE +

热门排行榜
OR
+
2024-01-11 20:17
科技

高伟明:AI时代,提升算力需要更多的想象力和产品思维

趋势成就了一代人的选择,也考验他。现代人工智能,乃至未来绝大多数行业的生产、创新,都将会被数据、算法、算力这三大因素所驱动。
芯片半导体市场今年或回暖,中国机遇何在?
OR品牌理念
+

■ 或者,  留一段影像,回一曲挂牵。丝丝入扣、暖暖心灵 ,需飘过的醇厚与共。
■ 或者,热烈空雨伴芬芳泥土;绿绿生命缠锐意骄阳。
回望,回望,一马平川红酒飘散断归途。
■ 或者,灰蒙蒙空气重回道指一万四千点。滚动时光,照进现实,流逝过往,回归未来。

■ 在台式电脑、笔记本电脑中,「OR」能给您创造优越的阅读体验。只要您在浏览器中输入我们的网址:
oror.vip
即可畅享我们为您提供的优质资讯。

■ 您也可通过手机而或平板电脑从浏览器输入我们的网址:
oror.vip

访问我们的网站,获得一样的精彩!

Forbes

■趋势成就了一代人的选择,也考验他。现代人工智能,乃至未来绝大多数行业的生产、创新,都将会被数据、算法、算力这三大因素所驱动。

它们在农耕、工业化、智能化等庞大趋势所创造的动荡环境中被商业推向高位。今天的人们迫切的想知道,如何通过它们走向未来。

这几个概念虽然如影随形一般同时出现,但算力只在变得极度稀缺时才会被人们惦记起来。如大多数人不记得算盘是被谁发明的,但算出圆周率小数点后七位的祖冲之却被记录在小学课本中。最近两年,当英伟达、AMD等公司的名字又铺天盖地的出现在全球主流媒体上时,高伟明和他的团队也变得更加忙碌了,他们意识到,一个时代的底层驱动方式可能又变了。

过去20年中,高伟明管理和运营了超过20个高等级数据中心和HPC算力中心,领导建设了十余个高等级数据中心和HPC算力中心,为JPMC、Black Rock、Apple、AWS、Zoom、Google、Starbucks、Allianz、Roche、BP等巨头公司提供世界级数据中心托管服务。他也因此成为了数据中心领域最有影响力的华人之一。

他在2021年所创立的B&D Power Solutions 是目前全球市场上成长性最高的算力解决方案提供商之一;高伟明所创造的庞大的“计算集群”目前已向各类客户提供了大约300MW的算力中心项目,正在规划和设计的项目超过1GW。按照高伟明的预计,B&D Power Solutions未来三年内,每年至少还会向客户提供300MW的算力项目,其中很大比例是以可再生能源驱动的。

我们与高伟明先生进行了长达数个小时的深度对话,并梳理了他回答的8个关键的问题。通过他详实的分享,我们正试图了解算力在未来将如何改变世界?

上一次算力这么被关注可能还是在20世纪80年代。与当时家用电脑普及趋势一样,从今年开始,大众突然意识到了我们离人工智能竟然如此之近。

彼时,苹果、IBM等主机厂商在消费者的见证下,用大笔、持续的订单投票选出了硅谷最明星的芯片公司和代工厂。但如今,做选择的人可能变了;在代表消费者的主机厂与芯片之间会横亘着第三个重要的角色——云计算中心和最新的算力中心。

自2017年以来,作为高科技、重资产相结合的数据中心产业开始受到全球投资人和网络运营商的高度重视。也在这一年,行业整体开始大规模赚钱,单个数据中心的规模大幅度增加,单个机柜的用电量也开始翻倍。此外各个供应商都加速开发数据中心相关的新技术,最新的技术使数据中心的安全性和冗余性得到跨越式提高。但更重要的是从客户的全球网络或者区域网络架构来看,数据中心已经成为中心节点,这实际上是数据中心从单一的存储功能向计算、存储和传输三大要素均衡发展的过渡。

而到了2020年,新冠疫情对人类生活方式的影响再次加速了这一趋势。大数据与人工智能、物联网、区块链、云计算等新一代信息技术的深度融合以及数字基础设施投资的热度放大了算力的短缺。资本市场的回报水平也更加肯定了这一稀缺性。据JLL的报告中提供的数据,全球最大的6家IDC REITs,包括美国的Equinix、Digital Realty(DLR)、CyrusOne、CoreSite、QTS Realty DC(QTS),以及新加坡的Keppel DC,2015年至2019年,他们的年化增值回报率平均值为17.7%,而2020-2021年这个数值达到了29.4% 。

当2023年人工智能领域的革命性产品GPT4出现以后,趋势真正变得再也无法阻挡——全球可能会有一半的算力由算力中心完成、并至少消耗人类2%的电力;而今天最能感受到未来机会与曲折的人或许不是埋头狂奔的芯片巨头、广袤也好奇的C端用户或是迫切寻找方向的人工智能应用开发商,而是真正“实现”算力的人——他们正在定义人工智能时代的“石油”,其中有的人或许会因为创造标准而成为21世纪的洛克菲勒。

但不可否认的是,目前算力中心领域仍然是一个和房地产类似,且极度分散的行业;因此,关于芯片、人工智能,甚至更上游的能源问题的前瞻性判断,或许在这个行业中只有很少一部分满级玩家能够提前看见。

他既需要长期深耕数据中心和电信行业,对头部科技公司需求足够了解,还得熟稔如今芯片产业的技术进展与产品周期,此外在人工智能、液冷、可再生能源、储能、光通信、海缆等相关技术的发展趋势相互交叠下,如何做出正确的构架和布局同样也至关重要。

而真的走到一个高等级算力中心的落地运营阶段,新的问题还会如期而至——其中包括各地的地理环境、法律政策是否真的适合产业长期发展?项目所在地的供电和未来全球天然气和电力的供需关系和价格走向将会如何?是否可以帮助客户锁定价格便宜且供应稳定的电力?

同时在巨头们的盘更错节下,这也是一个复杂程度和成长潜力远超人们预期的市场。另一个证据来自于一家提供大规模 GPU 加速工作负载初创公司Coreweave。去年4月,这家公司的估值突破了20亿美金,之后还以英伟达 GPU 为抵押,拿下了 23 亿美元债务融资。事实上,当去年以太坊合并成功以后,大部分以太坊上的"矿商"都将面临转型挑战,Coreweave是其中之一。它的成功转型一方面要归功于握有不少GPU芯片可以提供可观算力;另一方面,英伟达也将大量的AI服务器芯片分配给这些“老客户”支持他们转型。站在英伟达的一侧看,当时AWS、谷歌等云计算等服务商已经开始开发自己的芯片以减少对英伟达的依赖,而扶持Coreweave这样的创业公司以对冲未来可能的用户流失也是黄仁勋的战略之一。

如今数据/算力中心产业已经在高烈度竞争中不可避免的成为了一个综合与跨学科的行当。但在这个领域的玩家中能真正发现机会、完成“知识”迭代的却并不多。

当我们开始用以上这些条件进行筛选时,最后只能剩下为数不多的一些人能被看作是算力的“满级玩家”,高伟明一定是其中之一。

高伟明和他的团队也是最早认识到算力产业衍变趋势的那批人。因为那时候已经看到随着人工智能技术和应用大发展,传统的数据中心很难为未来数据和算力需求爆发性增长提供支撑,而矿商们的“挖矿”其实是最极致的算力输出,“矿场”的建设和运营里面运用的很多新技术和实用的理念可以改造传统数据中心,以便更加高效地提高算力服务。高伟明如今也在带领团队与曾经提供技术支持的几家全球著名的“矿商”讨论实施和Coreweave类似的全球算力平台转型。

至于算力和算力中心未来的挑战,高伟明还有更多的思考。他认为“目前大家的聚焦都是在计算芯片和存储芯片上,毫无疑问这些肯定是非常重要的算力中心基础。但是只要算力需求还在以指数倍增长,新玩家和新技术就会不断涌现,这块还会不断高速提升而且不时出现突破的。

从为人工智能应用提供支撑的算力中心角度来看高伟明和他的团队所担心的瓶颈反倒是芯片间的传输带宽。由于数据传输的通道数量受到芯片面积以及生产成本的限制,数据传输的时钟频率受到工艺功耗等因素的影响,而且现有数据传输技术在尺寸、速度和能效方面接近极限,需要创新技术来进一步扩展数据传输容量。相比于过去十年间计算能力的高速提升,芯片间数据传输带宽的提高明显要缓慢很多而且一直未得到应有的重视,很可能会成为一个制约算力发展的瓶颈。如何提高芯片本身的传输带宽,通过软件来优化传输效率,或者算力中心整体设计通过存算一体的架构以及最大限度缩短传输距离的方式提高传输效率将成为这个行业的新赛点。

高伟明认为,如果说传统数据中心的设计重点是冗余性和安全性最大化,而“矿场”是算力单位成本控制最大化,那么未来支撑人工智能应用的算力中心是计算、存储和传输的平衡,安全冗余和成本控制的平衡,还需要特别考虑绿色环保和可再生能源以便保证其发展的可持续性。基于以上的因素考虑,很明显在全球范围内可以支撑大规模算力中心平衡发展的电力资源和土地资源的重要性和价值就越来越大,这也是中国算力行业的机会之一。


B&D Power Solutions 高伟明

以下为与高伟明先生的对话节选:

记者:您大约是在什么时候感受到AI对于算力需求开始了显著的增加?同时他对于云计算中心创造了一种什么样的新需求?

高伟明:回顾过去的十年,有四个时间节点见证了算力需求的增长同时也促使对数据中心/算力中心的需求和要求不断跨越式发展:

第一个是2013-2015年,那个时期数据中心在国内是比较新的概念,还仍旧被称为机房,非常形象地描述了在大多数人眼中那是电信设备操作的场所。我们那个时候主要是为全球五百强欧美跨国企业提供数据网络服务,而数据中心是他们网络设计中的中心节点。一般他们的需求大概都是几十个机柜个别超过100个机柜,已经是那个时代非常大的需求了。而那个时候的机柜单位电量一般都是2KW, 今天看起来非常初级。但是那个时候我们的客户对数据中心用途上来讲主要是用来存储用户和技术数据的,因此对安全性、可靠性和冗余性的要求非常高,可以说当时是全球最高水平的,很多的技术和解决方案今天看来也是非常领先的。我们实际上是在给客户提供服务的同时从客户那里学习了很多知识和经验,打开了数据中心设计和建设的大门。

第二个时点是2017年左右,因为2015年前后数据中心行业开始赚钱,作为高科技和重资产的结合,数据中心开始受到全球投资人和运营商的高度重视。对于客户需求来讲,单个数据中心的规模大幅度增加,单个机柜的用电量也开始翻倍,而且各个供应商都加速开发数据中心相关的新技术,最新的技术使数据中心的安全性和冗余性得到跨越式提高。最重要的是从客户的全球数据网络或者区域数据网络架构来看,数据中心已经成为中心节点,这实际上是数据中心从单一的存储功能向计算、存储和传输三大要素均衡发展的过渡。那个时期我们最主要是给跨国企业客户,特别是世界五百强金融机构和互联网客户,提供当时最高安全等级的数据中心托管服务,因应这些客户的需求,我们是第一批给客户推出来“双活”的数据中心,之后是“两地三中心”,之后是一个云服务区域三个数据中心呈三角形部署互为备份,等等一系列综合解决方案。这也可以看出来,新技术新产品新方案的采用都是为最大限度保证数据的安全性,提高数据中心的冗余度和稳定性。这些方案直到今天也是很领先的。

第三个时点是2020年,疫情对工作生活方式的影响、大数据与人工智能、物联网、区块链、云计算等新一代信息技术的深度融合以及数字基础设施投资的热度大幅度提高,相应地我们给客户提供数据中心托管服务和定制化服务过程中明显感觉算力需求大幅度增加,机柜的需求规模成倍增长,高密度机柜的使用也逐渐成为方向。大规模的数据中心建设为未来算力需求的满足打下了良好基础,同时数据中心成为资本投资市场投资回报率最高的领域之一,根据JLL的报告中提供的数据,全球最大的6家IDC REITs,包括美国的Equinix、Digital Realty(DLR)、CyrusOne、CoreSite、QTS Realty DC(QTS),以及新加坡的Keppel DC,2015年至2019年,他们的年化增值回报率平均值为17.7%,而2020-2021年这个数值达到了29.4% 。当然大规模的数据中心投资和建设也产生了新的挑战。各地投资建设高等级数据中心如火如荼,而且大多数是大规模或者超大规模的数据中心。这如同在旅游城市投资建设饭店,投资人投资海量资金短时间内建设大量的五星级甚至是七星级饭店,然而真正来旅游的可能只有5%的客户用这么高大上的饭店,剩下的游客三星或者四星饭店已经非常满意了,然而建好的五星级和七星级饭店是按需求20倍的规模投资建设的。这就造成大家投资几亿甚至几十亿建好一个T3标准的数据中心,一看周边很多同质化的竞争对手,只能内卷打价格战,赔钱先签约提升上架率,结果就造成大家日子都不好过。

好在我们的目标客户大多数是那5%的高需求客户,而且数据中心的规划、设计、建设期间一直强调要做好数据中心的模块化建设,先建好一期之后有了订单再建设二期三期,而且二期三期可以灵活地改进设计。再有就是强化传输能力和数据网络低时延解决方案,为客户的整个数据网络的高效传输提供基础。

因为长期为世界五百强跨国企业提供服务使我们深刻理解数据中心是关键的信息基础设施,但是再重要它也是客户数据网络里面的一个中心节点,它的效能不仅仅体现在高大上的建筑、顶级的机电和传输设备,更重要的是客户整个数据网络的传输效率和可靠性。所以我们总是要求新的数据中心在运营商中立、带宽和云平台接入方面要做到在所在地区最好。要知道有些金融客户连接国际金融中心,比如纽约、芝加哥、伦敦等地方传输时延的要求近乎苛刻,甚至是看似不可能完成的任务,因为每减少一毫秒就可以每天多赚几十万美元甚至更多。我们有非常成功的案例,包括曾经给客户提供东京到芝加哥期货交易所和NYSE及Nasdaq交易所、香港到伦敦金属期货交易所等全球最“快” 双向时延最小的解决方案。而游戏或者视频平台对此也非常看重,时延稍微大一些,用户体验就会差很远。总之,这个时期是数据中心的高速发展期,投资金额和规模总量成倍增加,为未来人工智能的兴起和算力大发展打下了良好基础。

第四个时点就是从2022年开始的新一轮人工智能大爆发带动的算力大发展。2022年11月ChatGPT正式上线,实际上在此之前以ChatGPT为代表的人工智能技术驱动的自然语言处理工具和相关应用就大幅度带动数字基础设施的投资,因为数据、算法、算力作为人工智能核心三要素,算力是最根本的数字基础设施。据OpenAI测算,2012年开始,全球AI训练所用的计算量呈现指数增长,平均每3.43个月便会翻一倍,目前计算量已扩大30万倍,远超算力增长速度。另外据华为发布的《计算2030》预测,2030年人类将进入YB数据时代,全球数据每年新增1YB。通用算力将增长10倍到3.3ZFLOPS 、人工智能算力将增长500倍超过100ZFLOPS。100ZFLOPS的算力是什么概念,相当于一百万个中国超级计算机神威“太湖之光”的算力总和。所以算力的大发展是人工智能发展的基础之一,也是具有非常大挑战性的任务。特别是考虑到现有的大多数数据中心其实没有真正规划设计作为人工智能时代的算力中心,都是按照Uptime或者国标设计建设的高等级数据中心,支撑存储功能的保证级别和冗余度极高,但是算力的效率不一定很高。这如同一个航空公司需要采购的飞机有空客A380、波音747这样的飞洲际骨干航线载客量超过400人的大型客机,同时也需要采购数量更多的飞短途支线空客A320和波音737这类载客量在100-150人的客机。如果都是使用大型客机来飞支线航线不仅经济性差,而且对机场和环境要求高很多,实际上是不可能完成大多数旅客出行保证的。这也解释了为什么世界第一的巨无霸空客A380和四发的A340现在在逐步退役中,而兼顾载客量和经济成本的双发A330在全球市场卖的非常火爆。回到算力这方面,毋庸置疑未来算力中心的技术参数肯定要求更高,整体技术含量也会更高,但是必须考虑一个关键因素,就是每一个客户的需求都不一样,我们必须根据每一个客户的不同需求从提高算力效率的角度量身定做,目标是在相同条件下计算效率最高成本最低。否则今天数据中心已经在消耗全世界2%的电力总量,如果未来几年算力需求增长100倍或者500倍,即使考虑到新能源技术的发展和芯片数据处理能力的增强,但是算力还是会成为人工智能发展和人类社会进步的瓶颈之一。对此我们感到任务艰巨压力巨大,同时每天面对新的算力需求和技术挑战兴趣盎然,深深感到这也是难得的商业机会。

记者:亚马逊在2005年成立了AWS云服务子公司,阿里巴巴在2009年成立了云计算子公司阿里云。对云计算市场刚出现时候的设想和今天云计算产业的新愿景,您觉得最大的颠覆在哪里?或者对于您而言,最大的机会是什么?

高伟明:这是一个非常好的对比也是非常有意思的话题。亚马逊 CEO Andy Jassy在一次演讲里面说到“当初我们只是针对公司内部的需求,开发出这个系统,从来没想过未来这个系统会变成AWS"。这不仅仅是自谦的表述其实也是大实话。如果要总结其成功的原因,其中最重要的是算力需求助推AWS从内部的计算系统变成2022年全年营收为801亿美元的全球最全面、应用最广泛的云计算平台。阿里巴巴也有类似的历程。

而今天AWS对人工智能的未来算力需求是有充分准备的,AWS在三个层面上推出的客户服务,包括框架和基础设施 (配备 Apache MXNet 和 TensorFlow 等工具)、API 驱动型服务 (将智能功能快速添加到应用程序) 和机器学习平台 (适用于数据科学家)。阿里巴巴也有类似的准备。至于这两家云计算巨头在过去十几年最重要的成果实际上是推翻了过去客户自建机房、自购服务器、自行配置算力设备和数据网络的模式,接受专业的第三方提供商通过公共Internet为用户提供的云服务,用户可以通过Internet访问云并享受计算、存储、网络等服务。这个模式突破了算力规模的限制,为算力指数级提升打下了基础,也随着算力需求的提高而飞速发展。未来发展的潜力我们拭目以待, 虽然很难具体预测,但是有一点我个人很确认,就是随着人工智能应用推动算力需求的强劲发展,未来AWS和阿里云这类云计算服务商的成功会是今天的几倍甚至几十倍,今天只是开启了一个序幕而已。

至于商业机会,我们可以先从人工智能谈起,在我心目中今天人工智能驱动的各种应用有点像1997年前后的互联网初步发展时期。我们都知道今天的很多互联网大厂都是那个时期产生的。人工智能技术未来肯定对人类社会的生活生产方式产生巨大的促进作用,重塑我们很多的思维和行为模式。当然和互联网初生阶段类似,今天的人工智能应用的盈利模式和盈利能力还没有确立,可能也会出现短期的泡沫,但是应该也如同互联网一样在经历了2001年的大泡沫之后有了广告、游戏和电商等可行的流量变现手段从而以惊人的速度高速发展。今天的人工智能应用在商业模式和盈利模式都不太明朗,大多数是在烧钱。但是我个人非常确认,未来人工智能技术和相关应用一定会高速发展,对人类生产和生活的促进甚至有可能超过互联网。

其实我们今天已经在享受人工智能技术带来的巨大便利,而未来的价值创造空间是空前巨大的。拿我们身边的例子来讲,比如我们常常抱怨天气预报不准确,台风中心登陆路径不可测,如果可以大幅度增加算力优化算法,肯定比今天的预报准确度提高很多倍。从目前全球数值天气预报水平看,5公里分辨率是很高水平了,目标将达到1公里;而对于区域模式而言,1公里分辨率已可以做到,下一步则要实现100米级的分辨率。然而建立在谷歌强大算力基础上的谷歌DeepMind的最新人工智能模型GraphCast,2023年11月发布的一项研究表明,GraphCast比现今被认为最为可靠的HRES模拟预报系统更精确、更快速。在一项内部测试中,GraphCast在1380个天气变量中的90%以上的变量上实现了比HRES更高的准确性。并且,该系统还预测了比以前更远的未来极端天气。例如2023年9月,该系统提前约9天准确预测飓风“李”将在加拿大新斯科舍省登陆。

还有在金融领域,去年三月全球最大的财经资讯公司彭博社开发了专为金融领域量身打造的拥有500亿参数的大型语言模型(LLM)——BloombergGPT。彭博的数据分析师已经收集和维护了40年的金融语言文件。团队从这个庞大的金融数据档案中提取信息,创建了一个包含英语金融文件的3630亿标记的综合数据集。该数据集与一个3450亿标记的公共数据集结合,创建了一个包含超过7000亿标记的大型训练语言资料库。听起来这个数据量级别太大了,超出一般的想象空间,对比一下GPT-3.5模型的参数量为2000亿,GPT-3的参数量为1750亿,我们就会感叹这个专注金融领域模型巨大的潜力和颠覆现有金融服务模式能力了。

类似的例子数不胜数,每个月都有新的突破,人类对人工智能应用的要求不断提高,而支持其运营的算力需求的提高也是永无止境的。这就是我们对人工智能和算力平台充满希望和信心的缘由,同时也是我们心目中巨大的商业机会。

去年11月专门在AI领域进行投资的风投公司Air Street Capital发布了《2023人工智能现状报告》。再次强调算力就是人工智能时代的石油,这个比喻是很贴切的,而且算力有可能比石油更有战略价值是在于石油有替代能源,算力在很长一段时间将是有独占地位的。我很推荐大家看一下Air Street Capital的预测,我们跟踪他们过去六年的预测,很多说中了。

说了这么多发散性的话题,回到问题本身我个人觉得人工智能和算力方向的投资和建设是有巨大机会的,如同20年前投资互联网和互联网基础设施。投资回报有可能超过20年前投资互联网。

记者:从您目前服务的客户看,他们过去一年最显著的变化是什么?

高伟明:从我们的客户和合作伙伴的角度来看,过去一年最显著的变化来自于这几个方面:

一是算力需求爆发性增长。过去大型企业客户典型需求就是几十个机柜,多的几百个机柜,考虑到扩展预留超不过2MW。而现在单一客户特别是人工智能领域的客户,一般都是10MW或者20MW起,很多要求扩容空间到100MW。而且整体客户需求是每年翻倍增长的。

二是高密度机柜需求显著增加。过去4KW机柜是高等级数据中心的标准配置,而根据我们自己的统计,过去12个月我们的客户需要的平均电量是9KW/机柜,而最高要求是18KW。这基本上是现有风冷系统支持的天花板了,再往上就得依靠液冷了。目前液冷数据中心单机柜可支持30kW以上的散热能力,并能较好演进到100kW以上。看到这样的趋势,我们也在争分夺秒布局算力中心的液冷方案以便未来可以满足客户高密度机柜的需要。

三是庞大的算力支出使得人工智能领域的客户已经开始寻找相对于传统数据中心而言计算效率高和单位算力成本经过优化的算力中心。按照The Register的测算人工智能带动超大型数据中心需求未来6年增长三倍,而WSJ报道2023年前三个月美国数据中心最集中的北弗吉尼亚地区数据中心的租金上涨7.7%,这都造成算力成本的大幅度增加,也促使我们必须开发更多计算效率高成本相对便宜的算力中心。

另一方面,比如现在ChatGPT依靠Microsoft的Azure云平台的支撑,但是每一次搜索的成本大约在1.3美分,相比于谷歌这样的传统搜索成本0.2美分要昂贵很多,而且如果今后因为自身的战略或者由于地理位置覆盖的原因走出Azure可能这方面的单位成本还要增加。去年二月份ChatGPT的访问量突破10亿次,而今后会更加快速增长,这个成本是巨大的很难长期支撑。加上大模型训练的成本大概是200万–1200万美元一次。这些都造成如果不加以改进算力成本会大到难以维持人工智能应用的发展。我们需要做的事情就是要为人工智能提供更大规模、更低单位成本、计算效率更高的算力,而这一领域的提高空间是无止境的。

第四就是由于快速增长的算力需求和能源消耗产生的矛盾,很多公司在ESG(Environmental,Social & Governance)责任方面提出更高的要求,从而在满足巨大的算力需求增长的同时还有兼顾这方面的要求。表面上看有了上述新增的要求是极大增加了算力中心规划设计和建设运营的难度,但是另一方面也是在起始阶段就为可持续发展打下了坚实基础。因此可再生能源作为算力中心的能源来源越来越受到重视。而ESG还促使我们从能源使用效率和减少碳排放的角度考虑算力中心选址和配置的问题,例如我们前两年的几个项目在美国北部的威斯康辛、俄亥俄等地,这些地方的电价其实并不是美国电价最便宜的地区。但是我们给客户规划设计和建设算力中心时考虑到北部的MISO和PJM两大电网电力供应非常稳定,生产生活配套设施相对完备,而且北部地区比如威斯康辛年平均温度大约为5度,相比其它一些地方有15度左右的温差,这就为充分利用自然冷源,大量节省能源和减少碳排放创造了条件,也使得威斯康辛、明尼苏达和俄亥俄这类地方综合比较是有一定优势的。这一点也证明绿色环保低碳和投资收益之间不一定是绝对矛盾的,如果从项目规划阶段就可以整体综合考虑ESG,有可能做到投资回报高的同时减少碳排放促进绿色环保。

记者:2024年应该是AI应用大爆发的一年,国内因为芯片问题业界也有很多的担忧。您如何看待这些担心?您觉得这方面还有哪些新挑战需要解决以便支撑AI应用大发展的?

高伟明:芯片确实对于数据中心/算力中心和云计算服务而言至关重要,高性能芯片绝大多数是用在数据中心里面的,而且大多数数据的调取和传输是在数据中心内部发生的,如果高性能芯片出现供应问题,对于数据中心/算力中心和云计算服务的影响是巨大的。

目前大家的聚焦都是在计算芯片和存储芯片上,毫无疑问这些肯定是非常重要的算力中心基础。但是只要算力需求还在以指数倍增长,新玩家和新技术就会不断涌现,这块还会不断提高而且不时出现突破的。从为人工智能应用提供支撑的算力中心角度来看我们所担心的瓶颈反倒是芯片间的传输带宽。由于数据传输的通道数量受到芯片面积以及生产成本的限制,数据传输的时钟频率受到工艺功耗等因素的影响,而且现有数据传输技术在尺寸、速度和能效方面接近极限,需要创新技术来进一步扩展数据传输容量。相比于过去十年间计算能力的高速提升,芯片间数据传输带宽的提高明显要缓慢很多而且一直未得到应有的重视,很可能会成为一个制约算力的瓶颈。如何提高芯片本身的传输带宽,通过软件来优化传输效率,或者算力中心整体设计通过存算一体的架构最大限度缩短传输距离的方式提高传输效率将成为这个行业的下一个赛点。

记者:可再生能源对于数据中心未来发展会创造新的机会吗?

高伟明:可再生能源是数据中心行业发展的趋势也是今天必须要规划的方向。刚才提到客户大多数有ESG责任方面的战略性考虑,因此对可再生能源的要求是现实且严苛的。甚至有时候感觉是不可能完成的任务。但是从另外角度来思考,一个是现有的数据中心已经消耗了全世界2%的电力,如果未来几年算力需求要提高上百倍,这个是不可能持续的,第二就是正是这方面的要求现有技术和资源要素很难达到,也给大家一个非常好的商业机会。其实过去几年全球太阳能和风能发电的增长是巨大的,截至2022年底,中国太阳能发电装机容量3.93亿千瓦,而美国2022年底太阳能发电总量达到145.6TWH。这无疑都有巨大的发展。但是太阳能和风能都有不稳定的缺点,受气候和昼夜影响大,不配套建设储能设施很难并网使用。而现有技术条件下储能设施的建设费用巨大,大规模推广的成本高。好消息是储能技术在突飞猛进,过去我们预计要到2030年储能才能达到投入产出平衡,但是新技术大大缩短了实现平衡的时间。照目前的趋势,大概3-5年就可以实现,那时候风能和太阳能的利用效率和使用范围就会增加很多。总之,可再生能源在可持续发展战略上非常重要,也是创造巨大商业机会的领域。

记者:在之前的沟通我们有聊到,比特币或2022年9月以太坊合并前狂热的“挖矿”活动事实上是整个行业算力提升的重要驱动力。伴随Web 3行业兴起的“矿场”运营技术对于今天的云计算中心有什么具体的帮助?

高伟明:这是一个非常有意思且令人深思的话题。实际上很多“挖矿”本身就是一种追求算力最大化的尝试,可以说是极端的算力最大化,即在成本相对最低的情况下实现算力最大化。大约在2021年前后,我们为包括来自美国和中国的几家大型“矿商”基于我们成熟的数据中心规划、设计、建设管理和运营维护的经验帮助他们开发新的北美大规模矿场提供咨询服务。刚开始参观他们运营的“矿场”对我们是有极大震动的。“矿场”比较于数据中心确实是做到了节省单位算力成本的极致。例如建设T3级别数据中心很多时候成本在700万美元/MW以上,而那时候矿场的设计要求是20万美元/MW以下,这个确实是数量级的差别。

但是接触时间久了,技术进行深入探讨之后,发现矿场的规划、设计和建设里面有很多的智慧,用最简单易行的办法解决了很多数据中心建设和运营里面的难题。从这个角度来讲我们是非常佩服他们的,他们很多的理念启发了我们在未来数据中心和算力中心建设方面如何进一步提高计算效率降低TCO成本。

另一方面,相关算力的任何最新技术和新解决方案,只要是有利于算力的效率优化就会马上用在“矿场”里面,甚至试错很多次也一直坚持。可以说我们从矿场学习了很多东西,这些经验和技术对未来算力中心的发展进步而言非常宝贵。

当然我们的团队用长期建设数据中心获得的经验帮助这类客户系统性提高他们矿场规划、设计、建设管理和运营维护的水准也对他们非常有帮助,可以说相互成就。另一方面我们团队里面有美国本土非常有经验的能源和电力资源专家,他们有的具有几十年在能源和电力领域运营和电力交易的经验,这方面对客户的帮助是非常巨大的。要知道美国的电力很多州是完全自由交易的,每时每刻电价是浮动的,而且各个地方有需求响应(Demand Response)项目, 用电高峰期可以自行限电把电力卖回给电网,这样既可以拿到电价相对低的长期购电合同,这种电力回售有时候回报也是很高的。而且参加需求响应, 在当地电网出现故障或者其它极端条件下实施自愿限电的用电企业本身也是对社区的社会责任方面的贡献,自愿成为超大号的UPS不间断电源保证民生。

对于锁定电价工作最重要是要确保客户能够锁定足够的电量,单位电价足够低,同时也要确保供电的稳定性,这是非常专业和有价值的工作,因为很多客户一个月电费要花一百万美元甚至几百万美元,能够锁定低价同时参加需求响应可以节省很大一笔电力成本。

其实还有很多方面是可以和“矿场”相互学习借鉴提高的。必须说“矿场”某种意义上来讲在算力中心的技术和解决方案的优化方面很多是走在前面的。我们认为未来人工智能应用需要的算力中心应该是在高等级数据中心和成本控制到极致的“矿场”之间的一个平衡点,根据不同客户的具体需求,有的可能要简化高等级数据中心的某些冗余设计,另一方面也可能是在矿场基础上加大安全性和冗余设计,保证算力高效低成本安全稳定。很有可能十年或者二十年后我们回顾人工智能所需要的算力中心发展历程会发现“矿场”的建设是算力中心发展的前驱之一。

记者:边缘计算去中心化和大模型应用所倡导的数据集权似乎在一开始是相互矛盾的,现在您怎么看待这些质疑?

高伟明:边缘计算对于物联网和未来人工智能应用来讲是非常重要的组成部分,假如没有边缘计算在贴近用户端最大限度解决数据处理和计算,那么所有数据都必须回到中心节点的数据中心里面进行计算和存储,这样造成极大的资源浪费,海量的数据传输有可能会造成网络严重的”拥堵”。

更为重要的是有些应用必须用低时延甚至超低时延的解决方案才能保证安全性或者达到设计指标。比如自动驾驶未来一定是交通出行最重要的模式,而自动驾驶对时延要求很高,V2V, V2P最大通信时延不能超过100毫秒;特殊应用,如碰撞感知,V2V的最大时延不超过20毫秒;实际操作中如果停车精度要1米的话,扣除处理的时延10毫秒,制动感应30毫秒,V2X的时延只允许5毫秒。这就必然要求大量的数据传输和计算在边缘数据中心“就近”解决。

这只是一个简单的例子,还有很多必须通过边缘计算和中心节点数据中心配合才能完成的任务。所以分布和集中、中心和边缘是相对的概念也需要相互配合无缝衔接,必须根据不同客户要求做好规划。

记者:美国创业人群中,Web 3和AI两个看似不相关的领域似乎有很多交集。如Sam 除了创办OpenAI以外还创办了Worldcoin;Stability AI前联合创始人Cyrus Hodes去年3月也在香港发布了基于Web 3的GPT大模型。从您的视角看,是否有一些发现能够解释这些现象。

高伟明:这也是非常有趣的现象,其实还远远不止这些例子,我们接触到的很多成功创业者或者创业公司都是Web3和AI跨界的,某种意义上来讲这种跨界也是相互促进相互支持的。其实可以这么看,传统互联网是帮助我们作为现实世界的主体接触到虚拟世界,是通过互联网完成现实世界中的两个主体之间的信息交流、数据交换或者货物交易,而没有真正使我们进入虚拟世界。但是人工智能将会真正把我们带入虚拟世界,未来虚拟世界和现实世界的交互和相互改变会极大提高我们的生产效率和生活质量。Web3是基于区块链的去中心化网络。而区块链技术最突出最本质的特征去中心化,不再依赖于中心化机构,实现了数据的分布式记录、存储和更新。Web3可以帮助人工智能解决包括数据隐私、专有模型执行的公平性以及创建和传播可信内容的能力,而人工智能可以为智能合约、数据分析、人机交互和区块链安全等方面为Web3提供更加智能化和高效的服务。所以跨界发展是非常合乎逻辑的,在这个技术融合的时代也可以发挥综合性的优势。

顺便说一下,从我们理解的客户未来需求的角度来看,具有巨大影响力的融合还有生物技术(BT)与信息技术(IT)的融合。过去三十年间,人类技术发展最快的领域无疑是以基因工程、细胞工程和生物传感为代表的生物技术和以互联网、云计算和大数据为代表的信息技术,可以说这两个领域硕果累累,极大改变了我们的生活和生产。近年来这两种技术的融合例如在基于DNA的大规模信息存储、基于细胞或细胞启发的信息系统、智能传感器系统和细胞-半导体接口、电子-生物系统设计自动化等方向都显示出巨大的发展潜能,这种融合带来的生产力增长和生活质量的提高也将远远超过已有的成果。而这些融合的不断发展也意味着提高算力、优化算法的需要和发展的可能性也是无尽的。■ 
                                                                                      
 
 读者评论:


分享:

每日头条
OR
+
最新资讯
OR
+
热门排行榜
OR
+