图片来源@视觉中国
刷到知名投资人朱啸虎给大模型创业泼的一盆冷水后,正在着手推进ChatGPT与原有机器人创业项目结合的傅盛,开始坐不住了。
近日,傅盛在朋友圈转发朱啸虎对外演讲的一篇文章(《朱啸虎:ChatGPT对创业公司很不友好,未来两三年内请大家放弃融资幻想》),并评论道:“硅谷一半的创业企业都围绕ChatGPT开始了,我们的投资人还能这么无知者无畏。”
(相关资料图)
围绕“大模型创业价值到底有多大”“大模型创业机会到底有多少”等问题,双方展开了一场隔空争辩。
杜克大学电子与计算机工程系教授、计算进化智能中心主任陈怡然总结了两人的不同立场:
朱啸虎觉得大模型摧毁了创业,因为模型、算力和数据,三大支柱都向大厂集中,看不到创业公司的机会,且直接在大模型上做应用护城河太低。傅盛反而认为大模型催生了很多新的架构在大模型之上的创业机会,包括直接在大模型上搭建的不同应用和由于数据私有带来的垂直领域的大模型等等。
为了消解外界对金沙江创投在大模型投资领域的误解,在与傅盛朋友圈争辩后的当晚,朱啸虎又特意发了条朋友圈解释,称金沙江创投应该是国内投资垂直AIGC创业项目最多的早期投资人,自己并非否定大模型领域创业机会,而是希望提醒创业者不要迷信通用大模型。
朱啸虎的上述观点基本已成为当下国内投资圈的共识。恒业资本创始合伙人江一告诉字母榜,国内最终能够存活下来的通用大模型玩家,“可能有个3家就已经不错了。因为训练大模型需要大量投入,要烧很多钱,而且还不一定能追得上ChatGPT或者GPT-4。”
将通用大模型从创业方向中筛掉之后,朱啸虎和傅盛其实在另一个维度上也达成了共识,即行业大模型以及基于大模型的应用开发,才是大部分创业者真正能够抓住的机会。
垂直领域的大模型需求强劲到什么程度?杜克大学教授陈怡然表示,“几乎每周都会有人问我相关的技术可能性,国内国外都有,涵盖了各种行业。当务之急是赶紧deliver所期望的性能,否则就会和上一波AI发展一样,投资者和用户会逐渐地失去耐心。”
在今年6月份的奇绩创坛春季创业路演上,奇绩创坛创始人陆奇分享过一组数据:创业营最终录取的60个项目中,大模型项目39个,占比高达65%,几乎都围绕垂直大模型应用开发展开。
接下来,考验这些垂直大模型领域创业者的,将是谁能率先找到落地场景,并持续不断获取高质量行业数据。
01在OpenAI爆火之后,摆脱对国外大模型提供商的依赖,打造中国版OpenAI就成了中国IT产业势在必行的一件大事。
但通用大模型的训练并非一朝一夕之功,每前进一步都需要耗费巨大的资源,包括更强的算力、更丰富的数据,和更先进的算法。
调研机构TrendForce在一份报告中指出,OpenAI训练ChatGPT的前身GPT-3时,大概用到2万个英伟达A100 GPU的算力,以每块A100芯片售价约1万美元计算,这就相当于2亿美元的投入。有业内人士估计,ChatGPT所需的GPU数量,达到了3万个以上。
英伟达A100 GPU 图源:英伟达官网
大规模投入的另一面,OpenAI不仅连年亏损,甚至亏损额还在逐年增加。据媒体爆料,OpenAI去年亏损额翻倍,达到5.4亿美元左右。为了开发足够先进的通用AI,同时维持公司的正常运转,OpenAI CEO 山姆·阿尔特曼(Sam Altman)更是表示,OpenAI可能需要在未来几年尝试筹集多达1000亿美元的资金。
高昂的前期投入成本让不少公司在大模型研发上望而却步。金山办公CEO章庆元在解释自己不做大模型时就提到,紧缺的英伟达GPU芯片,昂贵的算力成本,以及自研大模型商业化上的不确定性,都决定了这不是任何公司都愿意承担的风险。
创业公司不适合研发通用大模型的认知,不仅仅局限在朱啸虎和他的金沙江创投,越来越多投资机构在这一点上达成了共识。
线性资本创始合伙人兼CEO王淮坦陈,创业公司的机会相对很小,“历史上创业公司能够成功,很大的缘故是你‘为别人所不敢为’,或者做别人认为不会起来、不太看得重的东西,这一类的创业模式我们称之为‘桃花源式的创业’。而大模型需要一些必须成功的要素,要有算力,要有钱等。”
远望资本程浩则更为直接,认为中国版的ChatGPT只会在5家公司里产生:BAT+字节+华为。在程浩看来,创业者只有在具有先发优势的情况下,才有可能跑赢大厂。
正是因为当初谷歌等国外大厂并不看好OpenAI的大语言模型路线,才让ChatGPT借助先发势能跑了出来。但是,当下研发大模型已经成为中国科技大厂的共识,甚至百度、阿里推出产品的动作,比创业公司还快。
傅盛此前也发表过类似的看法,认为国内未来的大模型竞争会朝着两个方面走:一个是大公司主攻通用大模型;另一个则是创业者在大模型基础上开发各式各样的行业大大模型应用,做平民化的大模型。
02在通用大模型上比拼不过大厂的创业者,只能被迫选择做行业大模型或者垂类应用,以此来避开前期大模型训练的无底洞式投入。
头部云厂商大模型研发工程师吴伟向字母榜解释道,不同的参数量对于数据和算力的要求,完全不一样,数据量越少,需要的算力也越低,就能带动整体训练成本的下降。
而且,大部分的企业场景,也并不需要ChatGPT那样参数量过千亿的通用大模型来满足需要。“像逻辑推理、数学推理等,确实要用到百亿甚至千亿参数量,才能实现比较理想的能力提升,但是一些开放问答等,维持在数十亿参数量的大模型,就可以满足客户用大模型提升现有业务能力的需求。”吴伟表示。
如何在合理成本下,能够选择到性价比最高的模型,这才是B端客户做出最终决策的核心依据。
对于依赖外部大模型打造垂类应用的创业者来说,其调用大模型的成本将变得越来越低,已成为可预见的趋势。
阿里云表示,希望未来企业在阿里云上训练一个模型的成本,“能够降低到现在的十分之一,甚至是百分之一。即使是中小企业,也能通过云平台获得AI大模型的能力和服务。”
百度大模型服务在推出三个月后,已经实现了超过十倍的成本下降,“价格应该不会成为大家所使用或者是拥抱大模型的瓶颈。”百度云表示。
除了成本考量之外,通用大模型也并非满足所有行业场景需求的最优解。远望资本程浩指出,这方面更核心的问题是各行各业都有自己的Know-How。这些最有价值的Know-How很可能不在互联网上,而是在企业的私有数据库里,甚至在一部分专家的脑子里。
科技大厂即便通过烧钱提升通用大模型能力,也难以跨越上述这道数据门槛,这也恰恰是拥有行业资源积累的创业者,有针对性开发行业大模型和垂类应用的机会所在。
还有一点值得注意的是,正如同样在做大模型的360创始人周鸿祎所言,通用大模型在落地政府、城市、行业和企业场景时并不能直接使用,存在着缺乏行业深度、易带来数据安全隐患、无法保障内容真正可信及无法实现成本可控等痛点。这都给行业大模型创业留出了生长空间。
正是基于此,在百度、阿里抢发通用大模型产品之后,腾讯反而率先选择了行业大模型的落地方案,在争夺B端客户上与百度、阿里展开了同频竞争。
03但留给行业大模型和垂类应用创业者的挑战同样不少。除了需要应对来自BAT的竞争之外,更重要的考验在于,如何提前大厂一步,找到适合自己产品的落地场景,并挖掘到行业数据。
如同朱啸虎在与傅盛争辩中所说,投资机构同样在找拥有上述特征的创业项目,但符合要求的很少。
相比创业公司重构新的场景,大模型反而更加利好每个行业中的现有玩家。在朱啸虎看来,已经拥有使用场景的玩家,通过ChatGPT很容易就能为自己的产品加上人工智能的功能,如眼下的智能客服。
如何获取差异化竞争优势,一家即将发布大模型产品的公司给出了自己的解决方案。该公司负责人李振告诉字母榜,自己即将推出的行业大模型方案,已经全部被客户买过单了,“没被买过单的我们还没发。”
除此之外,在与大厂的同位竞争中,李振祭出的另一杀手锏是签署独家合作,目前其服务的快消饮料前十厂商中,基本都已经达成了独家大模型开发方案。
留给行业大模型创业者的另一重挑战,则在于数据。在李振看来,算法和算力都可以短时间追赶或者复制,但对数据的处理,反而可能是对整个行业大模型影响最大的一个因素。“在以数据为中心(data-centric)的AI新时代,模型能不能出彩实际上主要是靠数据。”李振表示,数据里面潜藏的诸多魔鬼细节,甚至决定着大模型产品的成败。
谷歌就是前车之鉴。不管从算力还是算法,谷歌并不比OpenAI差,甚至还要强,但恰恰是借助基于人类反馈的强化数据训练工作,OpenAI最终赶在谷歌前面做出了ChatGPT。
根据OpenAI公开的资料,旗下数据团队被建设成为不同水平的层级,数据量大、标注要求简单明确的浅层数据,交给肯尼亚等廉价外包劳工,高等级的数据则交给更高素质标记人员,不少都是训练有素的高校博士。“OpenAI在数据采集方面的有效探索,目前没有任何一个团队可以匹敌。”李振说道。
在解决了场景落地和数据采集问题之后,生产出来的行业大模型,还面临另一个急迫的问题——知识产权归谁。
吴伟表示,与某一企业合作研发的大模型,能不能复用给其他行业内的企业,要看客户的意愿,只能逐个谈判解决。
但走到与企业客户利益绑定后的行业大模型,在获取确定性商业回报之外,也同时失去了大规模扩张的可能性,很容易成为朱啸虎口中“零零散散的小机会”。
失去通用大模型创业机会后,留给创业者做出下一个BAT的机会也无限渺茫,傅盛在这方面显然已经有了足够清醒的认识,“我已经放弃BAT的创业梦了,那的确没机会。”
关键词: