逐浪 AIGC｜Hugging Face汇聚30万个AI模型后，最新估值到了45亿美元

来源：21世纪经济报道时间：2023-09-01 08:53:15

南方财经全媒体记者江月上海报道

“百模大战”不足以形容2023年的AI模型训练热潮，行业蓬勃程度突破想象。

8月末，南方财经全媒体记者从开源代码平台Hugging Face内部人士处了解到，在过去8个月里，Hugging Face上的预训练模型数量从此前积累的10万个增长到了超过30万个，数据集从1万个增长至5.8万个，估值也从20亿美元飙升到45亿美元。

(资料图)

Hugging Face正逐步成为全球最大的大模型库。8月末，Hugging Face宣布最新一轮融资成功，共筹集到2.35亿美元，公司估值较去年同期上涨1倍至45亿美元，投资方包括Salesforce、谷歌、IBM、亚马逊等科技巨头，英伟达、英特尔、AMD、高通等芯片公司以及知名风险投资机构Sound Ventures等。

尽管对话式机器人ChatGPT率先引发了全球关注，但全球开发者的AI模型研究，目前不限于语言类，还包括图像生成、声音生成和转移、视频生成等。这反映，人工智能开发者仍然在从不同方向挖掘市场需求点，未来还可能出现新的“爆款应用”。

AI融资加速

Hugging Face在2023年乘AIGC东风而上，它被称为AI领域的GitHub，今年销售量大增，且加快融资速度、身价倍增。

一名Hugging Face内部人士近期告诉南方财经全媒体记者，截至8月底，在Hugging Face平台上公开的人工智能模型数量已经超过30万个，未公开的数量甚至更多。另外，数据集也达到5.8万个。公司也在迅速扩张，团队人数从去年的30人扩张到了160多人。

与去年年末的数据相比，这意味着在2023年前8个月，该平台上的预训练模型数量增长200%，数据集数量增长接近500%。

该人士介绍，Hugging Face目前对业界提供模型托管、社区交流，仍在围绕AI发展完善各种功能。在中国，Hugging Face也深入社区交流、提供免费的课程，从而促进当地有兴趣的开发者加速流入行业，也尽早推广“人人使用AI”的理念。

此前有市场消息还称，Hugging Face 今年的ARR（年度经常性收入）可能达到4000万美金左右。Hugging Face首席执行官克莱门特·德朗格（Clément Delangue）近期预计，2023年总收入将为2022年的五倍，因为市场需求十分旺盛。据Hugging Face此前披露，包括微软、谷歌、Bloomberg、英特尔等各个行业超过1.5万家机构都成为它的用户，而其中付费用户已有3000多家。

全球今年，一级市场加速对人工智能产业的投资。风投数据分析公司PitchBook称，2023上半年，全球人工智能领域共计发生融资1387件，筹集融资金额255亿美元，平均融资金额达2605万美元。如要分析业务结构，以硅谷的AI创业公司为例，分为基础大模型层、中间层和垂直场景应用层三种，尽管基础大模型层产生了OpenAI这样的独角兽，但从事中间层数据库、工具包以及应用层的公司，也不乏亮点。

Hugging Face由法国连续创业者德朗格和两位伙伴在2016年创办，NBA球星杜兰特是其天使融资者之一；2018年5月，它又获得了400万美元的种子轮融资；2019年12月， Hugging Face拿到了总额1500万美元的A轮融资；2022年5月10日，Hugging Face宣布C轮融资筹集了1亿美元，估值达到20亿美元。2023年8月的最新一轮融资，是该公司单笔融资规模最大的一笔，也令估值达到45亿美元。

值得留意的是，以往融资中，财务投资者比重高；这一次，新一轮投资中出现诸多科技巨头面孔。以领衔投资的Salesforce为例，这家企业级软件开发巨头近来也在持续提升产品中的AI功能，包括通过网站页面上下文生成销售电子邮件、回复建议提供、自动总结与客户的对话摘要等。此外，诸多本形成竞争关系的科技巨头同时投资了该公司，反映业内希望通过促进AI发展，给科技界带来新的增长机遇。

AI开源模型迅速增长

AI模型开发，成为2023年上半年全球关注的科技热点。一方面，开源与闭源的优劣比较被再次搬上舞台；另一方面，AI模型开发之后如何进行应用落地，得到诸多探讨。

Hugging Face成立于2016年，但推动人工智能模型“开源”开始于2018年底。当年11月，谷歌宣布推出预训练大语言模型BERT，瞬间成为了自然语言理解领域最“红”的模型，但初期只有TensorFlow版本。Hugging Face创始人之一Thomas Wolf完成并开源了PyTorch版本的BERT，这吸引了大量开发者涌入Hugging Face。

在ChatGPT走红之后，Hugging Face继续吸纳更多开发者涌入，不少人集中在机器学习、AI大模型开发上。由于Hugging Face支持大文件的上传、免费提供hosting（网站托管）、免费提供全球CDN（内容分发网络），还可以一键部署，也就是点一下鼠标就将模型快速地布署到亚马逊云上，从而很快将模型使用起来，因此受到开发者欢迎。

不过，开源和闭源的优劣之争也在持续。

目前，“开源”模式获得不少知名公司和机构的支持，例如Meta旗下的LLaMA、斯坦福大学旗下Alpaca、Databricks旗下Dolly 2.0等均已经公开了“算法”。

“开源生态的好处在于，它集思广益，今天你发现一个漏洞、明天他发现一个功能增补，贡献者在看着大模型获得点赞以及落地应用时，将获得很大的成就感。”一位开源社区的经营者告诉南方财经全媒体记者。

不过，支持“闭源”的人士也有自己的理由。例如，2023年红遍全球的GPT大语言模型，于3月14日发布了GPT-4版本，这个模型选择了“闭源”模式，这其中有安全性、版权和商业竞争的复杂考量。

大模型“开源”，到底开放的是什么样的资源？开源字面意思是“公开源代码”。例如Linux操作系统所开放的就是操作系统内核源代码。

大语言模型开放，则更为复杂。业界认为，核心在于“算法”加上“参数”，算法的核心部分主要包括模型结构和训练方法，而参数更是极难获得、高质量的人工标注数据。由于大模型的核心构成包括算法、算力和数据这三驾马车，因此缺少任何一样元素都难以“复制”目标大模型。

支持大模型以开源形式发展的人士普遍认为，开源模型下的数据集依然透明，这对于使用者是一个便利，这样的数据集更容易维持观点均衡、没有偏颇。

在AI模型大量涌现之后，应用落地将在不远的将来吸引更多人的注意。记者在Hugging Face上注意到，尽管语言大模型因对话机器人率先受到大众关注，但开发者并不局限于这一领域，而是对图像、声音、视频以及多模态模型各有涉猎。

如何产生更多像ChatGPT的“爆款”应用？“从事AI模型落地，一方面要在市场上寻找需求，另一方面也不能仅通过API坐享其成模型开发成果，应当更关注数据库的建立。”一名模型开发工程师如是向南方财经全媒体介绍。

关键词：

上一篇：克明食品：预判下半年小麦价格同比会往下走

下一篇：最后一页

为你推荐

深度

动态

信息