所在位置: 杭州网>杭州影像
杭州开建数搭社区:AI第一城之争,数据之战悄然打响
杭州网  发布时间:2026-05-22 09:02:38 Fri   

杭州的人工智能版图上,又多了一个关键拼图。

5月18日,在钱江世纪城投资促进大会上,整数智能副总裁孟卓飞正式发布了“数搭社区”(ZODA)。这是一个聚焦数据和模型评测的开源基础设施平台。

消息一出,业界旋即产生一个追问:杭州已有魔搭社区、芯模社区、模域空间等开源平台,为何还需要一个“数搭社区”?

答案需要从AI产业的底层逻辑中寻找。

模型跑得快,全凭数据带

观察当前全球AI竞争格局,一个现象值得注意:全球开发者正大量使用杭州出品的开源模型——DeepSeek、通义千问。中国模型的Token调用量首次超越美国,其中主力军却是海外开发者。这背后的关键原因,是杭州选择了开源路线——将模型权重开放,允许全球免费下载、自由修改。

这意味着,杭州并非底座算力最强的城市,却是目前最能将技术转化为规模化价值的城市。

但模型的性能提升,高度依赖数据质量。模型是引擎,数据是燃料。没有高质量、标准化的数据,再强的模型也难以落地。

这正是数搭社区要解决的核心问题。

整数智能团队此前在硅谷运营开源社区两年多,数据集累计下载量超过1亿次。OpenAI、Anthropic、DeepMind等头部模型厂商发布新版本时,引用的评测基准有超过20%来自该团队运营的开源基金会。换言之,这家杭州企业在全球AI训练的数据标准制定上,已拥有相当的话语权。

如今,他们将经验移植回国内,落地钱江世纪城,目标明确:打造全球最具影响力的高质量数据开源基础设施。

正如孟卓飞在发布会上所言:“我们要让中国的数据标准,成为世界的标准。”

数搭社区的架构清晰——建立一套从数据采集、标注、评测到应用的开源生态,让开发者免费获取高质量数据集,让模型训练有据可依,让评测标准公开透明。

这个环节之所以关键,在于AI竞争的上半场是模型参数竞赛,下半场则转向数据质量和场景落地。谁掌握高质量的数据标准,谁就掌握AI产业的话语权。

目前,魔搭社区解决了“模型从哪里来”的问题,数搭社区则回答“数据从哪里来”“模型好不好”的命题。两者互为补充,缺一不可。在AI产业链的三大基础设施——模型、算力、数据中,杭州在模型和算力方面已有先发优势,数据环节则长期缺少标志性开源平台。数搭社区的发布,正式补上了这块拼图。

偶然中的必然

数搭社区选择钱江世纪城,有清晰的产业逻辑。

从宏观层面看,杭州正加快建设“全国人工智能创新发展第一城”。横向比较:北京拼算力,上海拼芯片,深圳拼硬件制造。杭州的差异化优势在于开源生态。DeepSeek和通义千问两大开源模型,已把杭州推至全球AI开源的第一方阵。

但开源生态不能止于模型,数据是最后一块拼图。

钱江世纪城已具备AI产业的“底座”能力:芯模社区拥有2300P算力和80余种主流模型,为企业提供研发底座;北大信研院、浙大计创院等科研平台持续输出技术和人才;萧山区拥有1700余家规上工业企业,涵盖化纤、纺织、汽车零部件等传统优势产业,这些企业正密集推进智能化改造——视觉质检、能耗优化、产线排程等每一个真实需求,都对应一个垂直应用场景。

数据开源社区最稀缺的不是技术,而是应用场景。而钱江世纪城毗邻中国制造业最密集的区域之一,恰好提供了这一条件。

从微观层面看,整数智能扎根钱江世纪城多年,由浙大计算机创新技术研究院孵化,已成长为AI数据服务领域的头部企业。孟卓飞在发布会上回忆:“第一个办公空间、第一笔保荐投资、第一个邮箱订单,都是世纪城的平台帮我们争取的。”这种“从0到1”的陪伴式成长,使得整数智能最终将最重要的开源社区落地于此。

对数据开源社区而言,理想的空间不仅是物理空间,更是产业空间、场景空间、生态空间。数搭社区需要的不仅是一栋楼,而是一条能与之共同成长的产业链。

这一点,钱江世纪城恰好具备。正如杭州市委常委、萧山区委书记孙旭东在大会上所说,钱江世纪城是全国少有的“总部、金融、科创、赛会”四轮驱动商务区,更是全国首个“芯、模、数、用”全链条AI产业社区。

这些优势,构成了萧山建设数搭社区的底气。

数搭社区,不止是一个平台

数搭社区要建的,是一个新型创新平台。

它的架构分四块:ZODA Benchmark(评测基准)、ZODA Leaderboard(榜单)、ZODA Challenge(挑战赛)、ZODA House(线下空间)。

Benchmark是核心。大模型发布时,需要证明自己有多强。用什么标准来测?谁来定标准?数搭社区要做的是建立一套公开、透明、权威的评测体系。目前,他们已经发布了面向真实终端环境的智能体能力评测、面向真实经济任务的具身智能评测等多个前沿基准。

Leaderboard是榜单。所有模型跑一遍,分数公开透明。谁强谁弱,一目了然。这不仅是技术参考,更是产业风向标。

Challenge是挑战赛。用悬赏的方式,把高难度问题抛给全球开发者。谁解决了,谁拿奖金。这是汇聚全球智慧最快的方式。

最特别的是House——线下空间。在钱江世纪城,数搭社区将设立一处实体空间,用于技术沙龙、黑客松、闭门讨论。这不是一般的办公楼,而是参照硅谷AGI House的模式,让顶尖研究员、创业者和投资人可以在轻松的氛围里碰撞想法。

这种“线上+线下”的模式,让数搭社区不仅是一个数据托管平台,更是一个创新共同体。

按照规划,两年内,数搭社区要覆盖100多个国家和地区,吸引200多家AI企业入驻,带动AI数据产业规模超过100亿元。

数字背后,是一盘更大的棋。社区需要的不是行政指令,而是生态协同。钱江世纪城提供的,恰恰是这种协同——算力底座、科研平台、应用场景、资本支持,一个都不少。

如果把AI产业比作一棵树,模型是树干,算力是根系,数据是养分。杭州已经有了粗壮的树干(开源模型)和发达的根系(算力基础设施),但养分从哪里来?数搭社区,就是那个“造养人”。

它不是杭州第一个开源社区,但它可能是打通“产-模-数”生态链的关键一环。一端连着产业需求,如萧山的制造业场景,一端连着模型训练,特别是杭州的开源模型生态,而中间则是高质量的数据供给。

孟卓飞在发布会上说了一句话:“我们要让全球AI开发者训练模型时,都能用上来自杭州的数据标准。”

这野心不小。但回过头看,五年前也没人相信杭州能做出世界级的开源模型。今天,DeepSeek和通义千问做到了。数搭社区要做的,是在数据这条赛道上,再跑出一个“杭州速度”。

而数据,正是AI时代最基础的“原材料”。谁掌握了数据标准,谁就掌握了产业话语权。杭州已经拿到了模型的开源门票,现在,它正在争取数据的开源门票。

两张票都拿到手,AI第一城的底座才算真正筑牢。

数搭社区的发布,是杭州从“模型之城”迈向“AI基础设施之城”的关键一步。

这一步,迈在了钱江世纪城。

来源:潮新闻  作者:记者 张留 郑宸  编辑:郑海云