杭州的人工智能版图上,又多了一个关键拼图。
5月18日,在钱江世纪城投资促进大会上,整数智能副总裁孟卓飞正式发布了“数搭社区”(ZODA)。这是一个聚焦数据和模型评测的开源基础设施平台。
消息一出,业界旋即产生一个追问:杭州已有魔搭社区、芯模社区、模域空间等开源平台,为何还需要一个“数搭社区”?
答案需要从AI产业的底层逻辑中寻找。

模型跑得快,全凭数据带
观察当前全球AI竞争格局,一个现象值得注意:全球开发者正大量使用杭州出品的开源模型——DeepSeek、通义千问。中国模型的Token调用量首次超越美国,其中主力军却是海外开发者。这背后的关键原因,是杭州选择了开源路线——将模型权重开放,允许全球免费下载、自由修改。
这意味着,杭州并非底座算力最强的城市,却是目前最能将技术转化为规模化价值的城市。
但模型的性能提升,高度依赖数据质量。模型是引擎,数据是燃料。没有高质量、标准化的数据,再强的模型也难以落地。
这正是数搭社区要解决的核心问题。
整数智能团队此前在硅谷运营开源社区两年多,数据集累计下载量超过1亿次。OpenAI、Anthropic、DeepMind等头部模型厂商发布新版本时,引用的评测基准有超过20%来自该团队运营的开源基金会。换言之,这家杭州企业在全球AI训练的数据标准制定上,已拥有相当的话语权。
如今,他们将经验移植回国内,落地钱江世纪城,目标明确:打造全球最具影响力的高质量数据开源基础设施。
正如孟卓飞在发布会上所言:“我们要让中国的数据标准,成为世界的标准。”
数搭社区的架构清晰——建立一套从数据采集、标注、评测到应用的开源生态,让开发者免费获取高质量数据集,让模型训练有据可依,让评测标准公开透明。
这个环节之所以关键,在于AI竞争的上半场是模型参数竞赛,下半场则转向数据质量和场景落地。谁掌握高质量的数据标准,谁就掌握AI产业的话语权。
目前,魔搭社区解决了“模型从哪里来”的问题,数搭社区则回答“数据从哪里来”“模型好不好”的命题。两者互为补充,缺一不可。在AI产业链的三大基础设施——模型、算力、数据中,杭州在模型和算力方面已有先发优势,数据环节则长期缺少标志性开源平台。数搭社区的发布,正式补上了这块拼图。

偶然中的必然
数搭社区选择钱江世纪城,有清晰的产业逻辑。
从宏观层面看,杭州正加快建设“全国人工智能创新发展第一城”。横向比较:北京拼算力,上海拼芯片,深圳拼硬件制造。杭州的差异化优势在于开源生态。DeepSeek和通义千问两大开源模型,已把杭州推至全球AI开源的第一方阵。
但开源生态不能止于模型,数据是最后一块拼图。
钱江世纪城已具备AI产业的“底座”能力:芯模社区拥有2300P算力和80余种主流模型,为企业提供研发底座;北大信研院、浙大计创院等科研平台持续输出技术和人才;萧山区拥有1700余家规上工业企业,涵盖化纤、纺织、汽车零部件等传统优势产业,这些企业正密集推进智能化改造——视觉质检、能耗优化、产线排程等每一个真实需求,都对应一个垂直应用场景。
数据开源社区最稀缺的不是技术,而是应用场景。而钱江世纪城毗邻中国制造业最密集的区域之一,恰好提供了这一条件。
从微观层面看,整数智能扎根钱江世纪城多年,由浙大计算机创新技术研究院孵化,已成长为AI数据服务领域的头部企业。孟卓飞在发布会上回忆:“第一个办公空间、第一笔保荐投资、第一个邮箱订单,都是世纪城的平台帮我们争取的。”这种“从0到1”的陪伴式成长,使得整数智能最终将最重要的开源社区落地于此。
对数据开源社区而言,理想的空间不仅是物理空间,更是产业空间、场景空间、生态空间。数搭社区需要的不仅是一栋楼,而是一条能与之共同成长的产业链。
这一点,钱江世纪城恰好具备。正如杭州市委常委、萧山区委书记孙旭东在大会上所说,钱江世纪城是全国少有的“总部、金融、科创、赛会”四轮驱动商务区,更是全国首个“芯、模、数、用”全链条AI产业社区。
这些优势,构成了萧山建设数搭社区的底气。