k1体育登录:上海科学智能研究院发布三大领域科学数据平台
发布时间:2024-08-07 13:15:35

中国青年报客户端讯(中青报·中青网记者王烨捷)7月4日,由世界人工智能大会组委会办公室、上海科学智能研究院(简称“上智院”)、复旦大学共同主办的“人工智能:科研范式变革与产业发展”主题论坛上,上智院发布了面向生命科学、物质科学、大气科学3大领域的科学数据平台。

上海科学智能研究院发布三大领域科学数据平台

其中,面向生命科学的siRNAOD³数据集,是首个面向药物设计的siRNA修饰序列数据集,具有规模大、信息全、时效强的特点,能够辅助siRNA沉默机制的研究,加速创新药物的研发。该数据库对数千篇公开文献构建了统一的生物学信息提取流水线,整理与归一化了5.7万条siRNA修饰序列数据极其详尽的实验室测定结果。与现有开源siRNA修饰数据集相比,其数据量提升了整整一个数量级;

面向物质科学的QO2Mol数据集,是通过4000万核时的高精度计算构建的大规模第一性原理分子属性数据集,具有精度高、元素种类全、规模大的特点。该数据集收录了12万个来自真实化合物数据库的有机分子和超过2000万个构象的数据集,涵盖10种不同元素,将推动物质科学基础模型的研发,促进新材料、新能源和新药物产业的发展。

面向大气科学的FMWF数据集,由高精度大模型中期天气预报数据构成,具有精度高、预报时长长的特点,将为交通运输、能源调度、防灾减灾等行业的发展提供支持,提升社会和经济效益。该数据集由在欧洲中期天气预报中心评估中表现优异的伏羲中期天气预报大模型产生,提供了2021-2023年每日2次的未来15天预测数据,包含地面和高空多个气象要素,总数据量超过2TB。

在科学大模型中,数据的质量和规模是决定模型效果的关键。当前,海外的科学数据库非常重视科学数据的整合范围、数据质量以及对历史数据的整理与汇集。然而,由于建设时间短、基础设施缺乏,现有科学数据库仍普遍存在规模小、质量参差不齐、数据不互通等问题。k1体育官网

为解决这些问题,上智院主导建设了一套涵盖多模态科学数据的科学数据平台,具备从数据采集、加工到管理和建模的全链路能力,保证数据的高效加工、可信和安全互通k1体育登录。该平台基于分布式并行计算将数据处理效率提升了10倍,并通过制定安全互通规范、开发数据安全工具以及全流程记录和溯源数据操作行为,实现了数据互通的有规可循、有器可用、有迹可查。

上海科学智能研究院发布三大领域科学数据平台

数据平台发布后,全球科学数据生态联盟也正式启动。该联盟旨在通过政府、企业、高校、研究机构等多方合作,构建全球性、多领域的科研大数据资源开放与共享平台。


k1体育网址