CERN CMS


  • 管理員

             欧洲核子研究中心(简称 CERN)在物理学基础研究中发挥着主导作用。该组织推动了全球多项重大创新和突破,目前运营着全世界最大的粒子物理学实验室,该实验室的大型强子对撞机 (LHC) 就坐落在瑞士和法国边界群山地下。在发现了极可能是难以捉摸的新型粒子——希格斯玻色子之后,大型强子对撞机及其各项实验受到了媒体的广泛关注。

    简介

             紧凑µ子线圈 (CMS) 是大型强子对撞机的两大通用型粒子物理探测器之一。它的目的是探索物理学前沿问题,使物理学家能够研究宇宙早期的状况。来自 38 个国家/地区 183 个研究机构的 3,000 多名物理学家参与了实验的设计、建设和维护。

    问题

             如此大规模的实验需要一个庞大而复杂的分布式计算和数据模型。紧凑µ子线圈以一个三级架构模型覆盖了一百多个数据中心,每年生成约 10 PB 数据,包括实时数据、模拟数据和元数据。

             这些信息存储在关系数据库、文档数据库、博客、wiki、文件系统、定制应用程序等关系数据源和非关系数据源中,并且可供检索。

             由于规模如此庞大,在异构分布式环境中发现信息是成功进行数据分析的重要一环。数据和相关的元数据以各种各样的形式和数字格式生成。但是,用户希望能够从这些形形色色的来源中查询不同的服务并将各种信息整合起来。然而,由于数据集庞大复杂,他们未必知道能在哪里找到需要的信息,也未必拥有能够提取这些数据的领域知识。

    为什么选择 MongoDB

             为了克服这一障碍,紧凑µ子线圈的数据管理与工作流管理 (DMWM) 团队基于 MongoDB 创建了数据聚合系统 (DAS),从而提供了在这个复杂的数据环境中搜索和聚合信息的能力。

             紧凑µ子线圈的数据和元数据来自多个来源,分布于各种数字格式中。管理这些数据的软件不断演化,同时使用了关系数据源和非关系数据源。

             DAS 在现有数据源上提供了新的一层,让研究人员和其他工作人员可以基于自由文本形式查询数据,然后聚合来自各地数据源的结果,而不会破坏其完整性、安全策略和数据格式。接着,DAS 会以定义好的格式呈现这些数据。

              “出于几个原因,我们排除了使用现有关系数据库这一方案。我们在 DAS 中不需要任何事务和数据持久性,所以我们不能采用预定义模式。另外,我们还要求存储的元数据对象的类型灵活。所有这些原因迫使我们寻求其他 IT 解决方案。”参加紧凑µ子线圈项目的康奈尔大学助理研究员 Valentin Kuznetsov 解释道。

              “我们考虑过多种不同的可选方案,包括基于文件的缓存和内存缓存,还有键值数据库,但是我们最后决定,文档型数据库最符合我们的需求。在对评估了几种应用程序之后,我们选择了 MongoDB。我们看中的主要是它支持动态查询和完善的索引功能,包括内部对象和嵌入式数组。我们还看中了它的自动分片功能。”

    自由形式的查询

             所有 DAS 查询都能以基于自由文本的形式表达,关键词集和键值对都可以(一对键值代表一个条件)。用户可以通过使用简单的 SQL 式语言对系统进行查询。然后,他们使用的语言会转换成 MongoDB 的查询语法,查询本身就是 JSON 记录。

              “由于 MongoDB 后端的无模式性质,我们能够存储任意结构的 DAS 记录,词典、列表、键值对等等都可以。因此,每一个 DAS 键都有一组描述 JSON 结构的属性。”Kuznetsov 补充道

    不限定数据格式

             由于 DAS 与众多不同的数据源、类型和提供商相连接,该系统本身必须不限定数据格式,而且必须能让我们以一种可自定义的方式查询和聚合元数据信息。

             MongoDB 架构轻松与现有数据服务集成,同时不会破坏它们的访问、安全策略和开发周期。这也提供了一种简单的即插即用机制,从而可以轻松添加新的数据服务并配置 DAS,来连接特定领域。

    针对数据提供商的缓存功能

             DAS 不仅为用户提供了轻松访问广泛数据源的简单稳定的方式,还利用 MongoDB 作为动态缓存,将数据提供商反馈的信息进行整合(这些信息会以各种各样的格式和文件结构反馈回来)。

              “用户输入查询时,它会检查 MongoDB 数据库是否聚合了用户要找的信息,如果没有就会进行聚合并且保存到 MongoDB。”Kuznetsov 说。

              “如果缓存不包含所请求的查询,系统就会联系可能有这些信息的分布式数据提供商,向这些提供商查询并收集结果。然后,系统会整合所有结果,根据预定义的识别键进行一种“group by”汇总操作,再将聚合的信息插入到缓存中。”

    部署

             紧凑µ子线圈 DAS 目前在单台八核服务器上运行,由该服务器处理所有查询并缓存聚合信息。

             操作系统:Scientific Linux

             服务器硬件配置:8 核 CPU,40GB 内存,1TB 存储空间(但数据集通常为 50-100G 左右)

             分片:暂无,但目前正在考虑中

             应用程序语言:Python

             其他数据库技术:聚合来自多种不同数据库(包括 Oracle、PostGreSQL、CouchDB 和 MySQL)的数据

    结果

              “来自全球研究机构的紧凑µ子线圈物理学家、数据专员和数据管理员每周七天、每天 24 小时不间断地使用 DAS。一个典型的查询会解析成数千份文档,每份文档的大小几千字节。MongoDB 表现出了卓越的性能,原始缓存数据的吞吐量大约每秒 6000 份文档。”Kuznetsov 总结道。

              “它能够提供快速、可扩展的自由文本查询系统,与不限定数据、高度灵活、可扩展的缓存一起,提供了非常有价值的双向转换机制。DAS 帮助紧凑µ子线圈用户轻松查找和发掘研究中需要的信息,成为物理学家们在通往伟大发现道路上的日常工具之一。如果没有 DAS 的辅助,花在查找信息上的时间会多出几个数量级”

    下一步

             随着各项实验收集的数据不断增加,紧凑µ子线圈希望通过分片横向扩展该系统来满足需求。该团队也在向紧凑µ子线圈以外的团队和欧洲核子研究中心的其他团队宣传这一系统。

    此外,由于这是一种通用网格式聚合/查询工具,用户也希望用它来解决欧洲核子研究中心以外的问题。在 Kuznetsov 任职的康奈尔大学,他与研究生正在构思类似的项目,聚合来自多种分布式数据系统的数据。

    行业 科研

    地点 瑞士日内瓦


登录后回复
 

与 萌阔论坛 的连接断开,我们正在尝试重连,请耐心等待