- 大陆集团使用 IBM Storage Scale 和 NVIDIA DGX 系统将 AI 训练时间缩短了 70%
- 与此前相比,大陆集团每月可同时进行至少多 14 倍的深度学习实验
北京2024年6月25日 /美通社/ -- 对大多数人来说,驾驶属于第二天性,其中涉及一系列自动决策。训练 AI 进行自动驾驶需要 PB 级的数据,以便比人类做出同样决策时快 1/10 秒,且让驾驶更为安全。
据世界卫生组织(WHO)统计,每年约有 135 万人死于道路交通事故,另有 5千万人受伤。为了降低这种风险,欧盟已经要求到 2030 年大力推广自动驾驶汽车。为全自动驾驶提供最佳技术路径的竞赛已经拉开序幕。
大陆集团(Continental)高级驾驶辅助系统 (ADAS) 人工智能主管 Robert Thiel 表示:"在发生严重事故的情况下,高级驾驶辅助系统的反应速度比驾驶员要快。这可以通过使用大量数据训练 AI 来实现,使其比人类驾驶更安全。因此,智能数据管理意味着智能汽车和挽救生命。"
大陆集团是全球众多汽车生产商的汽车零部件主要供应商,同时也是自动驾驶智能领域的领导者。其 ADAS 业务部门早在 20 多年前便已着手开发智能传感器和数据驱动式交通安全解决方案,并致力于利用深度学习以及训练人工神经网络来提高开发速度。大陆集团Vision Zero计划旨在通过开发 ADAS 技术,从根本上消除交通事故造成的死亡事件。
在汽车行业,与自动驾驶相关的最大挑战之一是,管理位于世界各地的数据并在需要的地方使用这些数据。大陆集团的 ADAS Vision Zero 计划聘用了一支配备传感器的测试车队,他们每天行驶 15,000 公里,生成和记录了超过 100 TB 的数据,然后对这些数据进行摄取、处理、选择、评估和注释,并用于系统的训练和验证。
为了检测任何给定场景中发生的情况并做出安全控制车辆的决策,该团队使用NVIDIA DGX系统进行训练和验证。为了加速开发 AI 并缩短上市时间,大陆集团需要高性能的 AI 处理和数据访问以及强大的存储解决方案,以利用 NVIDIA GPU 计算实现每秒分析数十万张图像的目标。
针对自动驾驶优化的IT基础架构
大陆集团的 ADAS 解决方案可支持驾驶员完成众多典型驾驶任务,甚至还可控制车辆以免发生事故。但随着驾驶员辅助系统与车辆安全系统自动化程度的提升,软件复杂性也随之上升,同时多个地区的安全要求数量也随之增多。此时,大陆集团意识到自身亟需扩展其技术和团队,以便开发出更具全球扩展性的 AI 解决方案。此外,并行数据访问的需求也意味着会面临日益增长的数据管理挑战。
大陆集团需要一个强大的并行文件系统来满足 AI 的高速需求并保护敏感数据。与此同时,它还必须创建一个更易于集中访问的位置来存储数据并提高可追溯性,为开发人员提供多种安全连接方式。
因此,大陆集团需要可扩展的深度学习基础架构,以及与高速网络连接的存储空间来提高性能。该解决方案需要提供快速随机访问功能,支持服务器消息块 (SMB) 和 Amazon Simple Storage Service (S3) 等协议,并提供多种不同的访问管理选项。
大陆集团确定了全面的测试标准,并评估了多种存储解决方案。为了解 IBM Storage Scale System的性能,大陆集团与 IBM 合作伙伴 SVA System Vertrieb Alexander GmbH 进行了合作。结果证明,结合 NVIDIA DGX 技术的 IBM Storage for Data and AI 解决方案可以实现"并行"高性能架构和易于扩展的节点部署,不仅满足现有AI 基础架构的要求,还能保证未来所需的弹性和可扩展性。
IBM Storage 与 Kubernetes 容器的灵活性和无缝集成,确保大陆集团实现应用开发的现代化的同时,无需放弃性能、可扩展性或简单性等要求。IBM Storage Scale 软件确保其IT基础架构支持增长,无论是在云中还是本地部署都不受影响。IBM 在汽车行业的丰富经验,也是大陆集团选择IBM解决方案的重要因素。
借助新的解决方案,大陆集团可以通过多节点训练来优化深度学习,从而在不影响生产时间的情况下提高模型精度,实现更高的安全级别。大陆集团将 DGX 集群的规模扩大到每月可处理 14 倍以上的实验,能够在多种环境条件(例如雨、雪、晴天和多云天气)和瞬态(例如汽车在变道时彼此靠得太近)下测试数百万种排列, 缩短了产品的上市时间。
得益于IBM 数据管理解决方案带来的性能改进、灵活性和可扩展性,大陆集团正在借助不断发展的 AI 基础设施改变未来出行方式。
提高开发周期的效率
大陆集团高级驾驶辅助系统人工智能主管Robert Thiel表示:"考虑到安全要求,如果没有能力验证庞大的数据集,即对数百万公里或数十 PB 的数据集进行定期处理、重新模拟、收集和生成某种 KPI 的能力,我们今天销售的任何系统都无法销售出去。"
"得益于全新的基础设施,我们现在可以同时运行 20、40、80 个 GPU,从而真正加快我们的训练速度。"大陆集团 ADAS 布达佩斯 AI 开发中心主管 Balazs Lorand 博士表示。借助这一新的基础设施,大陆集团每月的深度学习实验数量增加了 14 倍,并将训练时间从几周缩短到几天,极大提高了开发生命周期的效率。而且该解决方案足够灵活,可以支持容器化混合云环境、本地部署以及多个数据中心。
大陆集团在位于德国法兰克福的 Equinix 公司的 AI 就绪数据中心建设了一套全新的基础设施。Equinix 是一家全球性的托管基础设施提供商。在 SVA 的支持下,大陆集团实现了集群存储解决方案的整体集成,包括安装、部署、配置、调试以及运营和管理培训。
这一新解决方案包括多模式 GPU 集群、非阻塞性InfiniBand 网络基础设施、具有高速NVMe(非易失性内存主机控制器接口规范)驱动器的 IBM Storage Scale System、NVIDIA DGX 系统和 NVIDIA V100 Tensor Core GPU。大陆集团还在其 Kubernetes 环境中使用 IBM Spectrum Scale 软件进行现代应用开发。
这些改进为大陆集团带来了强大的竞争优势,使其能够比以往更快地推进新的、更安全的自动驾驶解决方案的开发。
点击链接阅读案例原文,部分内容有调整 https://www.ibm.com/case-studies/continental-automotive