AMD EPYC y Radeon Instinct impulsarán clúster de HPC llamado Corona

El Lawrence Livermore National Laboratory, en asociación con Penguin Computing, AMD y Mellanox Technologies, aceptará la entrega de Corona, un nuevo clúster de computación de alto rendimiento (HPC) no clasificado que proporcionará capacidades únicas para los investigadores de laboratorio y socios de la industria para explorar la ciencia de datos, la máquina aprendizaje y análisis de big data.

El sistema será proporcionado por Penguin Computing y estará compuesto por procesadores AMD Epyc y aceleradores GPU (unidad de procesamiento de gráficos) AMD Radeon Instinct conectados a través de una red Mellanox HDR 200 Gigabit InfiniBand. El sistema se presta para aplicar técnicas de aprendizaje automático y análisis de datos a problemas difíciles en HPC y big data y se utilizará para respaldar el programa de Simulación y Computación Avanzada (ASC) de la Administración Nacional de Seguridad Nuclear (NNSA). El sistema será alojado por Livermore Computing (LC) en un sitio no clasificado adyacente al High Performance Computing Innovation Center (HPCIC), dedicado a las asociaciones con la industria estadounidense.

no posts found

Obtenido a través del contrato de Sistemas de Tecnología de Productos Básicos (CTS-1), Corona ayudará a NNSA a evaluar arquitecturas futuras, satisfacer necesidades institucionales y ASC para desarrollar liderazgo en capacidades de ciencia de datos y aprendizaje automático a escala, proporcionar acceso a socios HPCIC y ampliar un vehículo de colaboración continua para AMD, Penguin, Mellanox y LLNL.

«Corona proporcionará una excelente plataforma para nuestra investigación sobre algoritmos de computación cognitiva y el desarrollo de simulaciones predictivas para aplicaciones de fusión por confinamiento inercial, así como simulaciones de dinámica molecular dirigidas a la medicina de precisión para oncología», dijo Brian Van Essen, líder del grupo de Informática LLNL e informático. “Los recursos computacionales únicos y la interconexión nos permitirán continuar desarrollando algoritmos de vanguardia para un aprendizaje profundo distribuido y escalable. A medida que el aprendizaje profundo se convierte en una parte integral de muchas aplicaciones en el Laboratorio, los recursos computacionales como Corona son vitales para nuestra capacidad de desarrollar la próxima generación de aplicaciones científicas «.

Financiado por el programa LLNL Multi-Programmatic e Institutional Computing (M&IC) y el programa ASC de NNSA, los 383 teraFLOPS (operaciones de punto flotante por segundo) se entregarán a fines de noviembre y se espera que estén disponibles para un uso limitado en diciembre. El clúster consta de 170 nodos de dos zócalos que incorporan procesadores AMD Epyc 7401 de 24 núcleos y un dispositivo de memoria no volátil (estado sólido) PCI Terabyte (TB) PCIe 1.6). Cada nodo computacional de Corona está preparado para la GPU con la mitad de esos nodos que utilizan cuatro GPU AMD Radeon Instinct MI25 por nodo, lo que brinda 4.2 petaFLOPS de FP32 de rendimiento máximo. Los nodos de cómputo restantes pueden actualizarse con futuras GPU.

Es probable que Corona suplante el clúster Catalyst LLNL, un clúster HPC sin clasificar de 150 teraFLOPS. Ejecutará el software de código abierto Tri-lab (TOSS), financiado por la NNSA, que proporciona un entorno de usuario común para los laboratorios nacionales de Los Alamos, Sandia y Lawrence Livermore.

El Centro de Innovación HPC en LLNL ofrecerá acceso a Corona y las innovaciones de aprendizaje automático esperadas que habilita como una nueva opción para su colaboración continua con compañías estadounidenses e instituciones de investigación.

Login

darkmonstr