Infrastruttura

L’infrastruttura di calcolo di CONVECS è incardinata in un sito hub primario, realizzato a Padova, ed alcuni siti spoke secondari localizzati nei datacenter delle Università di Verona, Venezia e nel Laboratorio Nazionale di Legnaro dell’INFN. Hub e spoke sono interconnessi con link ad alta velocità per agevolare lo scambio di dati tra i vari datacenter e l’accesso a bassa latenza alle risorse di calcolo e memorizzazione da parte degli utenti delle varie sedi.

L’infrastruttura è in grado di fornire agli utenti diversi servizi di calcolo secondo diversi paradigmi, incluso il calcolo non interattivo ad alte prestazioni tramite sistemi di job scheduling, l’allocazione di macchine virtuali per applicazioni di cloud computing e la creazione di sistemi di desktop remoto con software preconfigurato per applicazioni di visualizzazione ed analisi dati.

L’architettura si compone di quattro blocchi funzionali:

  • Il Blocco 1 è composto dai server espressamente dedicati all’erogazione del servizio di calcolo.
  • Il Blocco 2 è responsabile del controllo e della gestione di tutti i nodi di calcolo scientifico, per esempio occupandosi dell’allocazione dei singoli server fisici necessari per il calcolo non interattivo, e del failover automatico dei nodi con anomalie di funzionamento.
  • Il Blocco 3 consiste in un sistema di storage per mantenere copia delle immagini delle macchine virtuali e fornire spazio per lo stoccaggio dei dati elaborati dai nodi di calcolo.
  • Il Blocco 4 raccoglie i dispositivi e le connessioni di rete ad alte prestazioni necessari per l’interconnessione dei sistemi hardware di una stessa sede in modo da garantire l’alta velocità di comunicazione e aggregazione tra i nodi.

Figura 1. Schema dell’architettura di riferimento per datacenter. HPC = High Performance Computing. VDI = Virtual Desktop Infrastructure. 

Hardware di calcolo

Il blocco di calcolo è costituito da una serie di nodi progettati per soddisfare le esigenze di elaborazione scientifica avanzata. A regime, si prevede di implementare un’infrastruttura il cui hardware di calcolo comprenderà diverse tipologie di nodi:

  • 41 nodi CPU-based, per un totale di oltre 2600 cores e 20 TB di memoria RAM. Questa tipologia di server consente carichi di lavoro scalabili, in particolare per supportare simulazioni matematiche ed elaborazione di dati ad alta dimensionalità;
  • 25 nodi GPU mid-level (ad esempio, NVIDIA L40S), per un totale di oltre 450.000 CUDA cores e 1000 GB di vRAM. Queste risorse sono dedicate a compiti di calcolo parallelo di livello intermedio, come modellazioni molecolari, analisi di immagini e algoritmi con parallelizzazione moderata;
  • 4 nodi GPU high-performance basati su sistemi NVIDIA DGX, ciascuno equipaggiato con 8 schede grafiche di ultima generazione (H100) in grado di operare in parallelo. Ciascun nodo disporrà quindi di oltre 116.000 CUDA cores e di 640 GB di vRAM. Queste risorse sono dedicate alla gestione di simulazioni scientifiche complesse, incluse quelle ad elevata parallelizzazione che coinvolgono algoritmi di intelligenza artificiale basati su deep learning e large language models.

Il blocco di storage è stato pensato per soddisfare esigenze eterogenee di archiviazione e gestione dei dati, combinando capacità elevate, velocità di accesso ed affidabilità. Una prima categoria di storage è dedicata all’archiviazione a lungo termine di dati che non richiedono accesso frequente, come dataset storici e backup. Questo tipo di storage ha una capacità netta di 2.4 PB ed è ottimizzato per ridurre i costi operativi, utilizzando soluzioni di basso consumo energetico. Una seconda categoria di storage è dedicata alla memorizzazione di dati che richiedono un accesso frequente con bassa latenza. Questo sistema ha una capacità di 4.2 PB ed è ottimizzato per supportare calcoli ad alta intensità di dati in tempo reale, simulazioni complesse ed applicazioni di machine learning, assicurando prestazioni elevate anche in presenza di carichi di lavoro significativi.