Docente
Marco Santambrogio (marco DOT santambrogio AT polimi DOT it)
Referente del progetto
Mirko Coggi (mirko DOT coggi AT polimi DOT it)
Beatrice Branchini (beatrice DOT branchini AT polimi DOT it)
Keywords
Variant Call Format (VCF), GPU-Accelerated Bioinformatics, Genomic Variant Analysis, High-Performance Genomics, Columnar Data Processing, Parallel Parsing, Bioinformatics Pipelines
Descrizione
Il Variant Call Format (VCF) è lo standard per la rappresentazione delle variazioni genomiche, ma la sua struttura altamente variabile introduce difficoltà significative nel parsing, filtraggio e analisi su larga scala. cuVCF è un framework accelerato tramite GPU e CPU per l’analisi ad alte prestazioni di varianti genomiche. Trasformando flussi VCF grezzi in dataframe normalizzati e orientati per colonne, cuVCF consente interrogazioni efficienti e scalabili tramite le interfacce familiari di Pandas e cuDF. Il framework permette di convertire file VCF in CSV per facilitare analisi successive ma l’impossibilità di esportare le analisi effettuate in formato VCF limita l’integrazione del framework in pipeline bioinformatiche consolidate. Questo progetto si propone di ottimizzare cuVCF ed estenderlo introducendo la funzionalità di esportazione dei file analizzati in formato VCF.