Estensione e ottimizzazione di cuVCF per l’esportazione di varianti in formato VCF

Docente

Marco Santambrogio (marco DOT santambrogio AT polimi DOT it)

Referente del progetto

Mirko Coggi (mirko DOT coggi AT polimi DOT it)
Beatrice Branchini (beatrice DOT branchini AT polimi DOT it)

Keywords

Variant Call Format (VCF), GPU-Accelerated Bioinformatics, Genomic Variant Analysis, High-Performance Genomics, Columnar Data Processing, Parallel Parsing, Bioinformatics Pipelines

Descrizione

Il Variant Call Format (VCF) è lo standard per la rappresentazione delle variazioni genomiche, ma la sua struttura altamente variabile introduce difficoltà significative nel parsing, filtraggio e analisi su larga scala. cuVCF è un framework accelerato tramite GPU e CPU per l’analisi ad alte prestazioni di varianti genomiche. Trasformando flussi VCF grezzi in dataframe normalizzati e orientati per colonne, cuVCF consente interrogazioni efficienti e scalabili tramite le interfacce familiari di Pandas e cuDF. Il framework permette di convertire file VCF in CSV per facilitare analisi successive ma l’impossibilità di esportare le analisi effettuate in formato VCF limita l’integrazione del framework in pipeline bioinformatiche consolidate. Questo progetto si propone di ottimizzare cuVCF ed estenderlo introducendo la funzionalità di esportazione dei file analizzati in formato VCF.

Scroll to Top