Docente
Referente del progetto
Keyword (max 3 separate da virgola)
C/C++, Grafi, Genomica
Descrizione (max 500 caratteri)
Nell’analisi genomica, più sequenze lineari della stessa specie possono essere integrate in un grafo diretto, noto come grafo pangenomico, il quale risulta particolarmente utile per studiare le variazioni genomiche. Rappresentare un pangenoma in una struttura basata su grafo che bilanci compattezza e accessibilità è una caratteristica fondamentale. Il progetto mira a creare un software in C/C++ che prenda in input un grafo genomico in formato GFA e produca in output quattro diverse strutture Compressed Sparse Raw: una CSR “sequence-in-the-node” con logica out-edges e in-edges e una CSR “char-in-the-node” sempre con logica out-edges e in-edge. In particolare, nelle CSR “sequence-in-the-node” il codice deve unire due nodi adiacenti in un unico nodo, se e solo se, tra tali nodi passa uno e un solo percorso. L’output consisterà in nuovi file GFA derivati dalle quattro CSR.