Ottimizzazione della rappresentazione a grafo di pangenomi

Docente

Marco Santambrogio (marco DOT santambrogio AT polimi DOT it)

Referente del progetto

Mirko Coggi (mirko DOT coggi AT polimi DOT it)

Keyword (max 3 separate da virgola)

C/C++, Grafi, Genomica

Descrizione (max 500 caratteri)

Nell’analisi genomica, più sequenze lineari della stessa specie possono essere integrate in un grafo diretto, noto come grafo pangenomico, il quale risulta particolarmente utile per studiare le variazioni genomiche. Rappresentare un pangenoma in una struttura basata su grafo che bilanci compattezza e accessibilità è una caratteristica fondamentale. Il progetto mira a creare un software in C/C++ che prenda in input un grafo genomico in formato GFA e produca in output quattro diverse strutture Compressed Sparse Raw: una CSR “sequence-in-the-node” con logica out-edges e in-edges e una CSR “char-in-the-node” sempre con logica out-edges e in-edge. In particolare, nelle CSR “sequence-in-the-node” il codice deve unire due nodi adiacenti in un unico nodo, se e solo se, tra tali nodi passa uno e un solo percorso. L’output consisterà in nuovi file GFA derivati dalle quattro CSR.

Scroll to Top