Home Notizia Mondo Risultato fondamentale: gli scienziati colmano le lacune nel genoma umano

Risultato fondamentale: gli scienziati colmano le lacune nel genoma umano

0
104

I ricercatori hanno pubblicato una sequenza senza pause del genoma umano. John Niklasson/Getty Images
  • I ricercatori appartenenti al consorzio Telomere-to-Telomere (T2T) hanno pubblicato la sequenza completa del genoma umano, colmando le lacune presenti nelle versioni precedenti.
  • Le sequenze precedentemente pubblicate rappresentavano il 92% del genoma umano ed erano incomplete a causa di limitazioni tecnologiche.
  • Il consorzio di ricercatori T2T ha implementato tecnologie di sequenziamento avanzate per sequenziare il restante 8% del genoma umano, aggiungendo 3 miliardi di coppie di basi di nuove sequenze.
  • La pubblicazione della sequenza completa aiuterà gli scienziati a comprendere il ruolo delle regioni precedentemente non sequenziate nello sviluppo umano, nell’evoluzione e nelle malattie.

sebbene il Progetto Genoma Umano ha annunciato il completamento del sequenziamento del genoma umano nel 2003, c’erano regioni non sequenziate nel genoma a causa di limitazioni tecniche.

Gli scienziati del consorzio Telomere-to-Telomere (T2T) hanno ora sequenziato il genoma umano completo, che include l’8% del genoma che fino ad ora non era sequenziato.

Il genoma umano recentemente rilasciato include assemblaggi gapless di tutti i cromosomi nel genoma umano tranne Y, è indicato come T2T-CHM13 e fungerà da genoma di riferimento. Ciò significa che sarà un modello rispetto al quale altri genomi possono essere confrontati da ricercatori e clinici.

Il genoma T2T-CHM13 include la sequenza di quasi 200 milioni di paia di basi mancanti nel genoma di riferimento precedentemente utilizzato, GRCh38, pubblicato dal Consorzio di riferimento del genoma. Oltre a colmare le lacune nel genoma, il genoma T2T-CHM13 ha anche corretto gli errori presenti nel GRCh38.

La dott.ssa Karen Miga, co-responsabile del consorzio T2T e professoressa presso l’Università della California, a Santa Cruz, ha dichiarato a Medical News Today: “La disponibilità di una sequenza genomica completa farà avanzare la nostra comprensione della sequenza più difficile e parti ricche di ripetizioni del genoma umano.

“In futuro, quando qualcuno avrà il proprio genoma sequenziato, ricercatori e medici saranno in grado di identificare tutte le varianti nel loro DNA e utilizzare tali informazioni per guidare meglio la propria assistenza sanitaria. Conoscere la sequenza completa del genoma umano fornirà agli scienziati un quadro completo per studiare la variazione, la malattia e l’evoluzione del genoma umano”.

– Dott.ssa Miga

Lo studio che descrive il sequenziamento del genoma umano completo appare nella rivista Scienza. Cinque studi complementari degli scienziati del consorzio T2T accompagnano il manoscritto. In essi, gli scienziati stanno studiando ulteriormente la struttura e la funzione delle regioni del genoma precedentemente non sequenziate.

Progressi nelle tecnologie di sequenziamento

Durante la preparazione delle prime bozze del genoma umano, gli scienziati hanno utilizzato un approccio che prevedeva il sequenziamento di un gran numero di brevi frammenti di DNA sovrapposti che ricoprono l’intero cromosoma. Questi frammenti genici sono stati quindi allineati insieme in base all’avere una sequenza sovrapposta, consentendo ai ricercatori di ricostruire la sequenza per ciascun cromosoma.

Gli scienziati hanno adottato un tale approccio perché la tecnologia di sequenziamento del DNA disponibile in quel momento era in grado di sequenziare solo frammenti di DNA, o letture, lunghe circa 500 paia di basi.

L’informazione genetica trasportata dal DNA è presente sotto forma di una sequenza specifica di quattro basi azotate: adenina (A), timina (T), guanina (G) e citosina (C). Alcune regioni del genoma sono costituite da sequenze ripetitive, che includono copie simili o identiche di una specifica sequenza di DNA.

Queste sequenze ripetitive possono essere presenti sullo stesso cromosoma o su cromosomi diversi. Per esempio, telomerile regioni a ciascuna estremità del cromosoma, tendono a consistere nella sequenza TTAGGG ripetuta più volte su un tratto da 2.000 a 50.000 paia di basi.

Nel caso di regioni del genoma contenenti sequenze ripetitive, i ricercatori non sono stati in grado di ricostruire la sequenza dei cromosomi a causa della sovrapposizione di più frammenti di DNA tra loro. Inoltre, i ricercatori non sono stati in grado di determinare il numero di copie di tali sequenze ripetitive presenti sui cromosomi.

I progressi tecnologici hanno permesso di sequenziare frammenti di DNA più grandi. Le attuali tecnologie di sequenziamento sono in grado di sequenziare frammenti di DNA di lunghezza variabile da poche coppie di kilobase (1.000 basi) a oltre 100 coppie di kilobase.

Queste tecnologie sono utili per il sequenziamento di frammenti di DNA di grandi dimensioni con sequenze ripetitive, ma hanno un tasso di errore relativamente alto. Per garantire un elevato livello di precisione, i ricercatori del consorzio T2T hanno combinato queste tecnologie di sequenziamento a lettura lunga con una diversa tecnologia di sequenziamento che possiede una lunghezza di lettura di 20 coppie di kilobase e tassi di errore bassi.

Gli individui tendono a mostrare differenze nel numero di copie o nell’orientamento delle sequenze di DNA ripetitive, che possono avere implicazioni per la salute. Il genoma di riferimento GRCh38 è stato generato utilizzando materiale genetico ottenuto da più individui diversi e non rappresenta un insieme completo di cromosomi di un singolo individuo.

Per ovviare a questa lacuna, i ricercatori del consorzio T2T hanno utilizzato una linea cellulare chiamata CHM13 derivata da a mola idatiforme completa. Una talpa idatiforme completa è una forma di gravidanza non vitale che comporta la formazione di una massa di cellule generalmente composta da due serie di cromosomi identici, inclusi 2 cromosomi X, derivati ​​​​dal genitore maschio.

L’uso di questa linea cellulare nel presente studio ha reso più facile il sequenziamento del genoma e ha fornito una sequenza completa di un singolo set di cromosomi.

Centromeri

Una delle principali regioni del cromosoma con sequenze mancanti nel genoma GRCh38 era la centromeroche contiene un gran numero di sequenze di DNA ripetute.

Il centromero è una regione ristretta del cromosoma che divide il cromosoma in un braccio corto e un braccio lungo. I centromeri svolgono un ruolo importante nella segregazione dei cromosomi tra le cellule figlie durante la divisione cellulare.

Utilizzando le tecnologie di sequenziamento avanzate, i ricercatori del consorzio T2T sono stati in grado di sequenziare i centromeri e le regioni circostanti i centromeri, che rappresentano il 6,2% dell’intero genoma.

In uno studio complementare, i ricercatori T2T guidati dal dottor Miga hanno utilizzato il genoma T2T-CHM13 per caratterizzare le sequenze di DNA nei centromeri che interagiscono con i cinetocori, un complesso proteico che facilita la separazione dei cromosomi durante la divisione cellulare. Sono stati anche in grado di ottenere informazioni su come potrebbero essersi evolute queste sequenze di DNA del centromero.

Inoltre, utilizzando il T2T-CHM13 come riferimento, i ricercatori hanno confrontato le sequenze del centromero dei cromosomi X di individui con background genetici diversi. Hanno riscontrato notevoli variazioni nella sequenza del DNA dei centromeri tra questi individui e questo potrebbe potenzialmente aiutare a comprendere l’impatto di questa variazione genetica sulla funzione del centromero.

Lo ha detto il dottor Steven Henikoff, un biologo molecolare del Fred Hutchinson Cancer Center MNT“Nonostante il ruolo centrale [of centromeres] in biologia, i ricercatori ancora non sanno cosa sia in loro che rende la sequenza del DNA che specifica un centromero così diverso da quello del resto del cromosoma”.

“Capire il centromero come unità è necessario per comprendere appieno gli errori nel movimento dei cromosomi quando le cellule si dividono, che si pensa sia un fattore determinante nel cancro e in alcune altre malattie umane, compresi i difetti alla nascita. Quindi finire il lavoro di sequenziamento del genoma umano è importante non solo perché è necessario per comprendere appieno un problema centrale nella genetica, ma anche per l’importanza dei centromeri nella salute e nelle malattie umane”, ha aggiunto il dottor Henikoff.

DNA ribosomiale

Oltre ai centromeri, il genoma T2T-CHM13 include anche la sequenza del braccio corto di cinque cromosomi che erano, in larga misura, non sequenziati. Questi cinque cromosomi sono acrocentrici, con le loro braccia corte sproporzionatamente più corte del loro braccio lungo.

Oltre a contenere sequenze ripetitive, c’è un grado significativo di somiglianza tra le sequenze dei bracci corti dei cinque cromosomi acrocentrici, spiegando la difficoltà nel sequenziare queste regioni.

Le braccia corte dei cromosomi acrocentrici codificano RNA ribosomiale molecole, che non codificano per proteine ​​ma sono componenti di ribosomi. I ribosomi sono siti in cui avviene la sintesi proteica, evidenziando l’importanza del sequenziamento di questi cromosomi acrocentrici per comprendere la regolazione della sintesi proteica. Nel presente studio, i ricercatori hanno sequenziato 9,9 coppie di megabase di DNA che codificano per l’RNA ribosomiale.

Lo ha detto il dottor Brian McStay, professore alla National University of Ireland, Galway MNT: “Le braccia corte dei cinque cromosomi acrocentrici umani sono fondamentali per costruire nucleoli, le strutture più grandi presenti nel nucleo umano. I nucleoli sono le fabbriche dove vengono costruiti i ribosomi, le macchine biologiche che producono le proteine. Una sequenza completa per questi bracci cromosomici darà il via a una nuova era di ricerca su come funzionano i nucleoli nelle cellule umane normali, malate e che invecchiano».

Confronto con GRCh38

I ricercatori del consorzio T2T hanno anche utilizzato oltre 3000 campioni di genoma di individui in tutto il mondo e hanno confrontato questi campioni di genoma con i genomi di riferimento T2T-CHM13 e GRCh38. Hanno identificato una serie di varianti geniche associate alla salute umana e alle malattie nelle regioni che mancavano nel genoma di riferimento GRCH38 e sono state in grado di rimuovere le varianti identificate in modo errato da GRCh38.

Significativamente, il T2T-CHM13 ha aiutato l’identificazione di varianti di questi geni clinicamente rilevanti con una precisione 12 volte maggiore rispetto al genoma GRCh38. Ciò includeva i geni per un’ampia varietà di condizioni, tra cui cancro, disturbi immunitari, distrofia muscolare e perdita dell’udito.

Tuttavia, sono necessarie ulteriori ricerche per identificare ulteriori varianti di geni clinicamente rilevanti nelle regioni precedentemente non sequenziate.

Il coautore dello studio, il dottor Justin Zook, ingegnere biomedico presso il National Institute of Standards and Technology, afferma:

“Quello che abbiamo scoperto è che questo nuovo riferimento ha migliorato la precisione su tutta la linea. Quindi, indipendentemente da quale fosse l’ascendenza dell’individuo, se fosse africano, caucasico o asiatico, il nuovo riferimento ha migliorato i risultati per loro”.

Studi futuri

Negli studi associati, i ricercatori del consorzio T2T hanno anche utilizzato metodi computazionali per caratterizzare il profilo di espressione dei geni nelle regioni precedentemente non sequenziate e come questi geni possono essere regolati. Tali sforzi miglioreranno ulteriormente la comprensione della regolazione dell’espressione genica in queste regioni non sequenziate in diverse popolazioni e in varie condizioni mediche.

Il Dr. Miga ha osservato che “il genoma T2T-CHM13 non cattura l’intera diversità della variazione genetica umana. Per affrontare questo pregiudizio, lo Human Pangenome Reference Consortium si è unito al T2T Consortium per costruire una raccolta di genomi di riferimento di alta qualità provenienti da diverse popolazioni. Questo sarà un focus critico nei prossimi anni”.

Il dottor Miga ha anche aggiunto che il cromosoma Y non è espresso dalla linea cellulare CHM13 e deve essere sequenziato utilizzando cellule di una fonte diversa.