Conexio Assign per TruSight HLA - Nozioni di base

Transcript

Conexio Assign per TruSight HLA - Nozioni di base
1
Conexio Assign per TruSight HLA - Nozioni di base: Trascrizione della
narrazione
Pagina
Narrazione
Benvenuti
Benvenuti al corso Conexio Assign per TruSight HLA. Il corso copre gli elementi
essenziali del software Conexio Assign per l'analisi dei dati del sequenziamento
di nuova generazione ottenuti dal pannello di sequenziamento TruSight HLA su
un sequenziatore Illumina.
Obiettivi del corso
Al termine di questo corso, sarete in grado di:
Importare i file del sequenziamento nel software Assign.
Navigare nell'interfaccia di Assign.
Rivedere l'assegnazione delle coppie di alleli HLA, la qualità del
sequenziamento e la profondità del sequenziamento per ciascun locus.
Verificare visivamente i dati del sequenziamento ed eseguire modifiche
di base.
Generare un report.
Panoramica del
corso
Questo corso tratta 6 elementi, a partire dall'importazione dei file del
sequenziamento, che avvia l'allineamento automatico delle letture della
sequenza, l'identificazione delle basi e l'assegnazione degli alleli HLA Quindi
imparerete le caratteristiche principali e il layout dell'interfaccia Assign. Nelle
sezioni tre e quattro imparerete a rivedere velocemente l'assegnazione delle
coppie di alleli HLA, la qualità del sequenziamento e la profondità del
sequenziamento per ciascun locus. Nella quinta sezione, imparerete a verificare
visivamente i dati del sequenziamento e ad eseguire modifiche di base. La
sezione finale coprirà la generazione di un report.
Importazione,
allineamento e
assegnazione degli
alleli
Dopo aver eseguito il login al software Assign, fate clic su Import and Analyze
(Importa e analizza) dalla sezione Data (Dati) della barra multifunzioni Home
(Inizio). Andate alla cartella contenente i file FASTQ generati dalla corsa di
sequenziamento TruSight HLA e MiSeq. Selezionate tutti i campioni e loci che
desiderate importare in questo progetto Assign. Assicuratevi di importare due
file FASTQ per locus, uno per ciascuna lettura paired-end. Fate clic su OK. In
questo modo verrà lanciata una serie di processi automatizzati a partire
dall'allineamento di tutte le letture di sequenziamento. In pratica, una singola
corsa MiSeq può produrre fino a 25 milioni di letture della sequenza. Una volta
completato questo allineamento iniziale, le posizioni eterozigote delle basi sono
sottoposte a determinazione delle fasi (phasing) tra di loro per generare due
sequenze per ciascun locus. Le sequenze allineate e sottoposte a
determinazione delle fasi (phasing) sono quindi confrontate con tutte le
sequenze di riferimento contenute nel database IMGT per assegnare una coppia
di alleli per ciascun locus. In base al numero di campioni, alla profondità di
sequenziamento e al potere di elaborazione del computer, per completare
questo processo sono necessarie dalle 3 alle 4 ore.
Layout di Conexio
Assign
Prima di analizzare nei dettagli i risultati della tipizzazione, diamo uno sguardo
alle diverse sezioni e visualizzazioni disponibili nell'interfaccia Assign. Il
pannello dei campioni è visibile su ciascuna schermata e mostra tutti i campioni
caricati nel progetto in corso. I loci sequenziati per un campione possono essere
visualizzati selezionando uno dei campioni. Il pannello dei campioni comprende
inoltre la gerarchia di revisione. La colonna C è utilizzata per aggiungere
commenti per gli altri revisori e al report. La colonna A mostra la verifica della
conferma di tutte le posizioni delle basi. Le colonne 1 e 2 permettono al primo e
al secondo revisore di confermare i risultati e la colonna R indica che le revisioni
sono complete e che le tipizzazioni possono essere riportate in un report.
Trascrizione del corso online
2
Pagina
Narrazione
Riepilogo dei
risultati della
tipizzazione HLA
In questo video, analizzeremo le visualizzazioni Summary (Riepilogo) e
Coverage (Copertura). Le visualizzazioni Reads (Letture), Alignment
(Allineamento) e Reference (Riferimento) sono affrontate nel video delle
caratteristiche avanzate.
Dopo aver importato, allineato e assegnato i file del sequenziamento, la prima
schermata è la visualizzazione Summary (Riepilogo) che mostra gli alleli
assegnati per ciascun locus sequenziato. Un'avvertenza gialla indica
un'assegnazione omozigote. Un'avvertenza rossa indica che un locus presenta
o qualità di sequenziamento bassa o profondità di sequenziamento bassa
oppure entrambe. Due trattini indicano un'ambiguità della sequenza e una X
indica un'ambiguità dell'espressione. Nelle successive due sezioni di questo
corso, affronteremo come risolvere questi indicatori. Infine, un'assegnazione di
alleli senza indicatore rappresenta un risultato privo di ambiguità.
Valutazione della
qualità e della
copertura
Facendo clic sulla freccia blu nella parte superiore destra della visualizzazione
Summary (Riepilogo) si passa alla successiva visualizzazione di Summary
(Riepilogo) con le percentuali delle basi che superano il punteggio qualitativo di
Q30. Un punteggio qualitativo rappresenta una misura della probabilità che una
base sia identificata in modo errato. Durante il sequenziamento Illumina, a
ciascuna base in una lettura viene assegnato un punteggio qualitativo. Un
punteggio qualitativo superiore indica una probabilità di errore inferiore. Ad
esempio, un punteggio qualitativo pari a 30, o Q30, rappresenta una percentuale
di errore pari a 1 su 1000 con un'accuratezza di identificazione corrispondente
del 99,9%. In questo pannello riepilogativo della qualità viene visualizzata
un'avvertenza di confidenza per un locus quando la percentuale delle
identificazioni delle basi con punteggio Q30 è inferiore al 75%. Come potete
vedere, le avvertenze rosse delle tipizzazioni del riepilogo non sono indotte dalla
qualità del sequenziamento in quanto tutte le percentuali sono ben al di sopra
della soglia del 75%.
Facendo nuovamente clic sulla freccia blu, si passerà alla visualizzazione del
riepilogo finale che mostra la profondità di sequenziamento media per ciascun
locus. La profondità di copertura viene misurata dal numero medio di letture di
sequenziamento relativo a ciascuna posizione delle basi in un locus. Mentre a
volte è possibile generare una tipizzazione affidabile da un locus con scarsa
copertura, l'avvertenza di profondità di sequenziamento si attiverà per i loci che
presentano una profondità inferiore a 100X. Come potete vedere qui,
l'avvertenza rossa è il risultato di una copertura di sequenziamento bassa. La
copertura di sequenziamento bassa a un singolo locus è generalmente il
risultato di una scarsa amplificazione o di una qualità bassa del DNA.
Visualizzazione
della schermata
Coverage
(Copertura)
La visualizzazione Coverage (Copertura) è usata per visualizzare le coppie di
alleli che corrispondono più da vicino alla sequenza campione. Questa
visualizzazione permette inoltre di visualizzare ciascuna singola base, le
identificazioni delle basi e la profondità di sequenziamento per una data
posizione. Per andare alla visualizzazione Coverage (Copertura), fate clic sulla
tipizzazione che desiderate investigare o utilizzate il menu a discesa View
(Visualizzazione) e selezionate Coverage (Copertura).
Analizziamo ciascun componente della visualizzazione della copertura a partire
dalla parte superiore dello schermo per scendere verso il basso.
Visualizzazione
Coverage
(Copertura):
struttura e
coordinate del gene
Le prime due righe mostrano la copertura e la struttura del locus selezionato. La
riga superiore mostra la copertura dell'amplicone per i diversi componenti
strutturali mostrati nella seconda riga. Le regioni in bianco presentano una
profondità di copertura elevata, le regioni in nero non presentano profondità di
copertura e le regioni in rosso presentano una profondità di copertura bassa o
indicano posizioni per la revisione manuale. Come potete vedere, l'amplicone
Trascrizione del corso online
3
Pagina
Narrazione
HLA-B inizia nell'esone 1 e si estende all'esone 7. Le regioni oltre questi esoni
sono nere in quanto non sono coperte. Le regioni all'inizio e alla fine degli
ampliconi presentano una profondità di copertura inferiore che è mostrata
mediante questo gradiente dal rosso al bianco. Una sezione di nero entro
l'amplicone indica di solito una delezione in un campione piuttosto che un
problema con il sequenziamento. Le regioni entro l'amplicone evidenziate in
rosso indicano le posizioni delle basi che possono richiedere ispezione manuale.
Più avanti in questo video vedremo degli esempi.
La riga successiva rappresenta una visualizzazione più granulare delle
coordinate. Queste tre righe superiori possono essere utilizzate per andare alle
posizioni all'interno del locus. Facendo clic su una regione nelle due righe
superiori, la visualizzazione della copertura si sposta in quella posizione. La
finestra nella riga delle coordinate può essere trascinata per regolare la
posizione di interesse.
Visualizzazione
Coverage
(Copertura):
Sequenze
consenso
La riga successiva rappresenta la sequenza consenso del locus. Ciascun locus
presenta almeno una sequenza consenso. Le letture di sequenziamento sono
allineate rispetto alle sequenze consenso. Le sequenze consenso utilizzano le
designazioni delle basi degenerate IUPAC. Ad esempio, una T nella sequenza
consenso del locus indica che solo una timina è stata riportata in questa
posizione. In alternativa, una K indica che sia T che G sono state individuate in
questa posizione. È possibile visualizzare un elenco completo delle
designazioni IUPAC mediante il menu a discesa del navigatore.
La sequenza consenso del locus è codificata a colori. Le regioni gialle
rappresentano la sequenza codificante. Le regioni bianche rappresentano la
sequenza non codificante e le regioni blu evidenziano la sequenza che non è
presente in tutti gli alleli indotti da inserzioni e/o delezioni.
Le due righe successive rappresentano le sequenze di riferimento IMGT/HLA
per gli alleli uno e due nel pannello dei risultati. Una base viene visualizzata in
questa riga quando la sequenza di alleli differisce dalla sequenza osservata per
il campione o se la posizione è eterozigote. Gli asterischi o le posizioni vuote
indicano che la sequenza di riferimento è mancante per l'allele selezionato. Un
punto indica che la sequenza di alleli è identica alla sequenza osservata alla
posizione selezionata.
La riga successiva rappresenta la sequenza consenso del campione e mostra la
sequenza generata dal sequenziatore Illumina a partire da una libreria TruSight
HLA. La sequenza consenso del campione utilizza le stesse designazioni
IUPAC utilizzate per la sequenza consenso del locus.
La riga successiva rappresenta l'indicatore di confidenza. La confidenza di una
identificazione delle basi in qualsiasi posizione data può variare in base a diversi
fattori, compresi frequenza degli alleli, soglia del rumore, profondità di copertura
e qualità della sequenza. Un indicatore di confidenza bianco denota una
identificazione delle basi con elevata confidenza. Un indicatore di confidenza
rosso acceso denota identificazioni delle basi nelle quali la copertura della
sequenza a Q30 è sotto 100x, il punteggio qualitativo medio è basso, una base
sopra la soglia del rumore non è identificata nel consenso del campione e/o una
base sotto la soglia del rumore è identificata nel consenso del campione. Le
frecce di navigazione possono essere utilizzate per spostarsi velocemente tra
Trascrizione del corso online
4
Pagina
Narrazione
queste posizioni evidenziate.
Le due righe successive rappresentano le tracce della determinazione delle fasi
(phasing). Per le posizioni eterozigote, queste righe mostrano a quale allele è
stata assegnata una base.
Visualizzazione
Coverage
(Copertura):
Identificazione delle
basi
La parte restante di questa area centrale della visualizzazione Coverage
(Copertura) fornisce informazioni dettagliate sulle identificazioni delle basi e sulla
profondità del sequenziamento. In questa sezione, i nucleotidi identificati sono
evidenziati in quattro colori. A è verde, C è blu, G è nero e T è rosso. La riga
superiore indica l'identificazione delle basi che si verifica più di frequente per
quella posizione. Le identificazioni delle basi secondarie sono visualizzate sotto
e la loro frequenza è mostrata mediante la scala logaritmica sulla sinistra. Da
zero a uno percento, da uno percento a dieci percento e da dieci percento a
cento percento. Alle posizioni omozigote, o non era presente alcuna
identificazione delle basi secondarie o l'identificazione delle basi secondarie è
considerata rumore e non è stata identificata. Per una posizione eterozigote,
l'identificazione delle basi secondarie sarà presente alla o accanto alla frequenza
mostrata dalla linea rosa alla posizione selezionata.
Il rumore è un comune sottoprodotto di fedeltà dell'amplificazione, specificità e
allineamento della sequenza. L'assegnazione dinamica imposta una soglia per il
rumore a ciascuna posizione delle basi. La soglia del rumore approssimativa è
indicata da questa linea rosa tratteggiata. Di solito, le identificazioni delle basi al
di sotto della soglia del rumore non vengono identificate.
Le barre grigie sono utilizzate per mostrare la profondità di copertura per
ciascuna posizione delle basi. Queste utilizzano la scala logaritmica mostrata
sulla sinistra tra parentesi. Da 0 a 10x, da 10x a 100x e da 100x a 1000x. In
questo modo a questa posizione delle basi, la profondità di copertura supera
300x con una leggera variabilità da base a base.
La sezione finale di questa visualizzazione mostra le letture delle sequenze che
contengono le identificazioni che non sono incluse nella sequenza consenso del
campione. Sotto la sequenza si trova un indicatore di qualità di colore rosso
accesso che denota la qualità più bassa e uno di colore rosa chiaro che denota
la qualità più elevata.
Visualizzazione
Coverage
(Copertura):
Risultati della
tipizzazione HLA e
mancate
corrispondenze di
riferimento
La sezione sulla destra della visualizzazione Coverage (Copertura) è il pannello
dei risultati. Questo pannello mostra tutte le coppie di alleli IMGT/HLA che
corrispondono esattamente o corrispondono più da vicino alla sequenza
consenso del campione. La riga superiore indica la coppia di alleli che meglio
corrisponde alla sequenza consenso del campione. Le coppie di alleli sotto
questa coppia sono le successive migliori in ordine di corrispondenza.
Oltre all'assegnazione degli alleli, queste colonne presentano due informazioni
importanti. Gli alleli in grassetto evidenziano CWD o alleli comuni ben
documentati. La codifica a colori in queste caselle indica la copertura della
sequenza di riferimento. La casella contenente la nomenclatura è direttamente
proporzionale al locus. Il grigio evidenzia le regioni che presentano la sequenza
di riferimento e l'arancione evidenzia le regioni che non presentano la sequenza
di riferimento. Ad esempio, questo allele è completamente sequenziato nel
database IMGT e questo allele presenta il riferimento solo per la sequenza
dell'esone 2 e 3. Fate attenzione che, in questi casi, non visualizziamo la
sequenza introne mancante e che questi dettagli possono essere visualizzati
Trascrizione del corso online
5
Pagina
Narrazione
utilizzando le righe delle sequenze di riferimento.
A destra delle coppie di alleli si trovano le colonne delle mancate
corrispondenze. Sono disponibili cinque colonne per le possibili mancate
corrispondenze. La prima colonna, etichettata Core (Principale), evidenzia le
mancate corrispondenze negli esoni principali e le varianti dell'espressione
CWD. Gli esoni principali sono gli esoni 2, 3 e 4 di Classe I e gli esoni 2 e 3 di
Classe II. La seconda colonna, etichettata Exons (Esoni), mostra le mancate
corrispondenze nella rimanente sequenza codificante del locus. La terza
colonna, denominata NC (Non codificante), mostra le mancate corrispondenze
nella rimanente sequenza non codificante dell'amplicone. Le ultime due colonne
mostrano le mancate corrispondenze relative alla determinazione delle fasi
(phasing). Per impostazione predefinita, le prime due colonne della mancata
corrispondenza e le colonne della mancata corrispondenza della determinazione
delle fasi (phasing) sono sempre presenti. È sufficiente fare clic sull'intestazione
della colonna Exons (Esoni) per visualizzare la colonna NC (Non codificante).
È possibile modificare i campi di risoluzione visualizzati mediante il menu a
discesa. Le opzioni sono: due campi, tre campi e tutti i campi disponibili.
L'ultima porzione del pannello dei risultati è la colonna Differences (Differenze).
Questa colonna indica la posizione delle basi che portano le differenze rispetto
alla coppia con la corrispondenza più vicina. In questo esempio, la differenza tra
la coppia di alleli superiore e la successiva si trova nell'esone 2.
Generazione di un
report
Nella sezione finale di questo tutorial, imparerete come generare un report dei
risultati. I report possono essere generati in formato XML, Excel, testo e FASTA.
Per questa dimostrazione utilizzeremo il formato Excel.
Il report più semplice è il report di riepilogo che ricrea la visualizzazione
Summary (Riepilogo) in formato Excel. Per generare questo rapporto,
selezionate il pulsante di scelta Summary (Riepilogo) e fate clic su Report
(Report). Come potete vedere, abbiamo generato un report nel quale ciascuna
pagina del riepilogo viene riportata in una scheda separata di Excel.
È disponibile anche un report di genotipizzazione più dettagliato. Questo report
può essere filtrato per campione o per locus. Il report completo comprende
cinque sezioni possibili. La sezione Summary (Riepilogo) riporta le coppie di
alleli dal pannello dei risultati e può essere modificata per ridurre il numero di
campi da riportare, le opzioni del riepilogo e i limiti di mancata corrispondenza.
Per la maggior parte delle applicazioni, riporteremo tre campi, l'elenco completo
degli alleli e solo la coppia di alleli con la corrispondenza migliore.
Altre opzioni per il report completo comprendono la sezione di auditing che
mostra le date, gli orari e gli utenti che hanno superato o non superato i risultati.
L'opzione di sequenza stampa la sequenza consenso del campione come è
stata modificata. L'elenco delle modifiche mostra le posizioni modificate, le
modifiche eseguite e l'utente che ha eseguito la modifica. L'elenco delle
mancate corrispondenze mostra qualsiasi mancata corrispondenza rispetto alla
coppia di alleli riportata.
Dopo aver impostato le opzioni, fate clic su Report (Report) per generare il
report. Il report completato si aprirà automaticamente in Excel.
Trascrizione del corso online
6
Pagina
Narrazione
Conclusioni
Questo completa il tutorial delle caratteristiche di base di Conexio Assign per
TruSight HLA. In questo tutorial abbiamo affrontato l'importazione,
l'allineamento, l'identificazione delle basi, l'interfaccia utente, le visualizzazioni di
riepilogo, la visualizzazione delle coperture e la generazione di report.
Anteprima tutorial
avanzato
Nel successivo video tutorial ci concentreremo su caratteristiche e applicazioni
più avanzate di Conexio Assign per TruSight HLA che comprende un'analisi
attenta delle rimanenti visualizzazioni, letture, allineamenti e riferimenti. La
visualizzazione delle letture fornisce una panoramica su ciascuna singola lettura
che copre una posizione delle basi. La visualizzazione degli allineamenti
fornisce un confronto della sequenza consenso del campione con ciascuna
coppia di alleli elencata nei risultati. La visualizzazione dei riferimenti fornisce
una panoramica completa del database IMGT/HLA e dei riferimenti utilizzati per
ottenere i risultati. Oltre a una panoramica dettagliata di queste caratteristiche, il
tutorial avanzato affronterà anche le applicazioni specifiche comprese ambiguità,
alleli di espressione, alleli nuovi e alleli terzi.
Trascrizione del corso online