[Preuve Génétique du Créationnisme] :
Le génome humain est global et n'a pu être le résultat de modifications additionnelles,  juxtaposées, ou graduées (4 mars 2011)

-page en anglais-





< Précédent| |Suivant >




Ici, l'article de l'expérimentation génétique approfondie (Nature.com , 4 mars 2011) ; y est décrit le protocole complet
Cette page fait suite à la page précédente (cliquez) :


  • le génome est unique et ne peut être associé à celui d'un autre humain (individu)
  • les gènes ne sont pas additionnels mais agissent de manière amalgamée, combinée ou globalisée et non pas de manière additionnelle ou juxtaposée, comme l'exige la théorie de l'évolution :
  • = les humains (individus) se différencient par la GLOBALITE de leur génome, et non pas par de"petits sauts" et "changements" génomiques de petite ampleur :

Ce qui signifie :
  • la théorie de l'évolution ne peut avoir eu lieu de manière graduée, il a fallu que les génomes apparaissent "en une seule fois" : évolutionnisme impossible
  • le génome humain a été conçu par des concepteurs en ingénierie génétique, les Elohim, Créateurs de l'Humanité

ici l'article de Nature.com.


Traduction française :

http://www.nature.com/nbt/journal/v29/n8/full/nbt.1904.html


Variation structurelle dans les deux génomes humains cartographiées à un seul nucléotide résolution par l'assemblage du génome entier de novo
...Article en ligne :

http://www.nature.com/nbt/journal/v29/n8/full/nbt.1904.html


Nature Biotechnology | Computational Biology |
Analysis Structural variation in two human genomes mapped at single-nucleotide resolution by whole genome de novo assembly
SOMMAIRE DE L'ARTICLE :

    Résumé
    Présentation
    Résultats
    Discussion
    Méthodes
    Adhésion des codes
    Références
    Remerciements
    Auteur d'information
    Informations complémentaires
Summary :

    Abstract
    Introduction
    Results
    Discussion
    Methods
    Accession codes
    References
    Acknowledgments
    Author information
    Supplementary information


Article tools

    日本語要約
    Print
    Email
    Download PDF
    Download citation
    Order reprints
    Rights and permissions
    Share/bookmark
Résumé

Ici, nous utilisons l'ensemble du génome de l'Assemblée de novo de deuxième génération séquençage lit de cartographier la variation structurelle (SV) dans un génome asiatiques et africains d'un génome. Notre approche identifie petite et moyenne taille de variantes homozygotes (1-50 kb), y compris les insertions, délétions, inversions et leurs points d'arrêt précis, et contrairement à d'autres méthodes, peut résoudre des réarrangements complexes. Au total, nous avons identifié 277 243 SV longueur variant de 1 à 23 ko. Validation des méthodes computationnelles et expérimentales suggèrent que nous réalisons ensemble <6% de faux positifs et <10% de faux négatifs de taux dans les régions génomiques qui peuvent être assemblés, ce qui surpasse les autres méthodes. L'analyse de la SV dans les génomes de 106 individus séquencés dans le cadre du Projet 1000 génomes suggère que compte SVS pour une plus grande fraction de la diversité entre les individus que ne le font polymorphismes nucléotidiques simples (SNP). Ces résultats montrent que le génome entier assemblage de novo est une approche possible pour tirer des cartes plus complète des variations génétiques.

Premier aperçu des shémas-figures :

   iii 
iii  iii

Resuming :

Here we use whole-genome de novo assembly of second-generation sequencing reads to map structural variation (SV) in an Asian genome and an African genome. Our approach identifies small- and intermediate-size homozygous variants (1–50 kb) including insertions, deletions, inversions and their precise breakpoints, and in contrast to other methods, can resolve complex rearrangements. In total, we identified 277,243 SVs ranging in length from 1–23 kb. Validation using computational and experimental methods suggests that we achieve overall <6% false-positive rate and <10% false-negative rate in genomic regions that can be assembled, which outperforms other methods. Analysis of the SVs in the genomes of 106 individuals sequenced as part of the 1000 Genomes Project suggests that SVs account for a greater fraction of the diversity between individuals than do single-nucleotide polymorphisms (SNPs). These findings demonstrate that whole-genome de novo assembly is a feasible approach to deriving more comprehensive maps of genetic variation.

Figures at a glance :

   iii 
iii  iii

L'achèvement de l'International Human Genome Projet1, 2, 3 accéléré et, dans certains cas, rendu possible, l'identification des variations génétiques pour retracer l'évolution, la détermination de la population patterns4, 5 et de la maladie d'évaluer susceptibility6, 7, 8, 9 ainsi que d'autres phénotypique traits10. L'international HapMap projet11 et l'échelle du génome des études d'association (GWAS) 12, 13 ont permis à des recherches approfondies basées sur la caractérisation des polymorphismes nucléotidiques simples (SNP). Ceci a été suivi par un travail d'identifier et de caractériser les variations structurelles, y compris les insertions, délétions, inversions et autres réarrangements de séquences d'ADN. Un grand nombre de ces variations ont été découverts dans le génome humain putativement avoir égale ou supérieure impact fonctionnel que SNPs14, 15, 16, 17, 18, 19, 20, 21, 22, 23. Ces variations ont été identifiés en utilisant soit (i) des signaux optiques de la matrice basée sur les technologies, (ii) la profondeur lue aberrante, (iii) l'alignement gapped de lectures ou soi-disant partagé méthodes de lecture, (iv) l'écart de la bibliothèque signifie insérez- taille en jumelé bout de cartographie et (v) gapped alignement des contigs assemblés à partir de «semi-alignés» jumelé lit-end (qui est, une lecture est trop différente de la référence à toute confiance alignés comme de l'autre côté pourrait être bien alignés, qui permet la lecture de manière unique ancré).

Les méthodes existantes pour appeler les variations structurelles du lit des séquences courtes sont entravées par un ou plusieurs des limitations suivantes: (i) les méthodes susceptibles de favoriser une plage de longueur en particulier des variations de structure, (ii) ils peuvent favoriser la découverte de certains types de variations structurelles; (iii) elles peuvent être incapables de résoudre les génotypes exacte des variations structurelles et / ou points d'arrêt à la résolution seul nucléotide, et (iv) en raison des difficultés de cartographie du génome lit, ils peuvent ne pas être en mesure d'identifier avec précision les réarrangements complexes. Jumelés en bout de cartographie, par exemple, ne peut prédire les points d'arrêt d'insertion dans quelques paires de bases du point d'arrêt exacte position24, et il ne peut détecter les insertions lorsque la séquence entière est contenue dans le fragment d'ADN dont les extrémités sont en cours de séquençage, ainsi, le maximum taille d'une insertion qui peut être détecté par paire en bout de cartographie est limitée par la taille maximale actuelle d'insérer dans une bibliothèque. Split méthodes de lecture, d'autre part, peut définir précisément un point d'arrêt et le génotype d'une insertion, mais seulement quand elle est plus courte que la longueur de lecture. Ainsi, les études menées jusqu'ici ont été d'exhaustivité, précision limitée et / ou la résolution. Un pipeline récente a été développé pour intégrer des méthodes de dépistage et de variation structurelle appliquée assemblée locale afin de valider et de récupérer les breakpoints25, qui introduit la possibilité intrigante de déterminer directement les variations de structure avec des points d'arrêt d'assemblage de novo du génome entier.

En théorie, exacte et complète assemblage de novo de génomes humains devrait permettre la cartographie relativement plus complète de variations26 structurelles. Jusqu'à présent, le coût de séquençage Sanger conventionnelle et la difficulté de recueillir des données à partir des données de séquençage massivement parallèle fragments ont limité l'utilisation pratique de cette approche. Toutefois, la disponibilité récente de données à grande échelle l'assemblage du génome de technologies de séquençage de prochaine génération, y compris l'assemblage de nouveaux algorithms27, 28, 29, 30, permettent désormais aux chercheurs de développer des cartes plus détaillées des variations structurelles de multiples assemblées de novo de génomes humains à un moindre coût.

Nous décrivons ici une approche qui complète les méthodes précédentes pour l'identification fiable des variations structurelles homozygote. Notre approche permet de déterminer avec exactitude le génotype et les points d'arrêt par rapport à un génome de référence basé sur assemblage de novo des données Illumina Genome Analyzer séquençage. Dans ce papier, nous n'avons examiné que les variations structurelles homozygote parce détecter hétérozygote variations structurales nécessite l'assemblage de séquences d'haplotype, qui n'est pas encore possible en utilisant des assembleurs existants. Simulation et validation expérimentale a démontré que cette méthode produit des cartes détaillées des variations structurelles et a permis la caractérisation complète des variations structurelles de deux génomes humains. Les deux cartes humaine variation structurelle ont ensuite été utilisés pour étudier le génome entier de distribution et les schémas d'événements variation structurelle dans différentes catégories. Les résultats confirment les observations précédentes sur les caractéristiques et le potentiel des impacts biologiques des événements variation structurelle. Enfin, nous avons également profilées les occurrences de variations structurelles identifiées dans les deux génomes dans une population de 106 individus de la 1000 Genomes Project31 pour inférer structurelle des distributions de fréquences de variation dans la population humaine. Ces analyses indiquent que les variations structurelles peuvent en général être soumis forte sélection négative par rapport à SNP, et donc être plus susceptibles d'être identifiés comme uniques à un individu que les SNP.
The completion of the International Human Genome Project1, 2, 3 expedited, and in some cases made possible, the identification of genetic variations for tracing evolution, determining population patterns4, 5 and assessing disease susceptibility6, 7, 8, 9 as well as other phenotypic traits10. The International HapMap project11 and genome-wide association studies (GWAS)12, 13 have allowed extensive research based on characterization of single-nucleotide polymorphisms (SNPs). This was followed by work to identify and characterize structural variations, including insertions, deletions, inversions and other DNA sequence rearrangements. A large number of such variations have been discovered in the human genome putatively having equal or greater functional impact than SNPs14, 15, 16, 17, 18, 19, 20, 21, 22, 23. These variations have been identified using either (i) optical signals from array-based technologies, (ii) aberrant read depth, (iii) gapped alignment of reads or so-called split-read methods, (iv) deviation from mean library insert-size in paired-end mapping and (v) gapped alignment of contigs assembled from 'semi-aligned' paired-end reads (that is, one read is too different from the reference to be confidently aligned as the other side could be well aligned, which enables the read to be uniquely anchored).

Existing methods for calling structural variations from short sequencing reads are hampered by one or more of the following limitations: (i) the methods may favor a particular length range of structural variations; (ii) they may favor discovery of particular types of structural variations; (iii) they may be unable to resolve the exact structural variation genotypes and/or breakpoints at single nucleotide resolution; and (iv) because of difficulties mapping reads to the genome, they may not be able to accurately identify complex rearrangements. Paired-end mapping, for example, can only predict insertion breakpoints within a few base pairs of the exact breakpoint position24, and it can only detect insertions when the entire sequence is contained within the DNA fragment whose ends are being sequenced; thus, the maximum size of an insertion that can be detected by paired-end mapping is limited by the largest insert size present in a library. Split-read methods, on the other hand, can precisely define a breakpoint and genotype of an insertion, but only when it is shorter than the read length. Thus, studies carried out so far have been of limited completeness, accuracy and/or resolution. A recent pipeline has been developed to integrate methods for structural variation screening and applied local assembly to validate and recover the breakpoints25, which introduces the intriguing possibility of directly ascertaining structural variations with breakpoints from de novo assembly of the whole genome.

In theory, accurate and complete de novo assembly of human genomes should allow relatively more comprehensive mapping of structural variations26. Until now, the cost of conventional Sanger sequencing and the difficulty of assembling data from massively parallel fragment sequencing data have restricted the practical use of this approach. However, the recent availability of large-scale genome assembly data from next-generation sequencing technologies, including new assembly algorithms27, 28, 29, 30, now allow researchers to develop more detailed structural variation maps for multiple de novo assemblies of human genomes at a lower cost.

Here we describe an approach that complements previous methods for reliable homozygous structural variation identification. Our approach accurately determines genotype and breakpoints relative to a reference genome based on de novo assembly of Illumina Genome Analyzer sequencing data. In this paper, we examined only homozygous structural variations because detecting heterozygous structural variations requires assembly of haplotype sequences, which is not yet possible using existing assemblers. Simulation and experimental validation demonstrated that this method produced detailed structural variation maps and allowed comprehensive characterization of structural variations in two human genomes. The two human structural variation maps were then used to study the genome-wide distribution and patterns of structural variation events in different categories. The results supported previous observations on characteristics and potential biological impacts of structural variation events. Finally, we also profiled the occurrences of structural variations identified in the two genomes in a population of 106 individuals from the 1000 Genomes Project31 to infer structural variation frequency distributions in the human population. These analyses indicate that structural variations may in general be undergoing stronger negative selection compared with SNPs, and thus be more likely to be identified as unique to an individual than SNPs.
Résultats :

Détection de variation structurelle en courte lecture de l'ensemble de l'assemblage du génome

Pour détecter les variations de structure, nous avons utilisé LASTZ32, un remplacement pour BLASTZ33 qui est optimisée pour l'alignement des génomes entiers, d'aligner les assemblies34 de novo d'un Asiatique (AJ; échafaudage N50, 446,3 ko; contig N50, 7,4 kb) et un génome africaine ( NA18507, NCBI court Lisez le numéro d'accession Archives SRA000271; échafaudage N50, 61,9 ko; contig N50, 5.9 ko) sur le NCBI humaine de référence construire génome 36 (NCBI36, http://www.ncbi.nlm.nih.gov). Nous avons limité notre analyse aux variations structurelles <50 ko, que les grandes variations peuvent être détectées par les méthodes traditionnelles, y compris la profondeur de lire et basée sur la baie de technologies, et ils sont très coûteux informatiquement à trouver en utilisant notre méthode en raison des limitations de l'algorithme d'alignement LASTZ. Pour identifier et supprimer les erreurs dans les alignements par paires, nous avons développé un algorithme de programmation dynamique qui préfère l'alignement synténiques et assure seulement un meilleur résultat d'alignement pour chaque locus dans le génome de référence. Cet algorithme est conçu pour éliminer les nombreuses erreurs qui se produisent lorsque vous faites du génome au génome paires d'alignement et de garantir la co-linéarisation de l'alignement (Méthodes en ligne). Ensuite, nous avons extrait les lacunes et les réarrangements segmentaire dans les alignements par paires comme loci candidats variation structurelle; ces variations comprennent le génotype et de l'information breakpoint (Fig. 1a et Fig supplémentaire 1.).


Figure 1: variation de la cartographie structurale du génome entier en utilisant l'assemblage de novo.





Variation de la cartographie structurale du génome entier en utilisant l'assemblage de novo.

(A) Homozygote variations structurales 10-50 kb de longueur ont été identifiés par l'alignement des assemblages gapped novo avec construire 36 du génome de référence NCBI. Les faux positifs sont identifiés en comparant le ratio d'aligner un seul lit à la fin jumelé lit-end (S / P) pour chaque locus variation structurelle dans le montage et la référence. SPR, S / P, RD, de lire en profondeur; SR, split lire. (B, c) des cartes indiquant la répartition circulaire génomique des différentes classes de variations structurelles pour YH (b) et NA18507 (c). Les chromosomes sont représentés de couleur dans le cercle extérieur. Le cercle intérieur montre des lignes vertes reliant l'origine et le nouvel emplacement du identifié duplications intra-ou interchromosomique, et les lignes bleues reliant copies d'un fragment. Histogrammes représentent le nombre d'insertions (cyan) et la suppression (en rouge) dans des bacs Mo 5. (D) La répartition globale des longueurs des variations structurales. (E) Distribution des variations structurales entre 100 pb et 1 kb de longueur. Pic à ~ 300 pb est dû à l'enrichissement des insertions et des suppressions élément Alu. (F) Répartition des variations structurales entre 1 pb et 15 pb en longueur dans des séquences codantes. Pics à des multiples de 3 pb peut être expliquée par le fait qu'ils sont sous sélection négative sont plus faibles que frame-shift indels avec une longueur de pas uniformément divisé par three47.

    Image en taille réelle (102 Ko)

    Chiffres / Index des tableaux
    La figure suivante

Nous avons ensuite développé des filtres pour éliminer les fausses appels variation structurelle (faux positifs). Premièrement, nous avons calculé lire la couverture à chaque locus variation structurelle en alignant le séquençage Illumina Genome Analyzer lit (GA lectures) sur le NCBI36 et les deux assemblées à l'aide du BWA tool35 avec l'option d'alignement gapped activé. En raison de limitations de BWA35, nous avons utilisé différentes approches de filtrage des variations structurelles candidat ≤ 50 pb (série 1) ou> 50 pb (ensemble 2). Pour les variations structurelles ≤ 50 pb, nous avons identifié les faux positifs que ceux soutenus par moins de quatre gapped aligné lit ou si un lit ont été alignés de manière incompatible avec les points d'arrêt et / ou le génotype prédite à partir de la cartographie à l'Assemblée de la référence. Pour les variations structurelles> 50 pb, nous avons pensé que les faux positifs ont pu être identifiés par des incohérences dans des paires de gamme et de lire des données approfondies à proximité de points d'arrêt putatifs. Pour lire aligné à l'assemblée de novo, l'attente est qu'une variation authentiques structurelles seraient couverts par paire de gamme suffisante lit avec la taille de durée appropriée et l'orientation des lamelles, tandis que les variations structurelles fausses seraient couverts par anormalement mappé lire paires qui ne pouvaient être alignés comme deux indépendants seule fin de lecture autour des points d'arrêt putatifs. Pour lire aligné sur le génome de référence, le contraire serait prévue. De plus, la profondeur totale de paires de gamme à travers une cartographie région d'insertion réelle sur l'assemblage doit être plus cohérent que pour un faux et un vrai suppression de la référence doit avoir une profondeur totale inférieure à la profondeur moyenne de la référence toute génome (Fig. supplémentaire. 2). Basé sur cette logique, nous avons conçu un système métrique, le ratio S / P, de quantifier la fiabilité des candidats variation structurelle> 50 pb. Le ratio S / P est calculé en divisant le nombre de succès alignés seule fin de lecture par le nombre de paires de gamme alignée lit à un locus variation structurelle. Nous calculons S / P pour chaque locus variation structurelle dans les deux assemblage de novo et de référence, et d'utiliser le test exact de Fisher pour déterminer si il ya une différence significative entre les deux. Parasites des variations structurelles auront similaires S / P dans l'assemblage de novo et la référence.

Après filtrage de faux-positifs des variations structurales a appelé à des assemblées génome asiatiques et africains, nous avons identifié 80 719 et 87 457 insertions (allant de 1-23,203 pb de longueur), 51 711 et 56 074 suppressions (1-7,916 pb de longueur), 26 et 23 inversions (10-21,052 pb de longueur) et 717 et 516 réarrangements complexes (définis comme des duplications intra-ou interchromosome et translocations, 100-5,683 pb de longueur) dans les deux génomes, respectivement (Tableau 1 et Fig. 1b, c). Notamment, notre méthode identifie les points d'arrêt précis et génotypes de toutes ces variations structurelles.

Results :
Structural variation detection in short-read whole-genome assemblies

To detect structural variations, we used LASTZ32, a replacement for BLASTZ33 that is optimized for aligning whole genomes, to align the de novo assemblies34 of an Asian (YH; scaffold N50, 446.3 kb; contig N50, 7.4 kb) and an African genome (NA18507, NCBI Short Read Archive accession number SRA000271; scaffold N50, 61.9 kb; contig N50, 5.9 kb) onto the NCBI human reference genome build 36 (NCBI36, http://www.ncbi.nlm.nih.gov). We limited our analysis to structural variations <50 kb, as larger variations can be detected by traditional approaches including read depth and array-based technologies, and they are computationally very costly to find using our method because of limitations of the LASTZ alignment algorithm. To identify and remove errors in pair-wise alignments, we developed a dynamic programming algorithm that prefers syntenic alignment and ensures only one best alignment result for each locus in the reference genome. This algorithm is designed to eliminate the numerous errors that occur when doing genome-to-genome pair-wise alignment and to guarantee the co-linearization of the alignment (Online Methods). Then, we extracted gaps and segmental rearrangements in pair-wise alignments as candidate structural variation loci; these variations include genotype and breakpoint information (Fig. 1a and Supplementary Fig. 1).
Figure 1: Mapping structural variation using whole-genome de novo assembly.





Mapping structural variation using whole-genome de novo assembly.

(a) Homozygous structural variations 1–50 kb in length were identified by gapped alignment of de novo assemblies with build 36 of the NCBI reference genome. False positives are identified by comparing the ratio of aligned single-end reads to paired-end reads (S/P ratio) for each structural variation locus in the assembly and the reference. SPR, S/P ratio; RD, read depth; SR, split read. (b,c) Circular maps showing the genomic distribution of different classes of structural variations for YH (b) and NA18507 (c). Chromosomes are shown color-coded in the outermost circle. The innermost circle shows green lines connecting the origin and the new location of identified intra- or interchromosomal duplications, and blue lines connecting copies of a fragment. Histograms represent the number of insertions (cyan) and deletion (red) in 5 Mb bins. (d) Overall distribution of the lengths of structural variations. (e) Distribution of structural variations between 100 bp and 1 kb in length. Peak at ~300 bp is due to the enrichment of Alu element insertions and deletions. (f) Distribution of structural variations between 1 bp and 15 bp in length in coding sequences. Peaks at multiples of 3 bp can be explained by the fact that they are under weaker negative selection than are frame-shift indels with length not evenly divided by three47.

    Full size image (102 KB)

    Figures/tables index
    Next figure

We next developed filters to eliminate spurious structural variation calls (false positives). First, we computed read coverage at each structural variation locus by aligning the Illumina Genome Analyzer sequencing reads (GA reads) onto the NCBI36 and the two assemblies using the BWA tool35 with the gapped alignment option enabled. Because of limitations of BWA35, we used different filtering approaches for candidate structural variation ≤50 bp (set 1) or >50 bp (set 2). For structural variations ≤50 bp, we identified false positives as those supported by fewer than four gapped aligned reads or if any reads were aligned inconsistently with the breakpoints and/or genotype predicted from mapping the assembly to the reference. For structural variations >50 bp, we reasoned that false positives could be identified by inconsistencies in paired-end and read-depth data near to the putative breakpoints. For reads aligned to the de novo assembly, the expectation is that an authentic structural variation would be covered by sufficient paired-end reads with proper span size and strand orientation, whereas spurious structural variations would be covered by abnormally mapped read pairs that could only be aligned as two independent single-end reads around the putative breakpoints. For reads aligned to the reference genome, the opposite would be expected. In addition, the overall depth of paired-end mapping across a true insertion region on the assembly should be more consistent than for a false one, and a true deletion on the reference should have an overall lower depth than the average depth of the whole reference genome (Supplementary Fig. 2). Based on this logic, we devised a metric, the S/P ratio, to quantify the reliability of structural variation candidates >50 bp. The S/P ratio is computed by dividing the number of successfully aligned single-end reads by the number of aligned paired-end reads at a structural variation locus. We compute S/P ratios for each structural variation locus in both the de novo assembly and reference, and use Fisher's exact test to determine whether there is a significant difference between the two. Spurious structural variations will have similar S/P ratios in the de novo assembly and the reference.

After filtering out false-positive structural variations called for the Asian and African genome assemblies, we identified 80,719 and 87,457 insertions (ranging from 1–23,203 bp in length), 51,711 and 56,074 deletions (1–7,916 bp in length), 26 and 23 inversions (10–21,052 bp in length) and 717 and 516 complex rearrangements (defined as intra- or interchromosome duplications and translocations, 100–5,683 bp in length) in the two genomes, respectively (Table 1 and Fig. 1b,c). Notably, our method identifies the precise breakpoints and genotypes of all these structural variations.
Table 1: Summary of structural variations in YH and NA18507
Full table
Tableau 1: Sommaire des variations structurelles de YH et NA18507


//////TEXTE MANQUANT ///////
____________

Table 1: Index des ctiations structurelles en YH et NA18507

TABLEAU (bientôt en ligne)



La distribution des longueurs des variations structurelles sont compatibles avec les précédents findings19, 20, 36 en plus que les variations ont été moins abondantes. La seule exception a été la faible augmentation du nombre de variations structurelles de la gamme de taille de 200-400 pb, ce qui était dû à l'enrichissement des insertions et des suppressions des éléments Alu (fig. 1d, e), tel que démontré dans études19 précédente. Notre analyse a montré que les insertions et suppressions ont des pics de distribution de longueur dans les séquences codantes à des positions qui sont des multiples de trois grâce à une sélection négative du cadre déplacement indels37 (fig. 1f). Ce constat a également indiqué que nos appels variation structurelle des indels petits étaient suffisamment précis pour éliminer le bruit de fond causé par indels fallacieuses lors de la définition modes de variation structurelle au sein de différentes caractéristiques génomiques, telles que les régions codantes.

Nous avons également examiné des cas réarrangement complexes qui sont généralement le résultat d'une combinaison complexe de plusieurs insertions, délétions et / ou des inversions. Comme nos appels variation structurelle ont été directement établie à partir des séquences assemblées, nous avons été en mesure de résoudre des réarrangements complexes. Figure 3 montre un exemple supplémentaire d'une telle région, avec des réarrangements complexes qui ne peuvent généralement pas être résolu par des méthodes basées sur la paire en bout de cartographie, de lire de profondeur ou les lectures.
La précision et la sensibilité des appels variante structurelle

Pour évaluer l'exactitude de notre méthode de détection, nous avons simulé indels homozygote dans des sites au hasard tout au long du chromosome 17 de l'Assemblée HuRef (http://huref.jcvi.org/). Nous avons d'abord introduit 16490 indels une longueur variant de 1 à 50 kbp, avec les ajustements apportés basée sur la distribution des tailles trouvés précédemment dans les deux genomes20, dans le chromosome 17 de l'assemblage HuRef. Ensuite, nous avons simulé Illumina lit en utilisant la séquence modifiée (Méthodes en ligne), et a identifié des variations structurales en utilisant notre méthode. Les échafaudages montés couvert les régions flanquantes de 12 516 (75,9%) indels simulé (indels détectable). Les indels reste simulées (24,1%) étaient dans des régions du génome qui ne pouvaient être assemblés. Au total, nous avons trouvé 11 311 (90,4%) des indels détectable en utilisant notre méthode. Parmi ces derniers, notre méthode identifiés avec précision les points d'arrêt exacte et le génotype pour 11 194 (98,8%), tout en appelant seulement 137 faux positifs.

Basé sur ces résultats, nous estimons que le taux de faux positifs de notre méthode est de 1,2%, et le taux de faux négatifs est de 9,6% dans les régions assemblés. Les faux positifs ont été en grande partie attribuable à des erreurs de montage ou la présence de gros éléments répétitifs. Par exemple, l'analyse des séquences flanquantes du indels faux positifs en utilisant RepeatMasker38 révélé que 61,9% de ces contenait des éléments très répétitives. Par rapport à une approche basée sur jumelé bout de cartographie, tels que breakdancer, qui constatée de 74% des indels simulées> 20 pb et 68% des indels simulées 10-20 pb de long avec un taux de faux positifs de ~ 10%, notre méthode démontre sensibilité similaire, mais une meilleure précision (1 - taux de faux négatifs) (tableau 2).

Table 1: Summary of structural variations in YH and NA18507

We aligned the assembly of YH (Asian) and NA18507 (African) genome sequences against the NCBI human reference genome build 36 and refined the alignments to guarantee the accuracy and co-linearization of the results. Structural variations (SVs) were extracted from refined alignments. Confident SVs were those SVs that passed our filtering threshold as described in Online Methods.


    Figures/tables index
    Next table

The distribution of the lengths of the structural variations are consistent with previous findings19, 20, 36 in that longer variations were less abundant. The only exception was the small increase in the number of structural variations in the size range of 200–400 bp; this was due to the enrichment of Alu element insertions and deletions (Fig. 1d,e), as demonstrated in previous studies19. Our analysis showed that insertions and deletions have length distribution peaks in coding sequences at positions that are multiples of three owing to negative selection of frame-shift indels37 (Fig. 1f). This finding also indicated that our structural variation calls of small indels were sufficiently accurate to eliminate background noise caused by spurious indels when defining structural variation patterns within different genomic features, such as coding regions.
Tableau 2:
Comparaison entre les caractéristiques structurelles des outils de détection des variations et des évaluations de benchmarking sur les appels


Tableau complet

    Précédent Table
    Chiffres / Index des tableaux

Nous avons ensuite utilisé les indels simulés pour évaluer le biais de notre méthode sur la détection des variations de structure de différentes longueurs. Pour les petites (1-10 pb), moyen (10-50 pb) et grandes (> 50 pb) indels, 20,4%, 29,8% et 29,2%, respectivement, ne se trouvaient pas dans les séquences d'assemblage, en grande partie parce qu'ils étaient situés dans répétitives régions (fig. 2). Ainsi, ces indels ont été manquées en raison des limites des méthodes actuelles de novo dans la résolution de l'Assemblée elements39 très répétitif, plutôt qu'en raison d'erreurs dans l'alignement, la variation structurelle appelant ou le filtrage des mesures. Dans les régions assemblés, moyennes indels était plus élevé de faux négatifs de taux (19%) que les petits (6%), pourtant grands indels ont été presque tous identifiés (taux de faux négatifs <0,2%). Les grands indels avait un taux de faux positifs de seulement 3%, ce qui est environ dix fois plus élevé que le taux de faux positifs de gammes de longueur d'autres. En résumé, notre méthode nous a permis de détecter un spectre plus intégrée de variation structurels par rapport aux précédentes approaches40, bien que certains préjugés dans la découverte de variations structurales avec des longueurs différentes ont été observées.

Table 2:
Comparison between features of structural variation detection tools and benchmarking evaluations on structural variation calls between de novo assembly-based method, BreakDancer and pIndel


Full table

    Précédent Table
    Chiffres / Index des tableaux


We next used the simulated indels to assess the bias of our method towards detecting structural variations of different lengths. For small (1–10 bp), medium (10–50 bp) and large (>50 bp) indels, 20.4%, 29.8% and 29.2%, respectively, were not located in assembled sequences, largely because they were located in repetitive regions (Fig. 2). Thus, these indels were missed because of the limitations of current de novo assembly methods in resolving highly repetitive elements39, rather than because of errors in the alignment, structural variation calling or filtering steps. In the assembled regions, medium-sized indels had a higher false-negative rate (19%) than small ones (6%), yet large indels were nearly all identified (false-negative rate <0.2%). The large indels had a false-positive rate of only 3%, which is approximately tenfold higher than the false-positive rates of other length ranges. In summary, our method enabled us to detect a more integrated spectrum of structural variation compared with previous approaches40, although some biases in the discovery of structural variations with different lengths were observed.
Figure 2: Détails de simulation.



Simulation de détails.

V
ariations structurelles ont été regroupés en trois parties pour évaluer la sensibilité des plages de longueurs différentes. Identifié des variations structurelles (en bleu) sont comparativement plus élevés que ceux des variations structurales avec séquence assemblé mais non identifié (en violet). La plupart des variations de structure manquant sont dus à la perte de séquences (non assemblé, rouge) et> 10% d'entre eux contiennent des séquences répétitives (vert). Le taux de faux positifs (orange) est très faible pour faire court (≤ 10), mais pour intermédiaires des variations structurales (> 10 et ≤ 50) et longue (> 50) des variations structurelles, il est plus élevé en raison de la complexité accrue dans l'alignement gapped et statistiques Analyse respectivement.

    Image en taille réelle (48 KB)

    Figure précédente
    Chiffres / Index des tableaux
    La figure suivante

Ensuite, nous avons évalué la précision de notre méthode lorsqu'elle est appliquée aux données expérimentales. Nous avons appliqué un certain nombre de différentes approches expérimentales pour générer des séquences de haute précision à des fins de validation.

Tout d'abord, de séquençage Sanger capillaire a été réalisée sur 95 sélectionnés au hasard des variations structurales du génome YH qui variaient de 1 à 50 pb (1 Tableau complémentaire). Nous considérons validé les variations structurelles à ceux qui avaient une séquence qui correspond exactement la séquence des variations structurelles détectées par l'assemblée. Nous avons été en mesure de la séquence 91 des 95 variations structurales et valider 88 (96,7%) d'entre eux.

Deuxièmement, la PCR a été séquencé à travers les points d'arrêt d'un 57 autres variations structurales (40 insertions et suppressions 17) qui ont été> 2 ko. Nous avons réussi à séquencer 29 des insertions et de toutes les suppressions. Parmi ces derniers, nous avons validé 28 des 29 insertions, soit à la fois des points d'arrêt (14 des insertions) ou moins un point d'arrêt (sept points d'arrêt à gauche et sept points d'arrêt à droite), et 16 des 17 suppressions ont également été confirmés pour être correct.

Enfin, pour vérifier si les 15 variations de structure que nous ne pouvions amplifier par PCR (quatre indels qui étaient <50 pb et 11 insertions> 2 ko) étaient authentiques ou faux, nous avons séquencé une bibliothèque commun fosmide généré à partir d'ADN génomique en utilisant une YH Illumina instrument de GAIIx. Chaque pool composé de seulement 30 fosmides pour éviter les ambiguïtés en raison de chevauchements segmentée dans le processus d'assemblage. Et chaque pool a été séquencé indépendamment de réduire la complexité de l'assemblage des lectures et des problèmes causés par sequences41 répétitives. En utilisant les contigs assemblés à partir de fosmides, nous avons validé 11 (73%) des 15 autres variations structurelles, ce qui indique que l'échec d'amplifier par PCR une variante n'est pas nécessairement indicatif d'un appel variation structurelle fallacieuses (2 Tableau complémentaire).

En résumé, 143 des variations structurales sur 152 (94,1%) des variations structurales ont été validés par des méthodes expérimentales, qui soutient l'exactitude de nos méthodes sur des données expérimentales.
Comparaison des performances avec d'autres méthodes

Nous avons ensuite comparés notre méthode en comparant nos prédictions des variantes structurelles dans le génome NA18507 aux prévisions faites en utilisant les outils bioinformatiques BreakDancer20, qui utilise jumelé-end lire la cartographie, et pIndel42, qui est adaptée pour identifier de petites insertions et des suppressions. Parmi les variations de structure que nous avons identifiés, 60,2% et 75,3% des insertions et des suppressions, respectivement, avaient été signalés previously17, 19 (tableau 2). Parmi les indels identifiés dans une étude19 précédent, mais manque dans notre jeu d'appel, 64,1% de chevauchement avec des séquences très répétitives. Breakdancer identifié moins de variations structurelles dont un plus petit pourcentage d'accord avec les études précédentes. C'est probablement parce que breakdancer exclut indels <10 pb en raison des limitations de longueur de l'algorithme, mais la plupart des indels sont <10 pb. pIndel42 identifié plus indels que notre méthode, un pourcentage plus élevé de ce qui a entériné les conclusions précédentes. Toutefois, pIndel ne peut pas identifier les insertions grands, des inversions et des réarrangements complexes. En revanche, notre méthode identifie ces types de variantes, y compris variants43 équilibrée.

Nous avons également comparé les résultats de l'application de notre méthode, et BreakDancer20 pIndel42 d'appeler les variations structurelles dans le génome YH (tableau 2). Pour indels, la plupart des variantes identifiées par notre approche, dont seulement 5,6% sont censés être des faux positifs, n'ont pas été identifiés par breakdancer ou pIndel (notes et tableaux supplémentaires complémentaire 3 et 4 pour d'autres comparaisons avec d'autres méthodes, y compris array comparative hybridation génomique, des assemblages obtenus à l'aide de séquençage Sanger de données et un strategy23 hybride qui intègre les résultats de plusieurs approches). Ces écarts entre notre méthode et breakdancer et / ou pIndel dans les prédictions des variations structurelles pourraient être attribués à des longueurs variées lire (30-75 pb) et la bibliothèque d'insérer sizes44 utilisé pour séquencer le génome YH. En résumé, notre approche fournit une méthode précise pour déterminer les variations structurelles de différentes longueurs et types. La méthode est complémentaire, et dans certains cas surpasse, les méthodes existantes.
Schémas séquence du génome à l'échelle des variations structurales

Établir une carte des variations précises et moins biaisée structurelle nous a permis d'étudier les modèles séquence du génome à l'échelle des variations structurales. Nous avons d'abord examiné la distribution des variations structurelles de l'AJ et de NA18507 génomes (figure supplémentaire. 4) et a constaté que dans les deux génomes régions hétérochromatiques (défini comme centromères et les télomères annotés par UCSC hg18) a une densité plus élevée de variations. En comptant le nombre de courts (≤ 10 pb) et plus des variations structurales (> 10 pb) à 1 Mb fenêtres coulissantes sur les deux génomes, nous avons identifié 386 et 330 régions, ce qui correspond à 340 et 299 Mb de séquence, respectivement, qui avait nettement des nombres différents de variations structurelles (test exact de Fisher, p <0,01) entre les deux génomes.

Nous avons trouvé 244 intra-et 26 transpositions interchromosome dans le génome YH rapport à la référence NCBI36, et 217 intra-et 10 transpositions interchromosome dans le génome NA18507. Notamment, 87,4% des unités de transposition dans l'AJ et de 84,6% dans le génome NA18507 ne contiennent pas connue éléments transposables, comme Sines (courtes entrecoupées éléments transposables), des lignes (longs entrecoupés d'éléments transposables) ou LTR (Long Terminal Repeat). Ce constat est cohérent avec les observations précédentes que la plupart des éléments transposables connus ne peuvent pas être assemblés par court-lu monteurs de novo, mais elle indique que la transposition des éléments nontransposable pourrait être une partie notable des événements de transposition. Nous n'avons pas observé de motifs consensus significatif dans les séquences de transposition nontransposable élément. Ces types de transpositions peuvent découler de duplication et recombinaison events45. Alternativement, les transposons pourraient avoir été impliqués, mais ont ensuite été mobilisés pour d'autres parties du génome. Autre que le pic de la variation structurelle due aux insertions Alu ou suppressions (Fig. 1b), nous n'avons pas observé de modèles significatifs, tels que la chromatine associée périodicités, des insertions et des suppressions liées à nucléosomes structures46.

Nous avons également analysé la fréquence de l'observation des variations structurelles de gènes codant des protéines (http://www.uniprot.org/downloads) et des éléments Alu (Fig. 3). Comme prévu, nous avons trouvé des variations dans les gènes de structure moins par rapport à l'ensemble du génome, alors que les transposons survenu à un taux plus élevé. Fait à noter, le taux de variation structurelle n'a pas été également répartie entre les différentes structures fonctionnelles des gènes (Fig. 3a). Régions non traduites (UTR) a montré un taux plus élevé que précédemment variation structurelle reported47, et les séquences codantes avaient un taux plus faible variation structurelle que les introns. Notamment, séquences Alu avait évènements variation plus structurelle que leurs régions flanquantes intergéniques, et a eu un pic à chaque extrémité. Ceci s'accorde avec notre attente que subissent séquences Alu transposition plus souvent que les éléments intacts (fig. 3b). Contrairement à toutes les fonctionnalités ci-dessus génomique, dans les 531 régions annotées micro ARN (mi) (http) dans le génome humain de référence NCBI36, nous avons identifié une variation structurelle dans le YH et trois événements variation structurelle du génome NA18507. Comme les fonctions des miARN sont sensibles à leur longueur et de motifs, ces variations de structure pourrait avoir le potentiel des effets délétères. Toutefois, en raison de la petite taille des échantillons, les génomes plus individuel et bases de données plus complètes miARN sont nécessaires pour tirer des conclusions solides.
Figure 2: Simulation details.


Simulation details.

Structural variations were clustered into three parts to evaluate the sensitivity of different length ranges. Identified structural variations (blue) are comparatively higher than those structural variations with sequence assembled but not identified (violet). Most of the missing structural variations are due to the loss of the sequences (not assembled, red) and >10% of them contain repetitive sequences (green). The false-positive rate (orange) is very low for short (≤10) but for intermediate structural variations (>10 and ≤50) and long (>50) structural variations, it is higher due to increased complexity in gapped alignment and statistical analysis respectively.

    Full size image (48 KB)

    Previous figure
    Figures/tables index
    Next figure

Next, we assessed the accuracy of our method when applied to experimental data. We applied a number of different experimental approaches to generate high-accuracy sequences for validation purpose.

First, Sanger capillary sequencing was performed on 95 randomly selected structural variations from the YH genome that ranged from 1–50 bp (Supplementary Table 1). We consider validated structural variations to be those that had a sequence that exactly matched the detected structural variation sequence from the assembly. We were able to sequence 91 of the 95 structural variations and validate 88 (96.7%) of them.

Second, PCR sequencing was performed across the breakpoints of an additional 57 structural variations (40 insertions and 17 deletions) that were >2 kb. We successfully sequenced 29 of the insertions and all of the deletions. Of these, we validated 28 of the 29 insertions either at both breakpoints (14 of the insertions) or at one breakpoint (seven left breakpoints and seven right breakpoints), and 16 of 17 deletions were also confirmed to be correct.

Lastly, to check whether the 15 structural variations that we could not amplify by PCR (four indels that were <50 bp and 11 insertions >2 kb) were authentic or spurious, we sequenced a pooled fosmid library generated from YH genomic DNA using an Illumina GAIIx instrument. Each pool consisted of only 30 fosmids to avoid ambiguities owing to segmented duplications in the assembly process. And each pool was sequenced independently to reduce the complexity of assembling the reads and problems caused by repetitive sequences41. Using the contigs assembled from fosmids, we validated 11 (73%) of the remaining 15 structural variations, which indicates that failure to amplify a variant by PCR is not necessarily indicative of a spurious structural variation call (Supplementary Table 2).

In summary, 143 structural variations out of 152 (94.1%) structural variations were validated by experimental methods, which supports the accuracy of our methods on experimental data.
Performance comparison with other methods

We next benchmarked our method by comparing our predictions of structural variants in the NA18507 genome to predictions made using the bioinformatics tools BreakDancer20, which uses paired-end read mapping, and pIndel42, which is tailored to identify small insertions and deletions. Of the structural variations that we identified, 60.2% and 75.3% of the insertions and deletions, respectively, had been reported previously17, 19 (Table 2). Among the indels identified in a previous study19 but missing in our call set, 64.1% overlap with highly repetitive sequences. BreakDancer identified fewer structural variations of which a smaller percentage agreed with the previous studies. This is likely because BreakDancer excludes indels <10 bp in length owing to limitations of the algorithm, yet most indels are <10 bp. pIndel42 identified more indels than our method, a greater percentage of which agreed with previous findings. However, pIndel cannot identify large insertions, inversions and complex rearrangements. In contrast, our method identifies these types of variants, including balanced variants43.

We also compared the results of applying our method, BreakDancer20 and pIndel42 to call structural variations in the YH genome (Table 2). For indels, most of the variants identified by our approach, of which only 5.6% are expected to be false positives, were not identified by BreakDancer or pIndel (Supplementary Notes and Supplementary Tables 3 and 4 for additional comparisons with other methods, including array comparative genomic hybridization, assemblies obtained using Sanger-sequencing data and a hybrid strategy23 that incorporates the results of several approaches). These discrepancies between our method and BreakDancer and/or pIndel in the structural variation predictions could be attributed to the varied read lengths (30–75 bp) and library insert sizes44 used to sequence the YH genome. In summary, our approach provides an accurate method to determine structural variations of different lengths and types. The method is complementary to, and in some cases outperforms, existing methods.
Genome-wide sequence patterns of structural variations

Establishing an accurate and less-biased structural variation map allowed us to investigate genome-wide sequence patterns of structural variations. We first examined the distribution of structural variations in the YH and NA18507 genomes (Supplementary Fig. 4) and found that in both genomes heterochromatic regions (defined as centromeres and telomeres annotated by UCSC hg18) had a higher density of variations. By counting the numbers of shorter (≤10 bp) and longer structural variations (>10 bp) in 1 Mb sliding windows across both genomes, we identified 386 and 330 regions, corresponding to 340 and 299 Mb of sequence, respectively, that had significantly different numbers of structural variations (Fisher's exact test, P < 0.01) between the two genomes.

We found 244 intra- and 26 interchromosome transpositions in the YH genome relative to the NCBI36 reference, and 217 intra- and 10 interchromosome transpositions in the NA18507 genome. Notably, 87.4% of the transposition units in the YH and 84.6% in the NA18507 genome did not contain known transposable elements, such as SINEs (short interspersed transposable elements), LINEs (long interspersed transposable elements) or LTRs (long terminal repeats). This finding is consistent with previous observations that most known transposable elements cannot be assembled by short-read de novo assemblers; however, it does indicate that nontransposable element transposition could be a notable part of transposition events. We did not observe any significant consensus motifs in the nontransposable element transposition sequences. These types of transpositions may arise from duplication and recombination events45. Alternatively, transposons might have been involved but were then mobilized to other parts of the genome. Other than the structural variation peak due to Alu insertions or deletions (Fig. 1b), we did not observe any significant patterns, such as chromatin-associated periodicities, of insertions and deletions related to nucleosomes structures46.

We also analyzed the frequency of observing structural variations in protein-coding genes (http://www.uniprot.org/downloads) and Alu elements (Fig. 3). As expected, we found fewer structural variations in genes as compared with the whole genome, whereas transposons occurred at a higher rate. Of note, the structural variation rate was not evenly distributed across the different functional structures of genes (Fig. 3a). Untranslated regions (UTRs) showed a higher structural variation rate than previously reported47, and the coding sequences had a lower structural variation rate than introns. Notably, Alu sequences had more structural variation events than their flanking intergenic regions, and had a spike at each end. This agrees with our expectation that Alu sequences undergo transposition more often as intact elements (Fig. 3b). In contrast to all the above genomic features, in the 531 annotated micro (mi)RNA regions (http://www.ncbi.nlm.nih.gov) in the human reference genome NCBI36, we identified one structural variation in the YH and three structural variation events in the NA18507 genome. As the functions of miRNAs are sensitive to their length and motifs, these structural variations could have potential deleterious impacts. However, because of the small sample size, more individual genomes and more comprehensive miRNA databases are required to draw solid conclusions.
Figure 3: Canonical profils variation structurelle des gènes et des éléments Alu dans YH (rouge) et NA18507 (bleu) des génomes.



Vatiation structurelle des profils
Canoniques variation des gènes et des éléments Alu dans YH (rouge) et NA18507 (bleu) des génomes.

(A) La structure des gènes canonique est définie par neuf des caractéristiques différentes, notée par le texte suivant sur l'axe x: i, en amont, ii, 5 'UTR; iii, d'abord l'exon; IV, premier intron, v, internes exon; vi, internes intron; VII, dernier exon; VIII, UTR 3 '; IX, en aval. Axe des ordonnées représente la possibilité de survenance de l'événement variation structurelle par base. Chaque fonction de différentes longueurs de gènes codant a été analysé séparément et installé dans un nombre égal de poubelles. Chaque point dans les lignes respectives désigne la moyenne mobile de 5 bacs. Variations structurelles sont classés comme 10-10 pb (YH, jaune; NA18507, vert) et> 10 pb (YH, violet; NA18507, orange). TSS (vert pointillé), site de départ de transcription. (B) des transposons Alu avec 2 kpb région amont et en aval. La probabilité d'occurrence totale des variations structurelles au sein de l'élément Alu est plus élevé que amont et en aval pour les deux YH (rouge) et NA18507 (bleu).

    Image en taille réelle (37 KB)

    Figure précédente
    Chiffres / Index des tableaux
    La figure suivante
Figure 3: Canonical structural variation profiles of genes and Alu elements in YH (red) and NA18507 (blue) genomes.


Canonical structural variation profiles of genes and Alu elements in YH (red) and NA18507 (blue) genomes.

(a) The canonical gene structure is defined by nine different features, denoted by the following on the x axis: i, upstream; ii, 5′ UTR; iii, first exon; iv, first intron; v, internal exon; vi, internal intron; vii, last exon; viii, 3′ UTR; ix, downstream. Y-axis represents the possibility of occurrence of structural variation event per base. Each feature of various length of coding genes was analyzed separately and fitted into equal numbers of bins. Each dot in the respective lines denotes the moving average of 5 bins. Structural variations are classified as 1–10 bp (YH, yellow; NA18507, green) and >10 bp (YH, violet; NA18507, orange). TSS (green dashed line), transcript start site. (b) Alu transposons with 2 kbp upstream and downstream region. The total probability of structural variation occurrence within Alu element is higher than upstream and downstream for both YH (red) and NA18507 (blue).

    Full size image (37 KB)

    Previous figure
    Figures/tables index
    Next figure
Annotation des variations structurales

Nous avons considéré les effets potentiels des variations structurales fonctionnelles. Premièrement, nous avons vérifié pour les chevauchements avec des séquences répétitives de longueurs différentes (figure supplémentaire. 5). Variations structurelles de 200-400 pb montré le plus grand chevauchement avec des séquences répétitives (86,5% et 87,6%, respectivement, pour YH et NA18507), en concordance avec findings37 précédente. Ensuite, nous avons annoté le codant pour des protéines des gènes qui se chevauchent avec des variations structurelles car elles peuvent avoir des conséquences fonctionnelles importantes du fait de l'effet potentiel dramatique des variations sur la structure des gènes. Nous avons trouvé 8784 (NA18507) et 8642 (AJ) gènes dans les deux génomes contiennent des variations structurales dans leur corps des gènes. Parmi ces gènes, 233 (NA18507) et 281 (AJ) avait variation structurelle dans les séquences de l'exon (Fig supplémentaire. 6). Pour évaluer les conséquences potentiellement délétères des variations dans les gènes de structure, nous avons vérifié le niveau de conservation (dN / dS ratio dans une comparaison des génomes humain et murin) de ces variations structurelles contenant des gènes (figure 4a). Comme prévu, plus de gènes conservés a montré moins d'événements variation structurelle. Cependant, il y avait 42 et 59 gènes fortement conservé (dN / dS ≤ 0,1) qui contenait des variations structurelles de l'AJ et de NA18507 génomes, respectivement. Gene Ontology (GO) des classifications de ces gènes a montré qu'ils appartiennent à l'ubiquitine, la reliure d'ions de zinc et le noyau GO catégories (5 Tableau complémentaire). D'intérêt encore, de nombreux (47,8%) des gènes dont les exons contenait une variation structurelle qui pourraient être identifiés à l'aide de notre approche de l'assemblage de novo à base manquaient dans V.130 dbSNP (http://www.ncbi.nlm.nih. gov), indiquant l'utilité de cette méthode pour acquérir une vue plus complète des variations structurales dans le génome humain.


Figure 4: modèle de sélection des variations structurales.



Modèle de sélection des variations structurales.


Niveau de la conservation (a) de la variation contenant les gènes de structure de YH (rouge) et NA18507 (bleu) du génome. Variations contenant structurels gènes ont été classés par dN / dS rapport selon une comparaison entre les ensembles de gènes des génomes humain et murin à partir du navigateur UCSC. Deux ensembles ont été alignées par BLAST. Résultats avec e-valeur <1e-20 et de l'identité> 90 ont été inclus. Pour éviter un double comptage, les meilleurs résultats ont été sélectionnés parmi toutes les régions alignées pour la détection des mutations synonymes et nonsynonymous. (B) Une comparaison entre les spectres de fréquence d'identifier des variations structurales et publié 1000 Genomes SNP mis a révélé l'excédent de variations de fréquence très basse structurelles. Une proportion plus élevée de la variation structurelle (en bleu) que les SNPs (rouge) est observé à très basse fréquence.

    Image en taille réelle (35 KB)

    Figure précédente
    Chiffres / Index des tableaux
Annotation of structural variations

We considered the potential functional effects of structural variations. First, we checked for overlaps with repetitive sequences of different lengths (Supplementary Fig. 5). Structural variations of 200–400 bp showed the greatest overlap with repetitive sequences (86.5% and 87.6%, respectively, for YH and NA18507), in concordance with previous findings37. Next, we annotated the protein coding genes that overlapped with structural variations as they may have substantial functional consequences owing to the potential dramatic effect of the variations on gene structure. We found 8,784 (NA18507) and 8,642 (YH) genes in the two genomes contain structural variations in their gene body. Of these genes, 233 (NA18507) and 281 (YH) had structural variation in the exon sequences (Supplementary Fig. 6). To evaluate the potentially deleterious consequences of structural variations in genes, we checked the conservation level (dN/dS ratio in a comparison of the human and mouse genomes) of these structural variation–containing genes (Fig. 4a). As expected, more conserved genes showed fewer structural variation events. However, there were 42 and 59 strongly conserved genes (dN/dS ≤ 0.1) that contained structural variations in the YH and NA18507 genomes, respectively. Gene ontology (GO) classifications of these genes showed they belong to ubiquitin, zinc ion binding and nucleus GO categories (Supplementary Table 5). Of further interest, many (47.8%) of the genes whose exons contained a structural variation that could be identified using our de novo assembly-based approach were missing in dbSNP v.130 (http://www.ncbi.nlm.nih.gov), indicating the usefulness of this method for gaining a more comprehensive view of structural variations in the human genome.


Figure 4: Selection pattern of structural variations.





Selection pattern of structural variations.

(a) Conservation level of structural variation-containing genes of YH (red) and NA18507 (blue) genome. Structural variation-containing genes were categorized by dN/dS ratio according to a comparison between the gene sets of human and mouse genomes from UCSC browser. Two sets were aligned by BLAST. Results with e-value < 1e-20 and identity >90 were included. To avoid double counting, the best results were selected from every aligned region for synonymous and nonsynonymous mutation detection. (b) A comparison between the frequency spectrums of identified structural variations and published 1000 Genomes SNP set revealed the excess of very low frequency structural variations. A higher proportion of structural variation (blue) than SNPs (red) is observed at very low frequency.

    Full size image (35 KB)

    Previous figure
    Figures/tables index
Répartition de la population des variations structurales

Les données publiées dans le cadre de l'étude31 1000 Genomes Project pilote nous a fourni une occasion d'évaluer le profil de la population des variations structurales détectées par l'AJ et de NA18507 génomes. Au total, 106 individus ont été disponibles pour le profilage, dont 20 Yoruba d'Ibadan, Nigeria (YRI), 33 d'ascendance européenne, dans l'Utah (CEU), 40 individus Chinois Han de Pékin (CHB) et 13 individus japonais à Tokyo (JPT). Une comparaison du spectre de fréquence de ces variations structurelles de la publication 1000 Genomes mis SNP a montré un excès de basse fréquence structurelles variations31 (figure 4b). Excès similaires ont été observés lors de la comparaison substitutions48 nonsynonymous et synonymes. Ce résultat suggère que les variations structurelles sont plus spécifiques pour les particuliers que les SNP sont des humains. Par ailleurs, les variations structurelles de séquences codantes ont montré une corrélation négative entre leurs effets délétères potentiels (qui sont en corrélation positive avec la longueur de la variation structurelle) et la fréquence entre les trois populations (figure supplémentaire. 7). Ces résultats indiquent que les variations structurelles ont tendance à être sous sélection négative sont plus forts que les SNP.
Population distribution of structural variations

Data released as part of the 1000 Genomes Project pilot study31 provided us with an opportunity to assess the population profile of structural variations detected from the YH and NA18507 genomes. In total, 106 individuals were available for profiling, including 20 Yoruba from Ibadan, Nigeria (YRI), 33 of European ancestry in Utah (CEU), 40 Han Chinese individuals in Beijing (CHB) and 13 Japanese individuals in Tokyo (JPT). A comparison of the frequency spectrum of these structural variations to the published 1000 Genomes SNP set showed an excess of low frequency structural variations31 (Fig. 4b). Similar excesses were observed when comparing nonsynonymous and synonymous substitutions48. This result suggests that structural variations are more specific to individuals than are SNPs in humans. Furthermore, structural variations in coding sequences showed a negative correlation between their potential deleterious effects (which are positively correlated with the length of structural variation) and the frequency among the three populations (Supplementary Fig. 7). These results indicate that structural variations tend to be under stronger negative selection than are SNPs.
Discussion :

Nous avons démontré la faisabilité et le pouvoir d'identifier les variations structurelles dans le génome humain par l'alignement des gapped génome entier assemblées fusil de novo d'un génome de référence. Nous avons conçu une métrique, le ratio S / P, pour réduire le taux de faux positifs.


Nous avons démontré la faisabilité et le pouvoir d'identifier les variations structurelles dans le génome humain par l'alignement des gapped génome entier assemblées fusil de novo d'un génome de référence. Nous avons conçu une métrique, le ratio S / P, pour réduire le taux de faux positifs. En résolvant des réarrangements complexes et de définir des points d'arrêt des variations structurales, nous avons été en mesure de fournir une carte relativement objective de ce type plus réfractaires de la variation génétique dans les deux génomes humains. Cette capacité devrait faciliter l'étude des variations structurelles et leur influence sur l'évolution du génome et la biologie. Une grande partie des variations structurelles et les modèles identifiés ici, en particulier celles qui se produisent dans les gènes, n'ont pas été détectés dans des études antérieures utilisant les mêmes génomes. Cela confirme la nécessité d'évaluer et d'étudier les variations structurelles en utilisant une méthode de montage du génome entier.

Des simulations de calcul et la validation expérimentale suggère que nos résultats sont exacts et que l'assemblage de novo peut identifier les variations structurelles d'un large éventail de longueurs en comparaison avec les méthodes précédentes. Les cartes de variation structurelle du génome humain nous ont permis d'abord de caractériser les modes de génomique des variations structurales et leur relation avec une variété de caractéristiques génomiques. Bon nombre des observations, par exemple, l'échelle du génome de distribution ou des analyses canoniques des gènes et des transposons, d'accord avec nos attentes antérieures basées sur l'impact potentiel fonctionnel des variations structurales.

Nos cartes variation structurelle sont encore incomplètes à plusieurs égards. Tout d'abord, nous n'avons pas l'accent sur les variations structurelles hétérozygotes dans cette étude car actuellement disponibles sur le génome entier de méthodes de montage novo ne peut pas reconstruire les haplotypes. Notamment, la maladie causant les variations structurelles sont plus susceptibles d'être hétérozygote (par exemple, des mutations somatiques dans les échantillons de cancer). Algorithmes capable d'assembler diploïde ou même polyploïde génomes serait étendre l'applicabilité de notre approche. Deuxièmement, nous avons été incapables d'identifier les variantes dans des séquences hautement répétitives, comme le montre les données simulées et réelles, en grande partie parce que ces régions ne pouvaient être assemblés. A l'heure actuelle, il est conseillé d'appliquer une combinaison de différentes approches pour la plupart complètement identifier les variations structurelles. Mais nous pensons que notre alignement et des stratégies de filtrage pour l'identification des variations structurelles devrait être directement applicable à une meilleure assemblées qui résultent de l'amélioration des techniques de séquençage et d'algorithmes de montage, ce qui pourrait s'avère être la méthode optimale pour déterminer la variation structurelle.

Notre observation suggère que les variations structurelles sont plus spécifiques pour les particuliers que les SNP sont. Ainsi, la définition des variations structurales seront d'une importance considérable pour de futures analyses des génomes personnels, comme des variations de structure peut expliquer les différences phénotypiques entre individus. Nos résultats suggèrent que la conception des futurs études de génomique médicale et de la réalisation de «médecine personnalisée» nécessitera un examen de tous les différents types de variations génétiques et de leurs effets sur la maladie et d'autres phénotypes. Le biais réduit de notre approche et sa capacité à résoudre les points d'arrêt justement variation structurelle, en comparaison avec les méthodes de cartographie basé sur reséquençage, soulignent la nécessité d'assembler de novo de nombreux génomes plus humain dans l'avenir.

Discussion :

We have demonstrated the feasibility and power of identifying structural variations in the human genome by gapped alignment of whole-genome shotgun de novo assemblies to a reference genome. We devised a metric, the S/P ratio, to reduce the false-positive rate.

By solving complex rearrangements and defining breakpoints of structural variations, we were able to provide a relatively unbiased map for this more refractory type of genetic variation in two human genomes. This capability should facilitate the study of structural variations and their influence on genome evolution and biology. A large portion of the structural variations and patterns identified here, especially those that occur in genes, have not been detected in previous studies using the same genomes. This supports the need to assess and study structural variations using a whole-genome assembly method.

Computational simulations and experimental validation suggest that our results are accurate and that de novo assembly can identify structural variations of a wider range of lengths in comparison with previous methods. The structural variation maps of the human genomes have enabled us to initially characterize the genomic patterns of structural variations and their relationship with a variety of genomic features. Many of the observations, for example, genome-wide distribution or canonical analyses of genes and transposons, agree with our prior expectation based on the potential functional impact of structural variations.

Our structural variation maps are still incomplete in several ways. First, we did not focus on heterozygous structural variations in this study because currently available whole-genome de novo assembly methods cannot reconstruct haplotypes. Notably, disease-causing structural variations are more likely to be heterozygous (e.g., somatic mutations in cancer samples). Algorithms capable of assembling diploid or even polyploid genomes would extend the applicability of our approach. Second, we were unable to identify variants in highly repetitive sequences, as shown in both simulated and real data, largely because these regions could not be assembled. At present, it is advisable to apply a combination of different approaches to most comprehensively identify structural variations. But we expect that our alignment and filtering strategies for structural variation identification should be directly applicable to better assemblies that result from improved sequencing technologies and assembly algorithms, potentially proving to be the optimal method to determine structural variation.

Our observation suggests that structural variations are more specific to individuals than SNPs are. Thus, defining structural variations will be of considerable importance for future analyses of personal genomes, as structural variations may underlie phenotypic differences between individuals. Our results suggest that the design of future medical genomics studies and the realization of 'personalized medicine' will require consideration of all the different kinds of genetic variations and their effects on disease and other phenotypes. The reduced bias of our approach and its ability to precisely resolve structural variation breakpoints, in comparison with mapping-based resequencing methods, highlight the need to assemble de novo many more human genomes in the future.
Méthodes :
Les données publiques utilisées.

Le NCBI humaine de référence du génome (NCBI36), l'ARNm RefSeq, V.130 dbSNP et des séquences protéiques ont été téléchargées de la base de données NCBI (http). HuRef Assemblée ont été téléchargés à partir http://huref.jcvi.org/. Séquences de protéines et les annotations ont été téléchargées de la base de données UniProt (http://www.uniprot.org/downloads). Lire des séquences de l'échantillon NA18507 ont été fournis par Illumina, qui est également accessible au public dans les Archives NCBI court Read (SRA000271 numéro d'accession).

Nous avons pré-alignés tous les échafaudages montés à l'NCBI36 par BLAT49 V. 30 avec le fastMap-et-maxIntron = 50 options activées. Chaque frappé indique un alignement possible entre un chromosome et échafaud; échafaudages qui pré-alignés sur les chromosomes identiques sont regroupés comme des ensembles échafaud. Ces ensembles ont été alignés sur les chromosomes correspondants par une version modifiée de LASTZ32 basée sur V1.01.50, avec notation du segment haut de paires option de chaînage, de traitement ambigus 'N' et sans interstices de tolérance d'extension jusqu'à 50 kbp options activées. Échafaudages avec aucune frappe dans la pré-alignement ont été alignés sur le génome humain de référence entière avec les mêmes options. Lacunes improprement prédit dans l'assemblage, les déséquilibres et trois types d'erreurs d'alignement complexes ont été corrigées. Avec les alignements corrects, le meilleur hit de chaque emplacement sur les chromosomes a été choisi par l'utilitaire "axtBest" 33 basé sur un algorithme de programmation dynamique, avec la matrice même substitution adoptées dans l'alignement. Nous avons ensuite sélectionné les hits les plus contribuer à la co-linéarité entre un échafaudage et un chromosome si deux ou plusieurs alignements se chevauchent au même locus dans un chromosome. Pour garantir cela, chaque paire de base dans la référence doit être utilisée plus d'une fois. Ces frappe meilleur alignement avec les extensions gapped comprennent insertions (brèche ouverte dans la référence depuis le génotype correspondant existe dans échafaudage) et suppressions (et vice versa). Code source du logiciel pour la détection des variantes structurelles est disponible au (Données supplémentaires Set 1, http://soap.genomics.org.cn ou http://yh.genomics.org.cn/download.jsp, point 17).


Validation des variations structurales.
Methods :
Public data used.


The NCBI human reference genome (NCBI36), RefSeq mRNA, dbSNP v.130 and protein sequences were downloaded from the NCBI database (http://www.ncbi.nlm.nih.gov). HuRef assembly were downloaded from http://huref.jcvi.org/. Protein sequences and annotations were downloaded from the UniProt database (http://www.uniprot.org/downloads). Read sequences of sample NA18507 were provided by Illumina, which is also publicly available in the NCBI Short Read Archive (accession number SRA000271).
Identification of structural variations.

We pre-aligned all assembled scaffolds to NCBI36 by BLAT49 V. 30 with the –fastMap and -maxIntron = 50 options enabled. Each hit indicates a possible alignment between a chromosome and scaffold; scaffolds that pre-aligned to identical chromosomes are grouped as scaffold sets. These sets were aligned to corresponding chromosomes by a modified version of LASTZ32 based on V1.01.50, with high-scoring segment pairs chaining option, ambiguous 'N' treatment and gap-free extension tolerance up to 50 kbp options enabled. Scaffolds with no hits in pre-alignment were aligned to the whole human reference genome with the same options. Inaccurately predicted gaps in assembly, misalignments and three types of complex alignment errors were corrected. With correct alignments, the best hit of every single location on chromosomes was chosen by the utility “axtBest”33 based on a dynamic-programming algorithm, with the same substitution matrix adopted in alignment. We then selected the hits contributing most to the co-linearity between a scaffold and a chromosome if two or more alignments overlap at the same locus in a chromosome. To guarantee this, each base pair in the reference should be used no more than once. These best alignment hits with gapped extensions include insertions (gap opened in reference since corresponding genotype exists in scaffold) and deletions (vice versa). Software source code for structural variant detection is available at (Supplementary Data Set 1, http://soap.genomics.org.cn or http://yh.genomics.org.cn/download.jsp, item 17).
Validation of structural variations.
Variations structurelles identifiées et classées selon une combinaison des deux approches.

Pour les événements de la variation structurelle ≤ 50 pb. Alignements Gapped de tous disponibles lectures de YH et NA18507 d'NCBI36 ont été réalisées par BWA en utilisant les paramètres qui interdisaient toute lacune> 50 pb. Loci candidats ont été extraites avec 150 séquences flanquant pb NCBI36. En particulier, les génotypes des insertions ont été insérés dans les séquences extraites d'abord. Par conséquent, pour une insertion d'être validée, un locus candidat devrait être alignée, sans lacunes ouvertes, et pour une suppression, les lacunes devraient être ouvertes avec la longueur et le génotype en concordance avec les prévisions. Nous avions besoin d'au moins quatre lectures pour nous faire suffisamment confiance d'un locus candidat.

Pour les événements de la variation structurelle> 50 pb. Le ratio S / P est défini comme le rapport entre normalement alignés et unique fin aligné lit d'une seule base dans l'alignement par paires. Court insérez-la taille jumelé lit-end de l'AJ et de NA18507 génome ont été alignés sur le génome humain de référence NCBI et leur assemblage, respectivement, par SOAPaligner50. S / P ratios ont été extraits à partir des résultats produits par l'alignement SOAPcoverage (un utilitaire du package SOAP, disponible à http://soap.genomics.org.cn). Afin d'évaluer l'ensemble S / P de chaque variation structurelles identifiées, nous avons calculé le nombre de paires de gamme mappé lit qui avait prévu l'orientation et insérez la taille (définie comme étant jumelé-end lectures) et ceux qui avaient une orientation inattendue et insérez la taille (défini comme single-ended lit, mais étaient à l'origine de la bibliothèque paired-end) dans les deux régions de 50 pb flanquant de chaque variation structurelle. Puis nous avons calculé la valeur P en effectuant le test exact de Fisher pour tester si le ratio S / P de chaque variation structurelle et le ratio S / P de l'ensemble du génome sont significativement différentes. Ces variations structurelles avec une longueur de plus de trois fois l'écart-type (À noter que la carte SD peut varier avec la différence des protocoles de séquençage de la construction de la bibliothèque) de l'insert de taille (environ 30 pb-dix paires de base multiplié par trois SD-200 pb insérez-la taille de la bibliothèque) sont classés comme validés lorsque (i ) la valeur P <0,05, et (ii) leur profondeur sont concordants avec leur type. Une variation structurelle avec une longueur de moins de 3 fois le SD de la taille d'insérer serait évalué uniquement par sa profondeur. La profondeur moyenne entre deux points d'une suppression de référence ou une insertion dans l'assemblage ont également été calculés. Suppressions avec une profondeur moyenne de moins d'un demi de la profondeur moyenne du génome de référence entière et insertions avec une profondeur moyenne sur une moitié de la profondeur moyenne de toute l'assemblée serait défini comme S / P validé.

Séquences fosmide ont également été utilisés pour valider nos résultats variation structurelle (séquences du génome fosmide YH disponible à http://yh.genomics.org.cn). Premièrement, nous avons aligné les séquences du génome fosmide nous avons assemblé à l'aide LASTZ, dont les résultats indiquent la concordance entre le génome assemblée assemblage de novo et local. Assemblée locale gagnerait moins d'interférence de séquences paralogues, qui produisent dominante MIS-assemblage dans l'assemblage du génome entier de novo. Nous avons ensuite sélectionné celles qui avaient aligné fosmides régions qui se chevauchent avec des variations structurales identifiées. Une variation structurelle serait défini comme validée si: (i) le fosmide (y compris la variation structurelle) a été aligné linéairement avec la référence, (ii) les points d'arrêt de la variation structurelle définie par les deux fosmide et le génome entier d'assemblage ont été concordants et (iii) les séquences de 50 pb flanquant de la variation structurelle dans le fosmide était> 90% identiques à ceux de l'ensemble du génome de l'Assemblée.

Identified structural variations are classified according to a combination of two approaches.

For structural variation events ≤50 bp. Gapped alignments of all available reads of YH and NA18507 to NCBI36 were performed by BWA using settings that prohibited any gaps >50 bp. Candidate loci were extracted with flanking 150 bp sequences in NCBI36. In particular, genotypes of insertions were inserted into the extracted sequences first. Therefore, for an insertion to be validated, a candidate locus should be aligned without gaps opened, and for a deletion, gaps should be opened with length and the genotype in concordance with predictions. We required at least four reads to make us confident enough of a candidate locus.

For structural variation events >50 bp. The S/P ratio is defined as the ratio between normally aligned and single-end aligned reads of a single base in pair-wise alignment. Short insert-size paired-end reads of the YH and NA18507 genome were aligned to the NCBI human reference genome and their assembly, respectively, by SOAPaligner50. S/P ratios were extracted from the alignment results produced by SOAPcoverage (a utility of SOAP package, available at http://soap.genomics.org.cn). To evaluate the overall S/P ratio of each identified structural variation, we calculated the number of mapped paired-end reads that had the expected orientation and insert size (defined as paired-end reads) and those that had an unexpected orientation and insert size (defined as single-ended reads, but were originally from the paired-end library) in both 50-bp flanking regions of each structural variation. Then we calculated the P-value by performing Fisher's exact test to test whether the S/P ratio of each structural variation and the S/P ratio of the whole genome are significantly different. Those structural variations with length over three times the s.d. (note that the s.d. may vary with difference sequencing library construction protocols) of the insert-size (about 30 bp—ten-base-pair s.d. multiplied by three—for 200-bp insert-size library) are classified as validated when (i) the P-value < 0.05; and (ii) their depths are concordant with their type. A structural variation with a length under 3 times the s.d. of the insert size would be evaluated only by its depth. The average depths between two breakpoints of a deletion in reference or an insertion in assembly were also calculated. Deletions with average depth under a half of the average depth of the whole reference genome and insertions with average depth over a half of the average depth of the whole assembly would be defined as S/P ratio validated.

Fosmid sequences were also used to validate our structural variation results (Fosmid sequences of YH genome available at http://yh.genomics.org.cn). First, we aligned the Fosmid sequences to the genome we assembled using LASTZ, the results of which indicate the concordance between whole genome de novo assembly and local assembly. Local assembly would gain less interference from paralogous sequences, which dominantly produce mis-assembly in whole genome de novo assembly. We then selected those Fosmids that had aligned regions overlapping with identified structural variations. A structural variation would be defined as validated if: (i) the Fosmid (including the structural variation) was linearly aligned with the reference; (ii) the breakpoints of the structural variation defined by both Fosmid and whole-genome assembly were concordant; and (iii) the 50-bp flanking sequences of the structural variation in the Fosmid were >90% identical to those in whole-genome assembly.


Simulation des variations structurelles.

Nous avons simulé 5000 indels homozygote variant de 1 à 50 kbp à des loci aléatoires (incluant les régions avec des séquences répétitives) dans l'assemblage HuRef chromosome 17. Nous avons choisi avec une probabilité égale entre une insertion ou de suppression, et la distribution de longueur des indels simulé a été déterminée observations suivantes rapporté dans une étude précédente sur NA18507 (réf. 19). Chaque base de séquences insérées avait une possibilité égale d'être l'une des quatre bases. SNP ont également été introduites à une fréquence de 0,1%.

Nous avons ensuite généré cinq sets (au total 50 × la couverture) de simulation jumelé lit-end avec des longueurs de lecture de 35 pb. Moyenne tailles insertion des paires de lire ont été prises à partir d'ensembles typiques de véritables jumelé les données de fin de la Genome Analyzer d'Illumina, y compris (i) 210 pb, sd 10 pb (20 x), (ii) 517 pb, s.d. 19 pb (10 x), (iii) 2 522 pb, s.d. 201 pb (10 x), (iv) 6036 pb, s.d. 230 pb (5 ×) et (v) 9588 pb, s.d. 636 pb (5 ×). Pour toutes les lectures, nous avons pris des ensembles de valeurs de qualité de base d'une étude antérieure sur les NA18507 (réf. 19) et introduit des erreurs de substitution aléatoire dans la simulation se lit au rythme de valeurs assignées de la qualité de base.

Lit simulés sont ensuite assemblés et analysés par notre approche. Les faux positifs sont définies comme étant celles des événements variation structurelle identifiées et validées dans l'ensemble de la variation structurelle finale, mais pas dans la liste des simulé les variations structurelles. Les faux négatifs sont définies comme étant celles des événements simulés nous n'avons pas pu identifier ou de valider dans l'ensemble de la variation structurelle finale. Faux négatifs ont été extraites avec 50 pb des séquences flanquantes et masqués par RepeatMasker avec le paramètre "-s" est activé. Ces cas plus de la moitié des bases masquée par RepeatMasker sont définis comme «contenait des éléments répétitifs."
Simulation of structural variations.

We simulated 5,000 homozygous indels ranging from 1 to 50 kbp at random loci (including regions with repetitive sequences) in HuRef assembly chromosome 17. We chose with equal probability between an insertion or deletion, and the length distribution of simulated indels was determined following observations reported in a previous study on NA18507 (ref. 19). Each base in inserted sequences had an equal possibility to be one of the four bases. SNPs were also introduced at a frequency of 0.1%.

We then generated five sets (total 50× coverage) of simulated paired-end reads with read lengths of 35 bp. Mean insert sizes of the read pairs were taken from typical sets of real paired-end data from the Illumina Genome Analyzer, including (i) 210 bp, s.d. 10 bp (20×); (ii) 517 bp, s.d. 19 bp (10×); (iii) 2,522 bp, s.d. 201 bp (10×); (iv) 6,036 bp, s.d. 230 bp (5×); and (v) 9,588 bp, s.d. 636 bp (5×). For all reads, we took sets of base quality values from a previous study on NA18507 (ref. 19) and introduced random substitution errors into the simulated reads at the rate of assigned base quality values.

Simulated reads are then assembled and analyzed by our approach. False positives are defined as those structural variation events identified and validated in the final structural variation set but not in the list of simulated structural variations. False negatives are defined as those simulated events we could not identify or validate in the final structural variation set. False-negative cases were extracted with 50-bp flanking sequences and masked by RepeatMasker with parameter “-s” enabled. Those cases with over half of the bases masked by RepeatMasker are defined as “contained repetitive elements.”

Profilage de la population des variations structurales.

Lit Raw ont été téléchargés à partir du projet 1000 génomes (ftp://ftp.1000genomes.ebi.ac.uk et ftp://ftp-trace.ncbi.nih.gov/1000genomes/), qui a ensuite été aligné sur le NCBI36 et l'AJ et de NA18507 assemblés échafaudages. Pour être défini comme une variation structurelle dans une séquence d'insertion, nous avons demandé qu'au moins une lecture a été aligné dans les points de rupture d'une variante particulière de structure à l'échafaud, et que la séquence insérée gagné une couverture> 80%. Pour être défini comme une variation structurelle dans une séquence de suppression, nous avons demandé qu'au moins une lecture a été observée à travers le point d'arrêt de la variation structurelle à l'échafaud, et que les séquences supprimées dans NCBI36 ont été alignées avec une couverture <20%.
Comparative des expériences d'hybridation génomique array (CGH) et de l'analyse.

Nous analysé l'échantillon en utilisant YH Agilent Technologies standard de 244K CGH arrays, en utilisant à la fois local échantillon anonyme féminin et un ADN de référence commun humaines de Promega Un total de trois expériences de CGH array ont été réalisées:

  • L'échantillon de référence par rapport YH anonyme.
  • L'échantillon YH et femelles de l'échantillon Promega.
  • De référence anonymes ou Promega échantillon féminin.

En comparant l'aberration listes générées par les trois expériences par Agilent CGH array logiciels "d'analyse de l'ADN,« nous avons déterminé quels variations du nombre de copie (CNV) étaient susceptibles d'être dans l'échantillon YH (plutôt que d'être dans l'un ou l'autre de la référence échantillons). Cela a donné une liste de 144 CNV, composé de 42 multi-sondes et 102 mono-sonde aberrations (Données supplémentaires Set 2 Notes supplémentaires, et la figure supplémentaire. 8).
Population profiling of structural variations.

Raw reads were downloaded from the 1000 genomes project (ftp://ftp.1000genomes.ebi.ac.uk and ftp://ftp-trace.ncbi.nih.gov/1000genomes/), which then were aligned to the NCBI36 and the YH and NA18507 assembled scaffolds. To be defined as an structural variation in an insertion sequence, we required that at least one read was aligned across the breakpoints of a particular structural variation at the scaffold and that the inserted sequence gained coverage >80%. To be defined as an structural variation in a deletion sequence, we required that at least one read was observed across the breakpoint of structural variation at the scaffold and that the deleted sequences in NCBI36 were aligned with coverage <20%.
Comparative genomic hybridization (CGH) array experiments and analysis.

We assayed the YH sample using Agilent Technologies standard 244K CGH arrays, using both a local anonymous female sample and a pooled human DNA reference from Promega (http://www.promega.com/country.aspx?returnurl=http://www.promega.com/products/biochemicals-and-labware/nucleic-acids/genomic-dna/). A total of three array CGH experiments were carried out:

    YH sample versus anonymous reference.
    YH sample versus female Promega sample.
    Anonymous reference versus female Promega sample.

By comparing the aberration lists generated from the three experiments by Agilent CGH array software “DNA analytics,” we determined which copy number variations (CNV) were likely to be in the YH sample (as opposed to being in one or the other of the reference samples). This gave a list of 144 CNVs, consisting of 42 multi-probe and 102 single-probe aberrations (Supplementary Data Set 2, Supplementary Notes and Supplementary Fig. 8).

Codes d'adhésion :

DDBJ / EMBL / GenBank: ADDF000000000 (YH) et DAAB000000000 (NA18507). Les versions décrites dans ce document sont les premières versions, ADDF010000000 (YH) et DAAB010000000 (NA18507). NCBI: séquençage du génome lit de YH, NCBI court Lire Archive SRA009271. Les génomes assemblés et toutes les analyses associées sont disponibles gratuitement au http://yh.genomics.org.cn/



Codes d'accession

Références des acessions


GenBank

    SRA000271
    ADDF000000000
    DAAB000000000 (NA18507)
    ADDF010000000
    DAAB010000000 (NA18507)

Séquence de lecture Archives

    SRA009271

Références
Remerciements
Auteur d'information

Les principaux auteurs :


    Ces auteurs ont contribué également à ce travail.
        Yingrui Li,
        Hancheng Zheng,
        Ruibang Luo &
        Honglong Wu


Affiliation [des auteurs secondaires] :

    BGI-Shenzhen, Shenzhen, en Chine
  • Yingrui Li
  • i
  • i
  • i
  • etc
Accession codes.

DDBJ/EMBL/GenBank: ADDF000000000 (YH) and DAAB000000000 (NA18507). The versions described in this paper are the first versions, ADDF010000000 (YH) and DAAB010000000 (NA18507). NCBI: sequencing reads of YH genome, NCBI Short Read Archive SRA009271. The assembled genomes and all of the associated analyses are freely available at http://yh.genomics.org.cn/.

Accession codes

Referenced accessions
GenBank

    SRA000271
    ADDF000000000
    DAAB000000000 (NA18507)
    ADDF010000000
    DAAB010000000 (NA18507)

Sequence Read Archive

    SRA009271

References
Acknowledgments
Author information
     Primary authors


    These authors contributed equally to this work.
        Yingrui Li,
        Hancheng Zheng,
        Ruibang Luo &
        Honglong Wu

Affiliations

    BGI-Shenzhen, Shenzhen, China.