Séquence du génome entier et analyse de la race de chevaux Marwari et de son origine génétique

L'ADN génomique a été obtenu à partir d'un échantillon de sang d'un cheval Marwari mâle (17 ans). A été séquencé à l'aide d'un séquenceur Illumina HiSeq2000. Un total de 112 Go de données de séquences appariées ont été produits avec une longueur de lecture de 100 pb et des tailles d'insert de 456 et 462 pb à partir de deux bibliothèques génomiques (Fichier supplémentaire 2 : Figure S1, Figure S2). Un total de 1 013 642 417 lectures sont restés après filtrage, et 993 802 097 lectures ont été mappées sur le génome de référence du cheval (EquCab2.0 de la base de données Ensembl) avec un taux de mappage de 98,04 %. (Fichier supplémentaire 2 : Figure S3, Figure S4). Au total, 133 091 136 lectures ont été identifiées comme des doublons et ont été supprimées des analyses ultérieures (Fichier supplémentaire 1 : Tableau S1). Pour améliorer la qualité du mappage, nous avons appliqué l'algorithme IndelRealigner aux lectures dédupliquées. Au total, 44 835 563 (5,2 %) lectures ont été réalignées, et la qualité de mappage moyenne est passée de 53,11 à 53,16 (de 29,33 à 43,32 dans les lectures réalignées). L'ensemble des séquences du génome couvrait 95. 6 % du génome de référence à 10 × ou plus de profondeur.

Pour identifier de nouvelles séquences génomiques, nous avons effectué un assemblage de novo en utilisant les lectures non mappées (1,8 Gb) sur le génome de référence du cheval. Un total de 120 159 contigs (24 781 670 bases de longueur et 227 pb de taille de contig N50) ont été assemblés. Après avoir cartographié les contigs sur le génome de référence, nous avons constaté que 25 614 contigs (4 855 119 bases de longueur et 196 pb de taille de contig N50) ne correspondaient pas aux séquences de référence ; indiquant qu'il peut s'agir de nouvelles régions spécifiques à la race de cheval Marwari (Fichier supplémentaire 1 : Tableau S2). Pour identifier les fonctions biologiques de ces nouvelles régions, les contigs non appariés ont été analysés plus avant par des recherches BLAST à l'aide de la base de données de protéines NCBI. Cependant, aucun des contigs ne correspondait de manière significative à la base de données de protéines connue (Fichier supplémentaire 2 : Figure S5).

En comparant la séquence de Marwari au génome de référence, environ 5,9 millions de SNV et 0,6 million d'indels ont été identifiés (tableau 1). Les estimations du taux de SNP et de l'hétérozygotie du Marwari étaient similaires à celles d'autres races de chevaux (arabe, islandais, norvégien du fjord, quarter, standardbred et pur-sang) (fichier supplémentaire 1 : tableau S3). Nous avons évalué la fréquence mutationnelle au niveau d'un seul nucléotide chez le Marwari. Comparé aux estimations d'autres races (Fichier supplémentaire 1 Tableau S4). Fait intéressant, nous avons constaté que les types de mutation prévalents n'étaient pas cohérents entre les races de chevaux. Le spectre de mutation du Marwari était dominé par les transitions C>T (G>A) ; un modèle qui a également été observé chez les chevaux islandais, norvégiens du fjord et Quarter Horse. À l'inverse, les génomes des chevaux Arabes, Standardbred et Thoroughbred étaient dominés par les transitions A>G (T>C). Une association significative entre le spectre de mutation et la race de cheval (valeur p < 0. 001) a été trouvée lorsque nous avons appliqué un test du chi carré utilisant SPSS [14] pour comparer statistiquement les différences dans les spectres de mutation entre les races.

Le génome de Marwari se composait de 2 383 702 (40,2 %) homozygotes et 3 539 864 (59,8 %) hétérozygotes SNV (tableau 1). Parmi eux, 18 195 se sont avérés être des SNV non synonymes (nsSNV). Lorsque les variantes Marwari ont été comparées à celles précédemment rapportées à partir des génomes d'autres races [4, 6] et de la base de données SNP de chevaux du Broad Institute, 1 577 725 SNV et 249 609 indels étaient de nouvelles variantes. Parmi ceux-ci, 4 716 variantes (4 413 nsSNV et 303 indels dans les régions codantes) représentaient des changements d'acides aminés qui ont été trouvés dans 2 770 gènes (2 584 gènes avec nsSNV, 279 gènes avec indels dans les régions codantes et 93 gènes avec nsSNV et indels dans les régions codantes simultanément ). Pour annoter les variantes à l'aide de bases de données fonctionnelles bien connues, des orthologues humains ont été récupérés à partir de l'utilitaire Ensembl BioMart. Au total, 1 970 des 2 770 gènes avaient des orthologues humains et 1 896 gènes ont été annotés à l'aide de la ressource DAVID Bioinformatics 6.7 [15]. Les gènes avec nsSNVs et/ou indels dans les régions codantes étaient fortement enrichis en fonctions olfactives (Fichier supplémentaire 1 : Tableaux S5 et S6).

Les variations du nombre de copies (CNV) ont été identifiées à l'aide de la bibliothèque R "ReadDepth package" [16]. Au total, 2 579 CNV, dont 869 blocs de gain et 1 710 blocs de perte, ont été identifiés dans le génome de Marwari. Les tailles allaient de 3 Ko à 6,43 Mo avec une longueur moyenne de 56 Ko. La région CNV (140 Mo de longueur) contenait 2 504 gènes qui ont été dupliqués (1 138 gènes) ou supprimés (1 366 gènes) (Fichier supplémentaire 1 : Tableau S7). À partir de l'analyse d'enrichissement fonctionnel, nous avons constaté que les gènes dupliqués étaient enrichis en fonction olfactive, tandis que les gènes supprimés étaient enrichis en régulation immunitaire et processus métaboliques (Fichier supplémentaire 1 : tableau S8, tableau S9, tableau S10 et tableau S11).

Lien avec d'autres races de chevaux

Nous avons construit un arbre phylogénétique en utilisant les SNV trouvés dans l'ensemble des données du génome des sept races de chevaux (arabe, islandais, marwari, norvégien du fjord, Quarter, Standardbred et Thoroughbred) [4, 6]. Nous avons identifié 11 377 736 positions de nucléotides couramment trouvées dans les sept génomes du cheval. Au total, 25 854 positions de nucléotides ont été utilisées pour l'analyse phylogénétique après filtrage de la fréquence des allèles mineurs (MAF), du taux de génotypage et du déséquilibre de liaison (LD). Nous avons constaté que le cheval Marwari est le plus étroitement lié à la race arabe (Fichier supplémentaire 2 : Figure S6), tandis que le cheval islandais et le cheval norvégien du fjord étaient les plus distincts des autres races, qui sont toutes connues pour descendre de chevaux arabes [ 17, 18].

Pour explorer davantage les relations entre les races, nous avons comparé les données du génome du cheval Marwari avec les données du tableau SNP de 729 chevaux individuels appartenant à 32 races domestiques [13]. Au total, 54 330 positions de nucléotides ont été partagées entre tous les individus, y compris le cheval Marwari. Après élagage comme décrit ci-dessus, 10 554 positions de nucléotides ont été utilisées pour les analyses comparatives. Nous avons calculé les distances génétiques par paires et effectué une mise à l'échelle multidimensionnelle (MDS) pour visualiser les relations entre les races de chevaux (Figure 1). Le cheval Marwari est tombé avec les races de la lignée ibérique, telles que les races de chevaux andalous, Mangalarga Paulista, Péruvienne Paso et Morgan, qui sont toutes connues pour avoir une ascendance arabe [19-22]. De plus, nous avons constaté que le cheval Marwari se situait entre les chevaux arabes et mongols, indiquant leur double influence génétique sur le cheval Marwari comme suggéré précédemment [8-10].

Diagramme d'échelle multidimensionnel dérivé d'un cheval Marwari et d'autres races de chevaux. La flèche noire indique le cheval Marwari.

Nous avons appliqué le programme STRUCTURE [23, 24] pour estimer la composition génétique des races de chevaux asiatiques dont le cheval Marwari. Pour les groupes K = 2, les chevaux arabes étaient fortement séparés des chevaux mongols, et la composition génétique du cheval Marwari était composée d'allèles regroupés à la fois avec le cheval mongol (65,8 %) et le cheval arabe (34,2 %) (Figure 2). D'autres races asiatiques (Akhal Teke, Caspian et Tuva) ont également montré un mélange génétique entre les chevaux arabes et mongols. De K = 3 à K = 5, les Marwari avaient des composants génétiques élevés des chevaux arabes et mongols, tandis que les chevaux Akhal Teke et Caspian étaient principalement affectés à d'autres groupes. Ces résultats indiquent que le Marwari est génétiquement étroitement lié aux chevaux arabes et mongols. Il n'est pas clair si cette dernière relation représente un apport génétique direct des chevaux mongols ou si ces chevaux sont la population la plus proche des poneys indiens dont on pense que le Marwari est descendu [8-10]. Une analyse plus approfondie incluant les poneys indiens et les chevaux Marwari sera nécessaire pour distinguer l'importance relative de ces deux scénarios, qui ne s'excluent pas mutuellement.

Analyse de STRUCTURE utilisant des races de chevaux Marwari et asiatiques. Pour toutes les valeurs K, le Marwari a des affinités génétiques avec les chevaux arabes (bleu) et mongols (orange).

Association phénotypique des variants identifiés

Pour donner un aperçu des phénotypes uniques de Marwari, nous avons étudié les changements d'acides aminés spécifiques à cette race par rapport à ceux d'autres races (arabe, islandais, norvégien Fjord, Quarter, Standardbred et Thoroughbred). Un total de 343 changements d'acides aminés dans 236 gènes étaient uniques au cheval Marwari. Parmi les 236 gènes, 75 gènes comprenaient un ou plusieurs changements d'acides aminés prédits par le programme PolyPhen2 pour altérer la fonction des protéines [25] (Fichier supplémentaire 1 : Tableau S12). Fait intéressant, le gène teashirt zinc finger family membre 1 (TSHZ1) avait un variant p.Ala344>Val homozygote (figure 3). TSHZ1 est impliqué dans la régulation transcriptionnelle des processus de développement et est associé à une atrésie congénitale de l'oreille chez l'homme, une malformation de l'oreille survenant dans environ 1 naissance sur 10 000 [26, 27]. De plus, les souris déficientes en TSHZ1 présentent des malformations au niveau des composants de l'oreille moyenne [28]. Par conséquent, le changement d'acide aminé A334V dans TSHZ1 est un candidat solide en tant que facteur génétique responsable des embouts auriculaires tournés vers l'intérieur caractéristiques de la race Marwari. Une future comparaison génomique avec le cheval Kathiawari, qui a également des embouts auriculaires tournés vers l'intérieur, pourrait étayer cette prédiction.

Alignement partiel des séquences d'acides aminés de TSHZ1 parmi les races de chevaux et les espèces de vertébrés. Le rectangle rouge indique un changement d'acide aminé spécifique au cheval Marwari (A344V). Les rectangles gris et bleu indiquent respectivement une région riche en Ser et des doigts en zinc.

Après avoir annoté les variantes Marwari pour leurs informations connues sur la maladie et les traits [26-55] (tableau 2), nous avons constaté que cette race a une variante homozygote pour la mutation g.27991841A>G dans le gène SCL26A2, qui provoque une chondrodysplasie autosomique récessive chez équine. D'autres variantes étaient associées à l'endurance de course chez les chevaux pur-sang (g.32772871C>T dans COX4I1, g.40279726C>T dans ACN9), la taille du cheval (g.81481065C>T dans HMGA2, g.23259732G>A dans LASP1) et le modèle de locomotion (g.22999655C>A dans DMRT3).

Sélection dans la lignée des équidés

Nous avons évalué les signatures de sélection dans la lignée équine en utilisant le rapport d N /d S (substitutions non synonymes par site non synonyme sur substitutions synonymes par site synonyme) [56]. Une séquence consensus de cheval (équidé) a été construite en intégrant tous les génomes de race disponibles (arabe, islandais, marwari, fjord norvégien, quarter, standardbred et pur-sang) dans le but de supprimer la spécificité de la race et d'inclure une composante de race asiatique via le l'héritage d'Asie centrale des Marwari (contrairement aux races d'Eurasie occidentale pour lesquelles des génomes entiers avaient été précédemment séquencés). Au total, 7 711 des 22 305 gènes du génome de référence du cheval ont été remplacés par les séquences consensus. En utilisant les séquences protéiques de sept génomes non équidés (chameau, porc, vache, petit rorqual, chien, souris et humain), 5 459 familles de gènes orthologues ont été construites à l'aide d'OrthoMCL [57]. En utilisant des alignements de ces familles de gènes pour estimer d N /d S, nous avons identifié 188 gènes en cours de sélection dans le génome du cheval (Fichier supplémentaire 1 : Tableau S13). Les gènes sélectionnés étaient particulièrement enrichis en réponse immunitaire (processus effecteur immunitaire, immunité à médiation leucocytaire, régulation positive du processus du système immunitaire et réponse de défense) et en capacités motrices possibles (tubule en T, contraction musculaire et régulation de la contraction cardiaque) fichier 1 : tableau S14). Au fil du temps évolutif, le cheval a développé une vitesse accrue et sa musculature s'est spécialisée pour des foulées efficaces [58, 59]. Il est donc possible que les gènes associés à l'activité motrice que nous avons identifiés comme étant soumis à une sélection positive aient contribué à l'efficacité musculaire observée chez les chevaux modernes.