Chromosome-scale assemblies of plant genomes using nanopore long reads and optical maps.

Caroline Belser, Benjamin Istace, Erwan Denis, Marion Dubarry, Franc-Christophe Baurens, Cyril Falentin, Mathieu Genete, Wahiba Berrabah, Anne-Marie Chèvre, Régine Delourme, Gwenaëlle Deniot, France Denoeud, Philippe Duffé, Stefan Engelen, Arnaud Lemainque, Maria Manzanares-Dauleux, Guillaume Martin, Jérôme Morice, Benjamin Noel, Xavier Vekemans, Angélique D'Hont, Mathieu Rousseau-Gueutin, Valérie Barbe, Corinne Cruaud, Patrick Wincker, Jean-Marc Aury
Author Information
  1. Caroline Belser: Genoscope, Institut de biologie François-Jacob, Commissariat à l'Energie Atomique (CEA), Université Paris-Saclay, Evry, France. ORCID
  2. Benjamin Istace: Genoscope, Institut de biologie François-Jacob, Commissariat à l'Energie Atomique (CEA), Université Paris-Saclay, Evry, France.
  3. Erwan Denis: Genoscope, Institut de biologie François-Jacob, Commissariat à l'Energie Atomique (CEA), Université Paris-Saclay, Evry, France.
  4. Marion Dubarry: Genoscope, Institut de biologie François-Jacob, Commissariat à l'Energie Atomique (CEA), Université Paris-Saclay, Evry, France.
  5. Franc-Christophe Baurens: CIRAD, UMR AGAP, Montpellier, France.
  6. Cyril Falentin: IGEPP, INRA, Agrocampus Ouest, Université Rennes 1, BP35327, Le Rheu, France.
  7. Mathieu Genete: Université Lille, CNRS, UMR 8198-Evo-Eco-Paleo, Lille, France.
  8. Wahiba Berrabah: Genoscope, Institut de biologie François-Jacob, Commissariat à l'Energie Atomique (CEA), Université Paris-Saclay, Evry, France.
  9. Anne-Marie Chèvre: IGEPP, INRA, Agrocampus Ouest, Université Rennes 1, BP35327, Le Rheu, France. ORCID
  10. Régine Delourme: IGEPP, INRA, Agrocampus Ouest, Université Rennes 1, BP35327, Le Rheu, France.
  11. Gwenaëlle Deniot: IGEPP, INRA, Agrocampus Ouest, Université Rennes 1, BP35327, Le Rheu, France.
  12. France Denoeud: Génomique Métabolique, Genoscope, Institut de biologie François Jacob, CEA, CNRS, Université d'Evry, Université Paris-Saclay, Evry, France.
  13. Philippe Duffé: IGEPP, INRA, Agrocampus Ouest, Université Rennes 1, BP35327, Le Rheu, France.
  14. Stefan Engelen: Genoscope, Institut de biologie François-Jacob, Commissariat à l'Energie Atomique (CEA), Université Paris-Saclay, Evry, France.
  15. Arnaud Lemainque: Genoscope, Institut de biologie François-Jacob, Commissariat à l'Energie Atomique (CEA), Université Paris-Saclay, Evry, France.
  16. Maria Manzanares-Dauleux: IGEPP, INRA, Agrocampus Ouest, Université Rennes 1, BP35327, Le Rheu, France.
  17. Guillaume Martin: CIRAD, UMR AGAP, Montpellier, France. ORCID
  18. Jérôme Morice: IGEPP, INRA, Agrocampus Ouest, Université Rennes 1, BP35327, Le Rheu, France.
  19. Benjamin Noel: Genoscope, Institut de biologie François-Jacob, Commissariat à l'Energie Atomique (CEA), Université Paris-Saclay, Evry, France. ORCID
  20. Xavier Vekemans: Université Lille, CNRS, UMR 8198-Evo-Eco-Paleo, Lille, France.
  21. Angélique D'Hont: CIRAD, UMR AGAP, Montpellier, France.
  22. Mathieu Rousseau-Gueutin: IGEPP, INRA, Agrocampus Ouest, Université Rennes 1, BP35327, Le Rheu, France.
  23. Valérie Barbe: Genoscope, Institut de biologie François-Jacob, Commissariat à l'Energie Atomique (CEA), Université Paris-Saclay, Evry, France.
  24. Corinne Cruaud: Genoscope, Institut de biologie François-Jacob, Commissariat à l'Energie Atomique (CEA), Université Paris-Saclay, Evry, France.
  25. Patrick Wincker: Génomique Métabolique, Genoscope, Institut de biologie François Jacob, CEA, CNRS, Université d'Evry, Université Paris-Saclay, Evry, France.
  26. Jean-Marc Aury: Genoscope, Institut de biologie François-Jacob, Commissariat à l'Energie Atomique (CEA), Université Paris-Saclay, Evry, France. jmaury@genoscope.cns.fr. ORCID

Abstract

Plant genomes are often characterized by a high level of repetitiveness and polyploid nature. Consequently, creating genome assemblies for plant genomes is challenging. The introduction of short-read technologies 10 years ago substantially increased the number of available plant genomes. Generally, these assemblies are incomplete and fragmented, and only a few are at the chromosome scale. Recently, Pacific Biosciences and Oxford Nanopore sequencing technologies were commercialized that can sequence long DNA fragments (kilobases to megabase) and, using efficient algorithms, provide high-quality assemblies in terms of contiguity and completeness of repetitive regions. However, even though genome assemblies based on long reads exhibit high contig N50s (>1 Mb), these methods are still insufficient to decipher genome organization at the chromosome level. Here, we describe a strategy based on long reads (MinION or PromethION sequencers) and optical maps (Saphyr system) that can produce chromosome-level assemblies and demonstrate applicability by generating high-quality genome sequences for two new dicotyledon morphotypes, Brassica rapa Z1 (yellow sarson) and Brassica oleracea HDEM (broccoli), and one new monocotyledon, Musa schizocarpa (banana). All three assemblies show contig N50s of >5 Mb and contain scaffolds that represent entire chromosomes or chromosome arms.

MeSH Term

Brassica
Brassica rapa
Chromosome Mapping
Chromosomes, Plant
Genome, Plant
High-Throughput Nucleotide Sequencing
Nanopores
Optics and Photonics
Repetitive Sequences, Nucleic Acid