A multi-objective optimization approach accurately resolves protein domain architectures.

Advanced Search

J S Bernardes, F R J Vieira, G Zaverucha, A Carbone

Author Information

J S Bernardes: Sorbonne Universités, UPMC Univ-Paris 6, CNRS, UMR 7238, Laboratoire de Biologie Computationnelle et Quantitative, 15 rue de l'Ecole de Médecine, 75006 Paris.
F R J Vieira: CNRS, UMR 7606, Laboratoire d'Informatique de Paris 6, 75005 Paris, France and COPPE-UFRJ, Programa de Engenharia de Sistemas e Computação, Rio de Janeiro, Brazil.
G Zaverucha: COPPE-UFRJ, Programa de Engenharia de Sistemas e Computação, Rio de Janeiro, Brazil.
A Carbone: Sorbonne Universités, UPMC Univ-Paris 6, CNRS, UMR 7238, Laboratoire de Biologie Computationnelle et Quantitative, 15 rue de l'Ecole de Médecine, 75006 Paris, Institut Universitaire de France, 75005 Paris.

PMID: 26458889 DOI: 10.1093/bioinformatics/btv582

MOTIVATION: Given a protein sequence and a number of potential domains matching it, what are the domain content and the most likely domain architecture for the sequence? This problem is of fundamental importance in protein annotation, constituting one of the main steps of all predictive annotation strategies. On the other hand, when potential domains are several and in conflict because of overlapping domain boundaries, finding a solution for the problem might become difficult. An accurate prediction of the domain architecture of a multi-domain protein provides important information for function prediction, comparative genomics and molecular evolution.
RESULTS: We developed DAMA (Domain Annotation by a Multi-objective Approach), a novel approach that identifies architectures through a multi-objective optimization algorithm combining scores of domain matches, previously observed multi-domain co-occurrence and domain overlapping. DAMA has been validated on a known benchmark dataset based on CATH structural domain assignments and on the set of Plasmodium falciparum proteins. When compared with existing tools on both datasets, it outperforms all of them.
AVAILABILITY AND IMPLEMENTATION: DAMA software is implemented in C++ and the source code can be found at http://www.lcqb.upmc.fr/DAMA.
CONTACT: juliana.silva_bernardes@upmc.fr or alessandra.carbone@lip6.fr
SUPPLEMENTARY INFORMATION: Supplementary data are available at Bioinformatics online.

Bioinformatics. 2009 Dec 1;25(23):3077-83 [PMID: 19786484]
Nucleic Acids Res. 2009 Jan;37(Database issue):D539-43 [PMID: 18957442]
BMC Evol Biol. 2008;8:285 [PMID: 18854028]
Trends Biochem Sci. 2008 Sep;33(9):444-51 [PMID: 18656364]
Genome Res. 2008 Mar;18(3):449-61 [PMID: 18230802]
Bioinformatics. 2006 Jun 15;22(12):1418-23 [PMID: 16601004]
J Mol Biol. 2005 Nov 4;353(4):911-23 [PMID: 16198373]
BMC Evol Biol. 2005;5:24 [PMID: 15788102]
Nucleic Acids Res. 2005 Jan 1;33(Database issue):D399-402 [PMID: 15608225]
Bioinformatics. 2004 Nov 22;20(17):3236-7 [PMID: 15044231]
Science. 1999 Jul 30;285(5428):751-3 [PMID: 10427000]
Bioinformatics. 1998;14(9):755-63 [PMID: 9918945]
J Mol Biol. 1995 Apr 7;247(4):536-40 [PMID: 7723011]
J Mol Biol. 2004 Feb 20;336(3):809-23 [PMID: 15095989]
Proc Natl Acad Sci U S A. 2003 Apr 15;100(8):4516-20 [PMID: 12668763]
Nucleic Acids Res. 2003 Jan 1;31(1):212-5 [PMID: 12519984]
Biochim Biophys Acta. 2013 May;1834(5):898-907 [PMID: 23376183]
J Mol Biol. 2001 Jul 6;310(2):311-25 [PMID: 11428892]
Genome Res. 2002 Oct;12(10):1619-23 [PMID: 12368255]
Nucleic Acids Res. 2013 Jan;41(Database issue):D490-8 [PMID: 23203873]
Nucleic Acids Res. 2013 Jan;41(Database issue):D344-7 [PMID: 23161676]
PLoS Comput Biol. 2011 Oct;7(10):e1002195 [PMID: 22039361]
Nucleic Acids Res. 2010 Jan;38(Database issue):D211-22 [PMID: 19920124]
Bioinformatics. 2010 Mar 15;26(6):745-51 [PMID: 20118117]
BMC Bioinformatics. 2011;12:90 [PMID: 21453511]

Algorithms

Genomics

Molecular Sequence Annotation

Plasmodium falciparum

Protein Structure, Tertiary

Protozoan Proteins

Sequence Analysis, Protein

Software

Protozoan Proteins

Journal Article Research Support, Non-U.S. Gov't

BioCode: BT006736 (Domain Annotation by a Multi-objective Approach)

Multi-Objective Path Optimization in Fog Architectures Using the Particle Swarm Optimization Approach.Prediction of protein-protein interaction network using a multi-objective optimization approach.A fuzzy multi-objective optimization approach for treated wastewater allocation.On ESG Portfolio Construction: A Multi-Objective Optimization Approach.An approach to generate damage strategies for inter-domain routing systems based on multi-objective optimization.A fast and automated solution for accurately resolving protein domain architectures.Protein domain architectures.MOCOVIDOA: a novel multi-objective coronavirus disease optimization algorithm for solving multi-objective optimization problems.A robust optimization model for multi-objective blood supply chain network considering scenario analysis under uncertainty: a multi-objective approach.A multi-objective optimization of stent geometries.

Domain prediction with probabilistic directional context.Plasmobase: a comparative database of predicted domain architectures for Plasmodium genomes.MyCLADE: a multi-source domain annotation server for sequence functional exploration.Improving pairwise comparison of protein sequences with domain co-occurrence.Homology Inference Based on a Reconciliation Approach for the Comparative Genomics of Protozoa.The distinction of CPR bacteria from other bacteria based on protein family content.Protein Family Content Uncovers Lineage Relationships and Bacterial Pathway Maintenance Mechanisms in DPANN Archaea.A multi-source domain annotation pipeline for quantitative metagenomic and metatranscriptomic functional profiling.Integrative analysis of large scale transcriptome data draws a comprehensive landscape of Phaeodactylum tricornutum genome and evolutionary origin of diatoms.Improvement in Protein Domain Identification Is Reached by Breaking Consensus, with the Agreement of Many Profiles and Domain Co-occurrence.

See all "Cited by" articles

OpenLB
Open Library of Bioscience