Data mining of DNA sequences submitted by Peruvian institutions to public genetic databases

Romero, Pedro Eduardo; Castillo-Vilcahuaman, Camila

doi:10.15381/rpb.v28i1.17867

Services on Demand

Journal

Article

Indicators

Cited by SciELO

Revista Peruana de Biología

On-line version ISSN 1727-9933

Abstract

ROMERO, Pedro Eduardo and CASTILLO-VILCAHUAMAN, Camila. Minería de datos de secuencias de DNA enviadas a bases de datos genéticas públicas por instituciones peruanas. Rev. peru biol. [online]. 2021, vol.28, n.1, e17867. ISSN 1727-9933. http://dx.doi.org/10.15381/rpb.v28i1.17867.

La diversidad genética es una componente importante de la biodiversidad y es crucial para los esfuerzos actuales de proteger y gestionar de manera sostenible varios organismos y hábitats. Hasta donde sabemos, solo hay un trabajo que describe la información genética peruana almacenada en bases de datos públicas. Nuestro objetivo fue actualizar este trabajo previo buscando en cuatro bases de datos públicas que almacenaban información de secuencias digitales: Nucleotide, BioProject, PATRIC, BOLD. Con esta información analizamos la contribución de las instituciones peruanas durante los últimos años. En Nucleotide, la base de datos más grande, las bacterias fueron los organismos más secuenciados por las instituciones peruanas (70.60%), las bacterias patógenas como Pasteurella multocida, Neisseria meningitidis y Vibrio parahaemolyticus fueron las más abundantes. No encontramos registros de secuencias del dominio Archaea. En BioProject, la secuencia más común pertenece a Salmonella enterica subsp. enterica serovar Infantis. En PATRIC, una base de datos de agentes patógenos, Mycobacterium tuberculosis y Yersinia pestis tuvieron el mayor número de entradas. Finalmente, en BOLD, una base de datos exclusivamente eucariota, Chordata (Aves y Actinopterygii), Angiospermae y Arthropoda (Insecta y Arachnida) fueron los registros más frecuentes. Nuestros resultados indicarían las preferencias de investigación de las instituciones peruanas, centrándose en enfermedades infecciosas y algunos filos eucariotas. Aunque ha habido un aumento significativo de la información de ADN enviada por las instituciones peruanas desde el último informe, la diversidad genética reflejada en estas bases de datos sigue siendo inconsistente con la diversidad del país. Se deben realizar más esfuerzos para obtener información genética de grupos taxonómicos más subestimados y promover más investigación genética en las instituciones regionales peruanas.

Keywords : Diversidad genética; bases de datos públicas; biodiversidad; Perú; minería de datos.

· abstract in English · text in English