INTRODUCCIÓN
El material particulado con un diámetro menor a 10 micras (PM10) es uno de los contaminantes atmosféricos ampliamente asociados a problemas de salud1,2; puede estar compuesto por diferentes elementos químicos, como por ejemplo cadmio, plomo, carbono, arsénico3. La Organización Mundial de la Salud (OMS) ha catalogado a la contaminación del aire como un causante de cáncer en las personas4; asimismo, otras investigaciones han encontrado relación entre el PM10 y afectaciones a la salud como asma, infecciones respiratorias y enfermedades cardiovasculares5. En los últimos años se ha hecho más frecuente a nivel internacional el desarrollo de estudios para modelar las concentraciones de PM10 utilizando las bondades de las Redes Neuronales Artificiales (RNA)6; la cual es un modelo inspirado en el sistema nervioso biológico ya que se compone de neuronas artificiales (nodos), colocados en capas y conectados entre sí que son capaces de aprender de los patrones que se les presentan y de los errores cometidos en sus procesos de aprendizaje, identificando patrones nunca antes vistos7. Esta técnica ha mostrado buenos resultados para pronosticar concentraciones de material particulado; siendo los perceptrones multicapa, las arquitecturas de RNA más comúnmente aplicadas en ciencias atmosféricas debido a su capacidad para representar relaciones funcionales entre predictores y predictandos8. Franceschi et al. 9 utilizaron las RNA para pronosticar concentraciones de PM10 y PM2.5 en Bogotá, Colombia obteniendo indicadores de desempeño aceptables. Este tipo de modelos han sido usados también en Chile10 e Italia11.
En el Área Metropolitana de Lima-Callao (AMLC), el crecimiento demográfico, ha afectado negativamente a la calidad de aire. El AMLC ha sido considerada como una de las ciudades más contaminadas por material particulado en Latinoamérica12,13. Según informes del Servicio Nacional de Meteorología e Hidrología del Perú (SENAMHI)14 uno de los principales contaminantes que excede con frecuencia su respectivo Estándar de Calidad Ambiental para Aire (ECA-aire) es el PM . De acuerdo con Silva et al.12, el AMLC posee una mala calidad del aire con respecto al PM , encontrándose concentraciones promedio diarias de 80 µg/m3, siendo las zonas norte y este las más contaminadas (concentraciones entre 90 y 110 µg/m3) y la zona centro la menos contaminada (concentraciones entre 50 y 70 µg/m3). De todas las estaciones de la Red de Monitoreo del AMLC, la que registra las mayores concentraciones de PM10 durante los meses de verano y otoño (período enero-mayo) es la Estación de Monitoreo de Calidad del Aire (EMCA) ATE ubicada en el distrito de Ate. Dada la versatilidad que tienen las RNA, esta investigación busca usar datos registrados de estaciones y salidas de modelos para usarlas como entrada a las RNA, debido a que estas pueden abrir una ventana de posibilidades para la implementación de Sistemas de Alertas Tempranas sobre las posibles elevadas concentraciones de PM10. Por ello, el presente estudio se enfoca en evaluar el uso de las RNA para predecir las concentraciones de PM10 en el distrito de Ate.
PARTE EXPERIMENTAL
Base de datos de contaminantes y variables meteorológicas
Los datos horarios de la EMCA ATE fueron proporcionados por el Servicio Nacional de Meteorología e Hidrología del Perú (SENAMHI). La base de datos de contaminantes del aire y variables meteorológicas tuvieron registros de PM10, material particulado con diámetro menor a 2,5 micras (PM2.5), dióxido de nitrógeno (NO2), temperatura del aire (T), humedad relativa (HR), velocidad del viento (VV), dirección del viento (DV) y radiación solar (RS). También fue entregado los datos provenientes de las simulaciones del modelo Weather Research and Forecasting coupled with Chemistry (WRF-CHEM), estos consintieron de datos de PM10_WRF, PM2.5_WRF, dióxido de azufre (SO2_WRF), NO2_WRF, monóxido de nitrógeno (NO_WRF), monóxido de carbono (CO_WRF), T_WRF, presión atmosférica en superficie (PSFC_WRF), componente zonal del viento a 10 metros (U10_WRF) y componente meridional del viento a 10 metros (V10_WRF). El periodo solicitado correspondió del 2010 al 2018 con la finalidad de analizar y entender el comportamiento de cada variable.
Ubicación de la estación de monitoreo
La EMCA ATE se encuentra situada dentro de la Plaza de Armas de “Vitarte”, perteneciente a la zonificación urbana tipo residencial, rodeada de áreas principalmente comerciales y de uso especial (educación y salud). Por su lado noroeste recorre la carretera central, vía principal de acceso al AMLC, la cual une Lima con los distintos departamentos del interior del País. La ubicación de la EMCA es mostrada en la figura 1.
Mineria de datos
Usando la función TimeVariation del paquete Openair (software R) se determinó el patrón de comportamiento promedio horario de cada una de las variables analizadas incluida el comportamiento del PM10, con el objetivo de entender su tendencia, patrón o variación durante el día, mes y año. En la figura 2 se muestra el comportamiento promedio horario del PM10 durante el periodo 2010-2018.
Posteriormente al análisis visual de cada variable, se procedió a buscar patrones de comportamiento que con la estadística convencional no se pueden determinar, esto con la finalidad de obtener nuevas variables para la construcción de patrón de entrada en la etapa de entrenamiento de la RNA 15,10. Las variables incluidas son las siguientes:
Hora (HO): esta variable fue establecida a partir de las 24 horas del día (0-23).
Dia (D): Esta variable fue establecida a partir de los 7 días de la semana (1-7).
Mes (M): Esta variable fue establecida a partir de los 12 meses del año (1-12).
Estación (C_E): esta variable fue establecida a partir de las estaciones del año. Asignando valores numéricos de la siguiente manera, verano (1 - a partir del 21 de diciembre al 20 de marzo), otoño (2 - a partir del 21 de marzo al 21 de junio), primavera (3 - a partir del 22 de junio al 21 de setiembre) e invierno (4 - a partir del 22 de setiembre al 20 de diciembre).
Concentración horaria (C_H): la variable fue obtenida, asignando etiquetas de nocturno (0) y diurno (1), es decir desde las 6:00 hasta las 18:00 horas (diurno) y desde las 19 hasta las 5:00 horas del día siguiente (nocturno).
Se incorporó más variables que representen la relación o asociación de los datos meteorológicos y de contaminantes del aire10. Las variables obtenidas se muestran a continuación:
Promedio de la temperatura horaria máxima del día anterior (MTND).
Temperatura horaria máxima entre las 19:00 horas del día anterior y 18:00 horas del presente día (TMND).
Diferencia entre la temperatura horaria máxima y mínima del día anterior (DMTN).
Diferencia entre la temperatura horaria máxima y mínima de entre las 19:00 horas del día anterior y 18:00 horas del presente día (DMMT).
Humedad relativa horaria promedio mínima del día anterior (MPHN).
Humedad relativa horaria promedio mínima entre las 19:00 horas del día anterior y 18 horas del presente día (MPHPN).
Finalmente se construyó un patrón de entrada con 38 variables, el cual es mostrado en la tabla 1, junto con sus valores mínimo, promedio, máximo, conteo y su respectiva unidad.
Tabla 1 Variables que conformaron el patrón de entrada para el entrenamiento de las RNA
Parámetros Entradas | Mínimo | Media | Máximo | Recuento | Unidades |
---|---|---|---|---|---|
PM2.5 | 4,08 | 45,33 | 276,8 | 3924 | µg/m3 |
Ratio PM2.5/10 | 0,035 | 0,3987 | 0,9934 | 3924 | - |
NO2 | 0 | 32,65 | 137,46 | 3924 | µg/m3 |
T | 13,3 | 20,38 | 29,1 | 3924 | ° C |
HR | 42 | 76,5 | 100 | 3924 | % |
VV | 0,1 | 1,2 | 3,3 | 3924 | m/s |
DV | 21 | 238,44 | 347 | 3924 | ° |
RS | 0 | 587,81 | 3419,64 | 3924 | W/m2 |
PM10_WRF | 4,73 | 48,47 | 201,61 | 3924 | µg/m3 |
PM2.5_WRF | 3,06 | 40,89 | 178,9 | 3924 | µg/m3 |
Ratio PM2.5/10-WRF | 0,6 | 0,8 | 0,8876 | 3924 | - |
SO2-WRF | 0,0008164 | 0,0072614 | 0,0310053 | 3924 | µg/m3 |
NO2_WRF | 0,0154325 | 0,2085098 | 0,988407 | 3924 | µg/m3 |
NO_WRF | 0,000001 | 0,0315008 | 0,4280814 | 3924 | µg/m3 |
CO_WRF | 0,2661 | 1,9022435 | 7,8237629 | 3924 | µg/m3 |
T_WRF | 13,65777 | 21,019758 | 27,868463 | 3924 | ° C |
PSFC_WRF | 94862,867 | 95319,817 | 96483,883 | 3924 | hPa |
U10_WRF | -5,771975 | -0,749439 | 4,7972865 | 3924 | ° |
V10_WRF | -1,542933 | 1,9675743 | 7,3669128 | 3924 | ° |
ws_WRF | 0,0393804 | 3,0975989 | 8,3290128 | 3924 | m/s |
wd_WRF | 0,2896665 | 180,94861 | 358,95408 | 3924 | ° |
Angulo_WRF | -89,9242 | -18,8679 | 89,988321 | 3924 | ° |
HO | 0 | - | 23 | 3924 | Horas. |
D | 1 (lunes) | - | 7 (Domingo) | 3924 | día |
M | 1 (enero) | - | 12 (diciembre) | 3924 | meses |
C_E | 1 (verano) | 4 (primavera) | 3924 | estaciones del año | |
C_H | 1 (día) | 2 (noche) | 3924 | horarios | |
KM | 1 | 1,773 | 2 | 3924 | Clúster |
MTND | 16,5 | 24,2 | 29,1 | 3924 | ° C |
TMND | 16,5 | 24,19 | 29,1 | 3924 | ° C |
DMTN | 2,1 | 6,3 | 8,8 | 3924 | ° C |
DMMT | 1,5 | 6,26 | 9,7 | 3924 | ° C |
MPHN | 42 | 60,64 | 87 | 3924 | % |
MPHPN | 42 | 60,66 | 87 | 3924 | % |
wsp | 0,94 | 1,98 | 1,61 | 3924 | m/s |
wspn | 0,92 | 1,19 | 1,47 | 3924 | m/s |
wdi | 7,6E-07 | 1 | 1,999 | 3924 | - |
Salida | |||||
PM10 | 13,57 | 118,24465 | 676,3 | 3924 | µg/m3 |
Entrenamiento y Validación de las Redes Neuronales Artificiales
Normalización de las RNA
Para la configuración de las RNA, se utilizó el Software MATLAB R2008a el cual tiene el toolbox (nntool). Previo a la configuración, la base de datos pasó por un proceso de normalización utilizando la ecuación que se indica a continuación:
En donde X' es el valor de la variable normalizada, x es el valor de la variable sin normalizar, xmin es el valor mínimo de la variable sin normalizar y xmax es el valor máximo de la variable sin normalizar. Con este proceso se obtuvo valores entre 0 y 1, los cuales no estaban afectadas por unidades (adimensionales).
Arquitectura de la red neuronal artificial
No existe un criterio determinado para la selección de la arquitectura de las RNA16. En este estudio, se determinó la arquitectura óptima para el pronóstico del PM10, en base a lo realizado en investigaciones relacionadas (Tabla 2).
Tabla 2 Referencias para la determinación de la arquitectura de una red neuronal artificial para pronóstico de PM10
Referencia | Cantidad de Patrones de entrenamiento | # de capas | # Capas ocultas | # Capas salidas | # Neuronas en la Capa Oculta | Tipo de Funciones de Activación |
(Espinosa et al., 2017)17 | 8 | 3 | 1 | 1 | 30 | Logsig - purelin |
(Park et al., 2017)18 | 3 | 3 | 1 | 1 | - | Tangent -purelin |
(Pérez y Gramsh, | 13 | 3 | 1 | 1 | 8 | - |
2016)19 | ||||||
(Feng et al., 2015)20 | 10 | 3 | 1 | 1 | 8 | Sigmoid - purelin |
(Fernando et al., 2011)21 | 5 | 3 | 1 | 1 | 4 | - |
(Cortina, 2012)15 | N | 3 | 1 | 1 | N/2 | Sigmoid - purelin |
Validación del modelo de RNA
Para la validación de la red neuronal, se utilizó información de la concentración promedio horario del PM10 del periodo 2017 (febrero) como variable objetivo y como variables predictoras a los datos de la estación de monitoreo de la calidad de aire ATE, los datos del modelo WRF-CHEM y los patrones encontrados después del análisis de minería de datos.
Evaluación del desempeño del modelo RNA
Para evaluar el desempeño de los modelos de RNA, se emplearon tres indicadores: el coeficiente de correlación (R2), la raíz del error cuadrático medio (ECM) y BIAS. Cuanto mayor es el R2 y menor la ECM, mejor será el efecto de predicción de los modelos 18. Los índices se pueden calcular mediante las siguientes ecuaciones:
Donde yi y yi son los i-ésimos valores predichos y observados; yp y yo son el promedio del valor previsto y observado; N es el número de muestra.
RESULTADOS Y DISCUSIÓN
Arquitectura óptima de la red neuronal
La arquitectura optima (tabla 3), fue determinada en función de las investigaciones revisadas. Como algoritmo de aprendizaje, se adoptó el descenso de gradiente con el algoritmo de retropropagación (Backpropagation) ampliamente utilizado21,15. En adición, se utilizó la función “Logsig” y “purelin” como las funciones de transferencia de la capa oculta y capa de salida respectivamente.
Estimación de la concentración promedio de PM10
Se estimó las concentraciones de PM10 para cada hora de antelación (1 a 24 horas) usando la arquitectura óptima. El desempeño de cada una, se evaluó mediante los indicadores BIAS, ECM y R2 (Tabla 4).
Tabla 4. Estimación del PM10 con 1 a 24 horas de antelación en la etapa de validación.
Horas de antelación | BIAS | ECM | R2 |
1 | 0,5308 | 0,023 | 0,823 |
3 | 0,6997 | 0,0265 | 0,78 |
6 | 1,1932 | 0,0345 | 0,812 |
9 | 1,258 | 0,0355 | 0,66 |
12 | 1,2757 | 0,0357 | 0,637 |
15 | 1,4544 | 0,0381 | 0,687 |
18 | 1,4652 | 0,0383 | 0,641 |
21 | 2,4767 | 0,0498 | 0,663 |
24 | 2,735 | 0,0523 | 0,502 |
Los modelos que obtuvieron mayor ajuste y menor error para la estimación del PM10, fueron los que se elaboraron con 1, 3 y 6 horas de antelación. En la Figura 3, se observa la correlación entre las salidas del modelo neuronal con mejor desempeño para la estimación de la concentración del PM10 con 1 hora de antelación y los datos observados del PM10, obteniendo un coeficiente de correlación (R2) de 0,823, un ECM de 0,0230 y un sesgo (BIAS) de 0,5308. Asimismo, se aprecia las series temporales de los datos observados y modelados para el mismo periodo.

Figura 3 Estimación de las concentraciones del PM10 con 1 hora de antelación. a) Serie de tiempo de datos observados y modelados, b) Correlación de los datos observados y modelados
En la estimación de la concentración del PM10 con 3 horas de antelación, se obtuvo un coeficiente de correlación (R2) de 0,78, un ECM de 0,0265 y un sesgo (BIAS) de 0,6997. Asimismo, en la figura 4 se aprecia las series temporales de los datos observados y modelados para el mismo periodo.

Figura 4 Estimación de las concentraciones de PM10 con 3 horas de anticipación. a) Serie de tiempo de datos observados y modelados, b) Correlación de los datos observados y modelado.
Para la estimación de la concentración del PM10 con 6 horas de antelación se obtuvo un coeficiente de correlación (R2) de 0,812, un ECM de 0,0345 y un sesgo (BIAS) de 1,1932. Asimismo, se aprecian las series temporales de los datos observados y modelados para el mismo periodo (Figura 5).

Figura 5 Estimación de las concentraciones de PM10 con 6 horas de anticipación. a) Serie de tiempo de datos observados y modelados, b) Correlación de los datos observados y modelados
La precisión de una estimación con redes neuronales es muy afectada por la arquitectura, asimismo, no existe un criterio determinado para la selección de esta 16, por lo que los investigadores se basan en las experiencias para ajustarlos a sus realidades. Tal cual queda en evidencia cuando se ve que al aumentar la cantidad de horas de antelación para la estimación del PM10 de 3 a 6, el R incrementa de 0.78 a 0.812, Por lo cual, se tuvo que experimentar y a la vez investigar más sobre estudios parecidos y con resultados aceptables para poder así elaborar la Tabla 2. Otra de las consideraciones que se tuvo en la investigación fue el de encontrar asociaciones entre las variables meteorológicas y las concentraciones de PM10, obteniendo nuevas variables para el entrenamiento de la red neuronal, lo que conllevo a que la red neuronal diseñada obtenga un mejor desempeño al igual que Pérez y Reyes10.
En la etapa de validación de cada arquitectura óptima para cada hora de antelación, se encontró de que a medida que incrementaban las horas de estimación el ECM y el BIAS, incrementaban y el R2 disminuida (lo cual quedo más claro a partir del uso de 9 horas de antelación), como se puede observar en la Tabla 4. Este comportamiento es consistente a lo descrito en varias investigaciones que tienen el fin de realizar predicciones de las concentraciones del PM 15,22,17,21, pues las concentraciones del PM provienen de muchas fuentes de emisión y estas pueden sufrir cambios al pasar las horas por efecto de la meteorología12.
Los resultados de la estimación pudieron verse afectados por la cantidad de datos disponibles para el entrenamiento de la red neuronal 10,23,24,15, limitante que se encontró en el desarrollo de esta investigación. Sin embargo, las redes diseñadas son capaces de describir las tendencias de las concentraciones del PM10 como se puede visualizar en los resultados, de las cuales las que obtuvieron mayor ajuste y menos error, fueron las de 1, 3 y 6 horas de antelación respectivamente.
CONCLUSIONES
La red neuronal diseñada para el pronóstico de la concentración del PM10 para distintas horas de antelación en el distrito de Ate, tiene la capacidad de pronosticar las concentraciones de PM10 con un buen desempeño (bajo error cuadrático medio y sesgo BIAS así como también un alto ajuste), hasta con 6 horas de antelación. Para una estimación de 9 a 24 horas de antelación, se encontró que las salidas no muestran un buen ajuste, sin embargo, las tendencias obtenidas son capaces de describir si las concentraciones de PM10 incrementarán o disminuirán.
La arquitectura más óptima para la estimación de las concentraciones del PM10 en el distrito de Ate, posee: 3 capas; 38 variables de entrada (inputs); 19 neuronas en la capa oculta; una variable objetivo (target); utilizando una función de activación sigmoidal (capa oculta) y una lineal (capa de salida).