| fecha | punto | latitud | longitud | B01 | B02 | B03 | B04 | B05 | B06 | B07 | B08 | B11 | B12 | B8A | sol_sus |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2023-05-11 | 1 | -27.464687 | -58.868047 | 0.161290 | 0.171256 | 0.206644 | 0.250911 | 0.258058 | 0.202170 | 0.207490 | 0.193722 | 0.118892 | 0.115462 | 0.173137 | 198.000000 |
| 2023-05-11 | 2 | -27.466303 | -58.866729 | 0.149906 | 0.170378 | 0.202278 | 0.242689 | 0.247115 | 0.186739 | 0.188027 | 0.175544 | 0.113992 | 0.111210 | 0.159373 | 150.000000 |
| 2023-05-11 | 3 | -27.468056 | -58.864889 | 0.149718 | 0.167256 | 0.197322 | 0.223511 | 0.218608 | 0.159292 | 0.163228 | 0.151544 | 0.114241 | 0.112931 | 0.139783 | 101.000000 |
| 2023-05-11 | 4 | -27.469240 | -58.863367 | 0.148441 | 0.163289 | 0.188733 | 0.196167 | 0.183854 | 0.139388 | 0.140017 | 0.135400 | 0.115602 | 0.113097 | 0.128222 | 95.000000 |
| 2023-05-11 | 5 | -27.470561 | -58.862454 | 0.145838 | 0.157733 | 0.178767 | 0.173911 | 0.162600 | 0.132140 | 0.133229 | 0.126656 | 0.117069 | 0.113992 | 0.124548 | 69.000000 |
Sólidos Suspendidos Totales en el Río Paraná
Este sitio web aborda el análisis de sólidos suspendidos totales (SST) en cuerpos de agua mediante el uso de imágenes satelitales y técnicas de aprendizaje automático. Presenta una introducción teórica sobre la importancia de los SST como indicador ambiental y luego desarrolla una parte práctica con Python, donde se integran datos espectrales y mediciones reales para aplicar modelos de regresión. Se evalúa el desempeño de estos modelos y se exploran relaciones entre bandas espectrales y SST, proponiendo mejoras metodológicas para estudios futuros.
GISTAQ, UTN, FRRe, Quarto, Río Paraná, Sólidos Suspendidos
1 Revisión bibliográfica, por Vera Geneyer
El propósito de esta sección es sintetizar los enfoques más utilizados en la literatura para estimar parámetros fisicoquímicos del agua mediante teledetección satelital, con énfasis en sólidos suspendidos. Se analizan los tipos de datos empleados, las variables espectrales más relevantes y las ecuaciones propuestas por distintos autores, junto con los sensores, longitudes de onda y características de los cuerpos de agua estudiados. Esta revisión sirve de base para justificar el desarrollo y validación del algoritmo propuesto. Los métodos tradicionales se apoyan en relaciones empíricas entre la reflectancia y las propiedades del agua, utilizando bandas espectrales o índices como NDCI y NDTI. En contraste, las técnicas de aprendizaje automático permiten identificar patrones no lineales entre la reflectancia y los parámetros fisicoquímicos, ofreciendo mayor capacidad predictiva frente a modelos polinómicos.
1.1 Sólidos suspendidos totales
Los sólidos suspendidos totales (TSM) son la cantidad de materia en suspensión en el agua, que incluye plancton, minerales, arena, y microorganismos. Se determinan como el residuo no filtrable de una muestra de agua. Niveles altos (TSM) pueden reducir la transparencia del agua, limitar la luz y y transportar sustancias tóxicas, afectando la vida acuática y la calidad del agua. Este parámetro, medido mediante sensores remotos, nos da información sobre el estado físico del cuerpo de agua y están relacionados con factores como la humedad, temperatura y entre otros, que es vital para detectar riesgos al ecosistema y cumplir con las normas ambientales.
1.2 Métodos tradicionales
| Ecuación | Bandas (nm) | Métricas | Aguas | Plataforma | Referencia |
|---|---|---|---|---|---|
| \(-229.34 \left( \frac{B03}{B08} \right)^{3}+1001.65 \left( \frac{B03}{B08} \right)^{2}-1422.7 \left( \frac{B03}{B08} \right)+665.17\) | B03, B08 | \(R^{2}\) | Embalse1 | Landsat-8 | [1] |
| \(-244.83+40.21 \cdot B01-3.67 \cdot NDWI\) | B01, NDWI (B03, B08) | \(R^{2}\), RMSE, d | Río2 | GeoEye | [2] |
De acuerdo a un estudio que analizó 48 cuerpos de agua, la estimación de TSM se hizo en su mayoría por modelos lineales, siendo la banda B8A la más frecuente [3].
1.3 Métodos de aprendizaje automático
El aprendizaje automático (ML) es una rama de la inteligencia artificial cuyo objetivo es desarrollar algoritmos capaces de resolver problemas mediante el análisis de datos y la creación de funciones que describen el comportamiento de fenómenos monitoreados [4]. Los modelos de aprendizaje automático más utilizados y mencionados por los investigadores para predecir la concentración de SST son:
Bosque Aleatorio (RF) y Refuerzo Adaptativo (AdB), modelos que se destacan por su robustez ante datos complejos y ruidosos. Estos algoritmos construyen múltiples árboles de decisión que analizan las relaciones entre características como el uso del suelo o el volumen de escorrentía y los niveles de SST [5].
Redes Neuronales Artificiales (ANN), copian las redes neuronales biológicas y aprenden patrones complejos en grandes volúmenes de datos, como los niveles de SST en distintas condiciones ambientales [5],
k-Nearest Neighbors (kNN), en sus variantes de ponderación uniforme y variable, que estima el SST en función de la cercanía en características de nuevos puntos de muestreo con datos históricos [5].
El aprendizaje automático es esencial para mejorar la precisión y rapidez en el análisis de la calidad del agua, proporcionando un monitoreo más eficiente y menos costoso en comparación con los métodos tradicionales, especialmente en áreas de difícil acceso o con datos limitados.
| Modelo de machine learning | Software | Agua | Datos | Métricas | Referencias |
|---|---|---|---|---|---|
| Bagging y Random Forest | Programa R | Bahía | Muestreo | Prueba de normalidad multivalente Mardia-tests y Royston | [4] |
| Regresión lineal, LASSO, regresión de vectores de soporte (SVR), K vecinos más cercanos (KNN), bosque aleatorio (RF) y redes neuronales artificiales (ANN). | - | Lago y embalse | Sentinel-2 y UAV | \(R^{2}\) | [6] |
| Regresión lineal, regresión de vectores de soporte (SVR), K vecinos más cercanos (KNN), bosque aleatorio (RF) y redes neuronales artificiales (ANN). | Programa Python | Lagos | Estación de monitoreo (Sensores para cada parámetro) | \(R^{2}\), NSE y RMSE | [5] |
2 Desarrollo del algoritmo, por Ariadna Seba
Esta sección describe el proceso completo para construir un modelo que estima los sólidos suspendidos totales (SST) a partir de datos satelitales y mediciones de campo. Se detallan las etapas de preparación de datos, cálculo de índices espectrales, selección de variables, ajuste del modelo y validación estadística, con el objetivo de garantizar la robustez y aplicabilidad del algoritmo.
2.1 Preparación de datos
2.1.1 Procesamiento con Sen2Cor
Se implementó un procedimiento en Python para procesar información ambiental georreferenciada, con el objetivo de analizar el comportamiento del parámetro sólidos suspendidos (sol_sus) en la región de estudio, específicamente en el píxel 3x3.
El procesamiento se realizó mediante la biblioteca pandas, utilizada para la manipulación y análisis de datos en estructuras tabulares, lo que permite operaciones eficientes como filtrado, combinación y transformación. Además, se emplearon módulos estándar como os y shutil para la gestión de archivos y creación de copias de seguridad, y datetime para generar marcas temporales en los respaldos.
El flujo de trabajo incluye:
- Carga de datos desde archivos CSV.
- Filtrado por el parámetro de interés (sol_sus).
- Reorganización de las bandas espectrales en formato tabular.
- Integración con mediciones de laboratorio.
- Exportación del resultado final en formato CSV, asegurando trazabilidad y calidad antes del análisis.
2.1.2 Procesamiento con ACOLITE
A continuación, se aplicó el mismo procedimiento de procesamiento utilizado anteriormente, esta vez sobre el archivo base_de_datos_gis_acolite.csv, generado con el procesador atmosférico ACOLITE.
ACOLITE es una herramienta diseñada específicamente para la corrección atmosférica en ambientes acuáticos a partir de imágenes satelitales. Gracias a que la estructura del archivo es similar a la empleada en el procesamiento con Sen2Cor, fue posible aplicar la misma lógica de filtrado, transformación y combinación para preparar los datos de reflectancia.
El flujo de trabajo incluye:
- Carga de datos desde archivos CSV.
- Filtrado por el parámetro de interés (sol_sus).
- Reorganización de las bandas espectrales en formato tabular.
- Integración con mediciones de laboratorio.
- Exportación del resultado final en formato CSV, con creación automática de copias de seguridad para evitar sobrescritura.
| fecha | punto | latitud | longitud | B01 | B02 | B03 | B04 | B05 | B06 | B07 | B08 | B11 | B12 | B8A | sol_sus |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2023-05-11 | 1 | -27.464687 | -58.868047 | 0.041367 | 0.046669 | 0.085630 | 0.128799 | 0.128704 | 0.091748 | 0.098365 | 0.083253 | 0.002521 | 0.000000 | 0.066612 | 198.000000 |
| 2023-05-11 | 2 | -27.466303 | -58.866729 | 0.032235 | 0.047916 | 0.084191 | 0.123898 | 0.122481 | 0.079922 | 0.082403 | 0.069021 | 0.001669 | 0.000000 | 0.055924 | 150.000000 |
| 2023-05-11 | 3 | -27.468056 | -58.864889 | 0.030956 | 0.044084 | 0.078444 | 0.104498 | 0.095737 | 0.052162 | 0.057475 | 0.044354 | 0.000209 | 0.000174 | 0.034767 | 101.000000 |
| 2023-05-11 | 4 | -27.469240 | -58.863367 | 0.029646 | 0.040407 | 0.070384 | 0.078357 | 0.063937 | 0.032452 | 0.033994 | 0.028441 | 0.001279 | 0.000000 | 0.022597 | 95.000000 |
| 2023-05-11 | 5 | -27.470561 | -58.862454 | 0.026737 | 0.034968 | 0.060701 | 0.056602 | 0.044067 | 0.024809 | 0.026684 | 0.019209 | 0.001879 | 0.000000 | 0.017930 | 69.000000 |
2.2 Estimación de SST mediante regresión lineal
En esta etapa se entrena un modelo de regresión lineal para analizar la relación entre la reflectancia en cada banda espectral y la concentración de sólidos suspendidos (sol_sus), utilizando datos experimentales.
La regresión lineal es una técnica estadística fundamental en el aprendizaje supervisado que permite predecir un valor continuo a partir de una o más variables independientes. Se emplea como modelo base por su simplicidad y capacidad para identificar tendencias iniciales antes de aplicar métodos más complejos.
Este análisis busca determinar qué bandas presentan mayor correlación con el parámetro de interés, lo que servirá para seleccionar variables relevantes en la construcción del algoritmo final. A lo largo de esta sección se detallan los pasos realizados y los conceptos clave para comprender y replicar el procedimiento.
2.2.1 Regresión lineal individual por banda
Con el fin de profundizar el análisis, se evaluó la relación entre los sólidos suspendidos (sol_sus) y cada banda espectral por separado. Para ello, se entrenó un modelo de regresión lineal utilizando los mismos datos experimentales para cada banda. Este enfoque permite comparar la capacidad predictiva individual de cada banda mediante las métricas R², R² ajustado y el error cuadrático medio (RMSE):
- R² (coeficiente de determinación) indica la proporción de la variabilidad explicada por el modelo; valores cercanos a 1 reflejan una mejor relación lineal.
- R² ajustado corrige el R² considerando el número de variables y el tamaño de la muestra, evitando sobreestimaciones.
- RMSE (Root Mean Squared Error) mide el error promedio entre valores observados y predichos; valores bajos indican mayor precisión.
Este análisis permite identificar qué bandas presentan mayor correlación con el parámetro de interés y constituye la base para seleccionar variables relevantes en modelos más complejos.
Para implementar este análisis se emplearon bibliotecas ampliamente utilizadas en ciencia de datos:
pandaspara la carga y manipulación de datos en estructuras tabulares.numpypara cálculos numéricos eficientes, como la raíz cuadrada en el RMSE.scikit-learn, que proporciona:LinearRegressionpara ajustar el modelo lineal.train_test_splitpara dividir los datos en entrenamiento y prueba.mean_squared_errorpara calcular el error cuadrático medio.
matplotlibpara generar gráficos comparativos entre valores observados y predichos.
Este análisis permite identificar qué bandas presentan mayor correlación con el parámetro de interés y constituye la base para seleccionar variables relevantes en modelos más complejos.
| Banda | R² | R²_ajustado | RMSE |
|---|---|---|---|
| B05 | 0.178 | 0.168 | 32.891 |
| B06 | 0.161 | 0.150 | 33.233 |
| B07 | 0.157 | 0.146 | 33.318 |
| B08 | 0.143 | 0.132 | 33.594 |
| B8A | 0.114 | 0.103 | 34.145 |
| B04 | 0.094 | 0.082 | 34.540 |
| B12 | 0.019 | 0.007 | 35.926 |
| B11 | 0.016 | 0.004 | 35.979 |
| B01 | 0.001 | -0.012 | 36.270 |
| B03 | 0.001 | -0.012 | 36.257 |
| B02 | 0.000 | -0.013 | 36.280 |
El análisis muestra que la relación lineal entre la reflectancia y los sólidos suspendidos es débil cuando se considera cada banda de forma individual. Aunque algunas bandas presentan un mejor desempeño relativo, ninguna alcanza un ajuste robusto que permita una estimación precisa del parámetro.
Estos resultados indican que la regresión lineal simple por banda no es suficiente para capturar la variabilidad de los sólidos suspendidos. Por esto, será necesario avanzar hacia modelos multibanda o enfoques más complejos.
2.2.2 Regresión lineal con transformación logarítmica
En esta etapa se aplica una transformación logarítmica natural a las variables de reflectancia y a la concentración de sólidos suspendidos (sol_sus) antes de ajustar los modelos de regresión lineal. Esta transformación permite:
- Estabilizar la varianza, reduciendo la heterocedasticidad.
- Linealizar relaciones no lineales, mejorando el ajuste del modelo.
- Reducir el impacto de valores extremos, evitando que influyan de forma desproporcionada en la regresión.
El procedimiento sigue la lógica del análisis anterior, pero antes de entrenar el modelo se aplica log(x) a las columnas correspondientes. Para evitar errores, los valores cero se reemplazan por NaN y se excluyen del análisis. Posteriormente, se entrenan modelos de regresión lineal simple por banda usando las variables transformadas.
El desempeño se evalúa mediante métricas en escala logarítmica (R²_log, RMSE_log) y en escala original, lo que facilita la comparación y la interpretación de resultados.
| Banda | R²_log | R²aj_log | RMSE_log |
|---|---|---|---|
| B05 | 0.275 | 0.261 | 0.337 |
| B06 | 0.268 | 0.253 | 0.339 |
| B07 | 0.258 | 0.243 | 0.341 |
| B08 | 0.241 | 0.226 | 0.345 |
| B8A | 0.210 | 0.195 | 0.352 |
| B04 | 0.161 | 0.144 | 0.362 |
| B11 | 0.065 | 0.046 | 0.383 |
| B12 | 0.032 | 0.013 | 0.389 |
| B03 | 0.002 | -0.018 | 0.395 |
| B01 | 0.000 | -0.020 | 0.396 |
| B02 | 0.000 | -0.020 | 0.396 |
| Banda | R² | R²aj | RMSE |
|---|---|---|---|
| B05 | 0.186 | 0.169 | 33.309 |
| B06 | 0.184 | 0.168 | 33.333 |
| B07 | 0.173 | 0.156 | 33.569 |
| B08 | 0.155 | 0.138 | 33.930 |
| B8A | 0.140 | 0.123 | 34.220 |
| B04 | 0.077 | 0.059 | 35.454 |
| B11 | 0.035 | 0.016 | 36.258 |
| B12 | -0.000 | -0.020 | 36.914 |
| B01 | -0.034 | -0.055 | 37.539 |
| B02 | -0.034 | -0.055 | 37.540 |
| B03 | -0.036 | -0.057 | 37.578 |
La aplicación de la transformación logarítmica mejoró la estabilidad y el ajuste del modelo en comparación con el análisis en escala original. Esta técnica permitió reducir la influencia de valores extremos, linealizar relaciones no lineales y obtener métricas más consistentes, especialmente en la escala logarítmica.
Aunque la mejora es evidente, los resultados indican que la regresión lineal simple sigue siendo limitada para estimar con precisión los sólidos suspendidos. Por esto, se continuará trabajando con las variables transformadas en log en las siguientes etapas, aplicando modelos multibanda y enfoques más complejos que permitan capturar mejor la variabilidad del parámetro.
2.2.3 Selección de bandas mediante AIC
Para determinar qué bandas espectrales aportan mayor información en la predicción de sólidos suspendidos, se ajustaron modelos de regresión lineal simple en escala logarítmica para cada banda individual. Además de las métricas habituales como el coeficiente de determinación (R²) y el error cuadrático medio (RMSE), se incorporó el Criterio de Información de Akaike (AIC).
El AIC es una medida que evalúa la calidad del modelo penalizando la complejidad: valores más bajos indican un mejor equilibrio entre ajuste y simplicidad. Esta característica permite evitar el sobreajuste, ya que no favorece modelos que mejoran el ajuste únicamente por aumentar el número de parámetros sin aportar información relevante. En este contexto, el AIC se convierte en una herramienta clave para seleccionar las bandas que realmente contribuyen a mejorar la predicción sin añadir complejidad innecesaria.
Bibliotecas y funciones destacadas:
pandasynumpypara manipulación y transformación de datos.
scikit-learnpara el ajuste de modelos (LinearRegression) y cálculo de métricas.
- Función propia
aic_gauss()para calcular el AIC en modelos lineales gaussianos.
| Banda | R² | R²aj | RMSE | AIC |
|---|---|---|---|---|
| B05 | 0.275 | 0.261 | 0.337 | -109.159 |
| B06 | 0.268 | 0.253 | 0.339 | -108.639 |
| B07 | 0.258 | 0.243 | 0.341 | -107.949 |
| B08 | 0.241 | 0.226 | 0.345 | -106.752 |
| B8A | 0.210 | 0.195 | 0.352 | -104.710 |
| B04 | 0.161 | 0.144 | 0.362 | -101.566 |
| B11 | 0.065 | 0.046 | 0.383 | -95.931 |
| B12 | 0.032 | 0.013 | 0.389 | -94.126 |
| B03 | 0.002 | -0.018 | 0.395 | -92.515 |
| B01 | 0.000 | -0.020 | 0.396 | -92.433 |
| B02 | 0.000 | -0.020 | 0.396 | -92.432 |
Este análisis muestra que algunas bandas presentan un mejor equilibrio entre ajuste y parsimonia, reflejado en valores más bajos de AIC.
En términos generales, el AIC se confirma como una herramienta útil para la selección de variables, ya que ayuda a identificar las bandas que contribuyen de manera significativa a la predicción sin añadir complejidad innecesaria. Este criterio será clave en la siguiente etapa.
2.2.4 Regresión multibanda con selección AIC y Forward Selection
En esta sección se construye un modelo de regresión lineal múltiple en escala logarítmica para estimar la concentración de sólidos suspendidos (sol_sus). El objetivo es seleccionar un conjunto óptimo de variables espectrales que maximicen la capacidad predictiva del modelo sin añadir complejidad innecesaria.
Para ello, se aplica el método de Forward Selection guiado por el Criterio de Información de Akaike (AIC). Este procedimiento comienza con un modelo vacío e incorpora progresivamente las variables que más reducen el AIC, siempre que la mejora sea significativa. El AIC permite equilibrar ajuste y simplicidad, evitando el sobreajuste.
Las variables se transforman a escala logarítmica para linealizar relaciones y reducir la variabilidad. Además, se generan combinaciones que incluyen:
- Bandas individuales en log.
- Ratios entre bandas y sus transformaciones logarítmicas, para capturar relaciones espectrales relevantes.
Durante la selección, se evalúa el desempeño mediante validación cruzada, calculando métricas como RMSE, R² y R² ajustado. Una vez seleccionadas las variables, se ajusta el modelo final, se construyen las ecuaciones en escala logarítmica y original, y se realiza un análisis bootstrap para obtener intervalos de confianza, garantizando robustez e interpretabilidad.
Este enfoque permite desarrollar un modelo más preciso y estable, adaptado a las condiciones reales del monitoreo ambiental.
| Variables | RMSE | R² | R²aj | AIC |
|---|---|---|---|---|
| ['log_ratio_B04_B05'] | 0.193 | 0.689 | 0.661 | -39.720 |
| ['log_ratio_B04_B05', 'log_B01'] | 0.167 | 0.766 | 0.720 | -41.695 |
Variables finales: log(B04/B05), log(B01)
Ecuación en escala logarítmica:
\(\displaystyle \log(sol\_sus) = 4.106− 2.434\,\log\left(\frac{B04}{B05}\right) − 0.201\,\log(B01)\)
Ecuación en escala original:
\(\displaystyle sol\_sus = 60.673 \times \left(\frac{B04}{B05}\right)^{-2.434} \times B01^{-0.201}\)
| Métrica | Train (log) | Test (log) | Train (mg/L) | Test (mg/L) |
|---|---|---|---|---|
| RMSE | 0.150 | 0.186 | 12.265 | 15.328 |
| R² | 0.819 | 0.761 | 0.854 | 0.831 |
| R² adj | 0.811 | 0.727 | 0.848 | 0.806 |
| Métrica | Train prom | Train 2.5% | Train 97.5% | Test prom | Test 2.5% | Test 97.5% |
|---|---|---|---|---|---|---|
| RMSE | 0.144 | 0.116 | 0.173 | 0.153 | 0.069 | 0.228 |
| R² | 0.824 | 0.738 | 0.895 | 0.811 | 0.581 | 0.962 |
| R² adj | 0.816 | 0.727 | 0.891 | 0.784 | 0.521 | 0.956 |
El enfoque multibanda en escala logarítmica mejoró significativamente la capacidad predictiva respecto a los modelos univariantes, logrando métricas más robustas tanto en entrenamiento como en prueba.
El análisis confirma que la combinación de bandas y ratios seleccionados aporta información relevante para explicar la variabilidad de los sólidos suspendidos, reduciendo el error y aumentando la estabilidad del modelo. Además, la validación cruzada y el análisis bootstrap proporcionaron intervalos de confianza que refuerzan la confiabilidad del ajuste.
2.2.5 Mapas de estimación de SST
En esta sección se describe el proceso para generar mapas que estiman la concentración de Sólidos Suspendidos Totales (SST) en el río Paraná, a partir de imágenes satelitales en formato GeoTIFF (.tif). La estimación se basa en la ecuación obtenida previamente, con el fin de verificar el correcto funcionamiento del código mediante la lectura de la imagen ráster y la visualización del área de estudio.
El flujo de trabajo incluye:
- Lectura y procesamiento de archivos .tif para extraer las bandas espectrales.
- Cálculo del NDWI (Índice Diferencial de Agua Normalizado) para generar una máscara que delimite cuerpos de agua.
- Aplicación de la ecuación multibanda para estimar SST (ppm).
- Visualización y exportación de resultados en PNG y GeoTIFF.
El NDWI (Normalized Difference Water Index) es un índice que resalta zonas con presencia de agua, calculado como:
\[ NDWI = \frac{B03 - B11}{B03 + B11} \]
donde B03 corresponde a la banda verde y B11 a la banda del infrarrojo de onda corta. Valores altos indican mayor probabilidad de agua. Este índice se utiliza para generar una máscara que separa agua de tierra mediante un umbral adaptativo.
Para definir el umbral que separa agua y tierra, se emplea el método de Otsu, que analiza la distribución de valores NDWI y selecciona el punto que minimiza la varianza intra-clase. El histograma muestra la frecuencia de valores NDWI y líneas que indican:
- Umbral calculado por Otsu.
- Media y mediana del NDWI.
Esto permite ajustar el umbral de forma robusta según las condiciones de cada imagen.
Los mapas generados para cada fecha corresponden al recorte del área de interés del producto satelital corregido por ACOLITE.
2.3 Estimación de SST mediante Machine Learning
En esta sección se aplican modelos de aprendizaje automático para estimar la concentración de Sólidos Suspendidos Totales (SST) a partir de variables predictoras derivadas de la reflectancia satelital. Este enfoque permite capturar relaciones no lineales y aprovechar la información multiespectral de manera más eficiente que los métodos lineales tradicionales.
Se entrenan y evalúan dos algoritmos ampliamente utilizados en problemas de regresión:
Random Forest (RF): algoritmo de aprendizaje supervisado basado en conjuntos de árboles de decisión. Su funcionamiento se basa en entrenar múltiples árboles sobre diferentes subconjuntos de datos y promediar sus predicciones, lo que reduce el riesgo de sobreajuste y mejora la estabilidad del modelo. Es especialmente útil para problemas con relaciones no lineales y gran número de variables, como en este caso, donde se utilizan bandas espectrales y combinaciones derivadas.
XGBoost (XGB): algoritmo basado en boosting de árboles de decisión, diseñado para optimizar el rendimiento mediante la construcción secuencial de árboles que corrigen los errores de los anteriores. Se caracteriza por su alta precisión, capacidad para manejar relaciones no lineales y control sobre el sobreajuste mediante regularización.
El objetivo es:
- Comparar el rendimiento predictivo de ambos modelos mediante métricas como R², RMSE y MAE.
- Analizar la importancia relativa de las variables para comprender qué bandas y combinaciones aportan más información.
- Seleccionar el modelo más adecuado para la estimación de SST y guardar su pipeline para futuras predicciones.
2.3.1 Hiperparámetros utilizados
2.3.1.1 Random Forest
Los principales hiperparámetros que controlan el comportamiento del modelo son:
n_estimators: número de árboles en el bosque. Un valor mayor suele mejorar la estabilidad, pero aumenta el coste computacional.max_depth: profundidad máxima de cada árbol. Limitarla evita sobreajuste.min_samples_leaf: número mínimo de muestras en una hoja. Valores más altos generan árboles más simples.max_features: proporción de variables consideradas en cada división. Controla la diversidad entre árboles.selector__threshold: umbral para la selección de variables mediante importancia, aplicado antes del entrenamiento final.
2.3.1.2 XGBoost
Los principales hiperparámetros evaluados en el modelo son:
n_estimators: número de árboles en el ensamble. Controla la complejidad y el tiempo de entrenamiento.max_depth: profundidad máxima de cada árbol. Limitarla reduce el riesgo de sobreajuste.learning_rate: tasa de aprendizaje que regula cuánto contribuye cada árbol al modelo final.reg_alpha: término de regularización L1 para reducir sobreajuste.subsample: fracción de muestras utilizadas en cada iteración, lo que introduce aleatoriedad y mejora la generalización.selector__threshold: umbral para la selección de variables miante importancia.ed
Estos parámetros permiten ajustar el equilibrio entre precisión, robustez y eficiencia computacional.
2.3.2 Método de optimización
La selección de hiperparámetros se realiza mediante un esquema de validación cruzada anidada con dos fases internas distintas y una evaluación externa:
- Búsqueda interna (RandomizedSearchCV): explora de forma eficiente el espacio de hiperparámetros probando un número limitado de combinaciones aleatorias (parámetro
n_iter). Esta fase se usa dentro de cada pliegue del outer CV para generar predicciones fuera de muestra (OOF) y estimar el rendimiento sin sesgo. - Refinamiento final (GridSearchCV): una vez explorado el espacio, se aplica una búsqueda en malla sobre la grilla definida para refinar la elección y ajustar el pipeline final sobre el conjunto de validación, o conjunto completo disponible para ajuste. Esto permite obtener el estimador definitivo con los hiperparámetros seleccionados.
- Validación externa (K-Fold outer CV): el outer CV (K-Fold) evalúa el rendimiento realista del procedimiento completo, incluyendo la búsqueda de hiperparámetros, mediante predicciones OOF, evitando la optimista sobreestimación que tendría una evaluación realizada sobre los mismos datos usados para elegir hiperparámetros.
Métrica de optimización: el criterio usado es el coeficiente de determinación R². En la fase interna se maximizan las combinaciones que mejoran R²; para la evaluación final se reportan además métricas en la escala original, como RMSE, cuando procede.
Por qué esta combinación (Randomized → Grid dentro de CV anidado)?: RandomizedSearchCV permite explorar rápidamente espacios grandes con bajo coste computacional; una búsqueda en malla posterior sirve para afinar la búsqueda alrededor de las regiones más prometedoras. La anidación (inner/outer CV) proporciona una estimación más robusta de la generalización al separar la selección de hiperparámetros de la evaluación final del rendimiento.
Este enfoque asegura que el modelo seleccionado no solo se ajuste bien a los datos de entrenamiento, sino que también generalice adecuadamente.
2.3.3 Resultados del modelo
2.3.3.1 Modelo: RF
Hiperparámetros seleccionados
| model__max_depth | model__max_features | model__min_samples_leaf | model__n_estimators | selector__threshold |
|---|---|---|---|---|
| 10 | 0.5 | 2 | 300 | median |
Tabla de métricas
| Dataset | MAE | RMSE | R2 |
|---|---|---|---|
| Escala Log (CV) | 0.103070 | 0.141287 | 0.847770 |
| Escala Original (CV) | 8.425665 | 12.570240 | 0.862739 |
Importancia de variables:
Predicho vs Observado (Escala Log / Escala Original)
2.3.3.2 Modelo: XGB
Hiperparámetros seleccionados
| model__learning_rate | model__max_depth | model__n_estimators | model__reg_alpha | model__subsample | selector__threshold |
|---|---|---|---|---|---|
| 0.1 | 3 | 300 | 0 | 0.8 | median |
Tabla de métricas
| Dataset | MAE | RMSE | R2 |
|---|---|---|---|
| Escala Log (CV) | 0.094586 | 0.134599 | 0.861841 |
| Escala Original (CV) | 7.736296 | 12.048536 | 0.873896 |
Importancia de variables:
Predicho vs Observado (Escala Log / Escala Original)
2.3.3.3 Comparativa de modelos
| Modelo | MAE (Orig) | RMSE (Orig) | R2 (Orig) |
|---|---|---|---|
| RF | 8.425665 | 12.570240 | 0.862739 |
| XGB | 7.736296 | 12.048536 | 0.873896 |
Conclusión
Conclusión: El mejor modelo (por R² en escala original) es: XGB (R²: 0.874)
El modelo muestra un rendimiento sólido para la estimación de SST, con un R² elevado y errores aceptables en escala original. Esto sugiere que el algoritmo captura adecuadamente las relaciones entre las bandas espectrales y la concentración de sólidos suspendidos.
Las bandas más relevantes incluyen las bandas en el espectro visible y cercano infrarrojo, bandas B03 (verde), B02 (azul), B08 (NIR), junto con la banda costera B01, sensible a partículas finas y materia disuelta (CDOM). Físicamente esto es coherente, el aumento de sólidos en suspensión incrementa la dispersión de la luz en las bandas visibles y modifica la pendiente espectral entre visibles y NIR. El contraste entre bandas visibles y NIR refleja cambios en la turbidez, mientras que los cocientes y logaritmos resaltan variaciones relativas del espectro y reducen efectos de iluminación o atmósfera, lo que explica el buen desempeño del modelo.
2.3.4 Mapas de estimación de SST
En esta sección se detalla el proceso para generar mapas que estiman la concentración de Sólidos Suspendidos Totales (SST) en el río Paraná a partir de imágenes satelitales en formato GeoTIFF (.tif). La estimación se basa en el modelo obtenido anteriormente. Para el procesamiento se utilizará la librería rasterio en python.
Los mapas generados para cada fecha corresponden al recorte del área de interés del producto satelital corregido por ACOLITE.
Los mapas de SST confirman el patrón observado en las imágenes RGB. La ribera chaqueña (margen izquierda) muestra concentraciones más altas, mientras que la costa correntina (margen derecha) presenta valores menores. Esta distribución concuerda con una mayor resuspensión y aporte litoral del lado chaqueño.