Sólidos Suspendidos Totales en el Río Paraná

Autor/a
Afiliación

Ariadna Malena Seba

Fecha de publicación

9 de diciembre de 2025

Resumen

Este sitio web aborda el análisis de sólidos suspendidos totales (SST) en cuerpos de agua mediante el uso de imágenes satelitales y técnicas de aprendizaje automático. Presenta una introducción teórica sobre la importancia de los SST como indicador ambiental y luego desarrolla una parte práctica con Python, donde se integran datos espectrales y mediciones reales para aplicar modelos de regresión. Se evalúa el desempeño de estos modelos y se exploran relaciones entre bandas espectrales y SST, proponiendo mejoras metodológicas para estudios futuros.

Palabras clave

GISTAQ, UTN, FRRe, Quarto, Río Paraná, Sólidos Suspendidos

1 Revisión bibliográfica, por Vera Geneyer

El propósito de esta sección es sintetizar los enfoques más utilizados en la literatura para estimar parámetros fisicoquímicos del agua mediante teledetección satelital, con énfasis en sólidos suspendidos. Se analizan los tipos de datos empleados, las variables espectrales más relevantes y las ecuaciones propuestas por distintos autores, junto con los sensores, longitudes de onda y características de los cuerpos de agua estudiados. Esta revisión sirve de base para justificar el desarrollo y validación del algoritmo propuesto. Los métodos tradicionales se apoyan en relaciones empíricas entre la reflectancia y las propiedades del agua, utilizando bandas espectrales o índices como NDCI y NDTI. En contraste, las técnicas de aprendizaje automático permiten identificar patrones no lineales entre la reflectancia y los parámetros fisicoquímicos, ofreciendo mayor capacidad predictiva frente a modelos polinómicos.

1.1 Sólidos suspendidos totales

Los sólidos suspendidos totales (TSM) son la cantidad de materia en suspensión en el agua, que incluye plancton, minerales, arena, y microorganismos. Se determinan como el residuo no filtrable de una muestra de agua. Niveles altos (TSM) pueden reducir la transparencia del agua, limitar la luz y y transportar sustancias tóxicas, afectando la vida acuática y la calidad del agua. Este parámetro, medido mediante sensores remotos, nos da información sobre el estado físico del cuerpo de agua y están relacionados con factores como la humedad, temperatura y entre otros, que es vital para detectar riesgos al ecosistema y cumplir con las normas ambientales.

1.2 Métodos tradicionales

Tabla 1: Características principales de algoritmos tradicionales para la estimación de sólidos suspendidos.
Ecuación Bandas (nm) Métricas Aguas Plataforma Referencia
\(-229.34 \left( \frac{B03}{B08} \right)^{3}+1001.65 \left( \frac{B03}{B08} \right)^{2}-1422.7 \left( \frac{B03}{B08} \right)+665.17\) B03, B08 \(R^{2}\) Embalse1 Landsat-8 [1]
\(-244.83+40.21 \cdot B01-3.67 \cdot NDWI\) B01, NDWI (B03, B08) \(R^{2}\), RMSE, d Río2 GeoEye [2]

De acuerdo a un estudio que analizó 48 cuerpos de agua, la estimación de TSM se hizo en su mayoría por modelos lineales, siendo la banda B8A la más frecuente [3].

1.3 Métodos de aprendizaje automático

El aprendizaje automático (ML) es una rama de la inteligencia artificial cuyo objetivo es desarrollar algoritmos capaces de resolver problemas mediante el análisis de datos y la creación de funciones que describen el comportamiento de fenómenos monitoreados [4]. Los modelos de aprendizaje automático más utilizados y mencionados por los investigadores para predecir la concentración de SST son:

  • Bosque Aleatorio (RF) y Refuerzo Adaptativo (AdB), modelos que se destacan por su robustez ante datos complejos y ruidosos. Estos algoritmos construyen múltiples árboles de decisión que analizan las relaciones entre características como el uso del suelo o el volumen de escorrentía y los niveles de SST [5].

  • Redes Neuronales Artificiales (ANN), copian las redes neuronales biológicas y aprenden patrones complejos en grandes volúmenes de datos, como los niveles de SST en distintas condiciones ambientales [5],

  • k-Nearest Neighbors (kNN), en sus variantes de ponderación uniforme y variable, que estima el SST en función de la cercanía en características de nuevos puntos de muestreo con datos históricos [5].

El aprendizaje automático es esencial para mejorar la precisión y rapidez en el análisis de la calidad del agua, proporcionando un monitoreo más eficiente y menos costoso en comparación con los métodos tradicionales, especialmente en áreas de difícil acceso o con datos limitados.

Tabla 2: Características principales de algoritmos de aprendizaje automático para la estimación de sólidos suspendidos.
Modelo de machine learning Software Agua Datos Métricas Referencias
Bagging y Random Forest Programa R Bahía Muestreo Prueba de normalidad multivalente Mardia-tests y Royston [4]
Regresión lineal, LASSO, regresión de vectores de soporte (SVR), K vecinos más cercanos (KNN), bosque aleatorio (RF) y redes neuronales artificiales (ANN). - Lago y embalse Sentinel-2 y UAV \(R^{2}\) [6]
Regresión lineal, regresión de vectores de soporte (SVR), K vecinos más cercanos (KNN), bosque aleatorio (RF) y redes neuronales artificiales (ANN). Programa Python Lagos Estación de monitoreo (Sensores para cada parámetro) \(R^{2}\), NSE y RMSE [5]

2 Desarrollo del algoritmo, por Ariadna Seba

Esta sección describe el proceso completo para construir un modelo que estima los sólidos suspendidos totales (SST) a partir de datos satelitales y mediciones de campo. Se detallan las etapas de preparación de datos, cálculo de índices espectrales, selección de variables, ajuste del modelo y validación estadística, con el objetivo de garantizar la robustez y aplicabilidad del algoritmo.

2.1 Preparación de datos

2.1.1 Procesamiento con Sen2Cor

Se implementó un procedimiento en Python para procesar información ambiental georreferenciada, con el objetivo de analizar el comportamiento del parámetro sólidos suspendidos (sol_sus) en la región de estudio, específicamente en el píxel 3x3.

El procesamiento se realizó mediante la biblioteca pandas, utilizada para la manipulación y análisis de datos en estructuras tabulares, lo que permite operaciones eficientes como filtrado, combinación y transformación. Además, se emplearon módulos estándar como os y shutil para la gestión de archivos y creación de copias de seguridad, y datetime para generar marcas temporales en los respaldos.

El flujo de trabajo incluye:

  • Carga de datos desde archivos CSV.
  • Filtrado por el parámetro de interés (sol_sus).
  • Reorganización de las bandas espectrales en formato tabular.
  • Integración con mediciones de laboratorio.
  • Exportación del resultado final en formato CSV, asegurando trazabilidad y calidad antes del análisis.
Tabla 3: Primeras filas del DataFrame resultante
fecha punto latitud longitud B01 B02 B03 B04 B05 B06 B07 B08 B11 B12 B8A sol_sus
2023-05-11 1 -27.464687 -58.868047 0.161290 0.171256 0.206644 0.250911 0.258058 0.202170 0.207490 0.193722 0.118892 0.115462 0.173137 198.000000
2023-05-11 2 -27.466303 -58.866729 0.149906 0.170378 0.202278 0.242689 0.247115 0.186739 0.188027 0.175544 0.113992 0.111210 0.159373 150.000000
2023-05-11 3 -27.468056 -58.864889 0.149718 0.167256 0.197322 0.223511 0.218608 0.159292 0.163228 0.151544 0.114241 0.112931 0.139783 101.000000
2023-05-11 4 -27.469240 -58.863367 0.148441 0.163289 0.188733 0.196167 0.183854 0.139388 0.140017 0.135400 0.115602 0.113097 0.128222 95.000000
2023-05-11 5 -27.470561 -58.862454 0.145838 0.157733 0.178767 0.173911 0.162600 0.132140 0.133229 0.126656 0.117069 0.113992 0.124548 69.000000

2.1.2 Procesamiento con ACOLITE

A continuación, se aplicó el mismo procedimiento de procesamiento utilizado anteriormente, esta vez sobre el archivo base_de_datos_gis_acolite.csv, generado con el procesador atmosférico ACOLITE.

ACOLITE es una herramienta diseñada específicamente para la corrección atmosférica en ambientes acuáticos a partir de imágenes satelitales. Gracias a que la estructura del archivo es similar a la empleada en el procesamiento con Sen2Cor, fue posible aplicar la misma lógica de filtrado, transformación y combinación para preparar los datos de reflectancia.

El flujo de trabajo incluye:

  • Carga de datos desde archivos CSV.
  • Filtrado por el parámetro de interés (sol_sus).
  • Reorganización de las bandas espectrales en formato tabular.
  • Integración con mediciones de laboratorio.
  • Exportación del resultado final en formato CSV, con creación automática de copias de seguridad para evitar sobrescritura.
Tabla 4: Primeras filas del DataFrame resultante
fecha punto latitud longitud B01 B02 B03 B04 B05 B06 B07 B08 B11 B12 B8A sol_sus
2023-05-11 1 -27.464687 -58.868047 0.041367 0.046669 0.085630 0.128799 0.128704 0.091748 0.098365 0.083253 0.002521 0.000000 0.066612 198.000000
2023-05-11 2 -27.466303 -58.866729 0.032235 0.047916 0.084191 0.123898 0.122481 0.079922 0.082403 0.069021 0.001669 0.000000 0.055924 150.000000
2023-05-11 3 -27.468056 -58.864889 0.030956 0.044084 0.078444 0.104498 0.095737 0.052162 0.057475 0.044354 0.000209 0.000174 0.034767 101.000000
2023-05-11 4 -27.469240 -58.863367 0.029646 0.040407 0.070384 0.078357 0.063937 0.032452 0.033994 0.028441 0.001279 0.000000 0.022597 95.000000
2023-05-11 5 -27.470561 -58.862454 0.026737 0.034968 0.060701 0.056602 0.044067 0.024809 0.026684 0.019209 0.001879 0.000000 0.017930 69.000000

2.2 Estimación de SST mediante regresión lineal

En esta etapa se entrena un modelo de regresión lineal para analizar la relación entre la reflectancia en cada banda espectral y la concentración de sólidos suspendidos (sol_sus), utilizando datos experimentales.

La regresión lineal es una técnica estadística fundamental en el aprendizaje supervisado que permite predecir un valor continuo a partir de una o más variables independientes. Se emplea como modelo base por su simplicidad y capacidad para identificar tendencias iniciales antes de aplicar métodos más complejos.

Este análisis busca determinar qué bandas presentan mayor correlación con el parámetro de interés, lo que servirá para seleccionar variables relevantes en la construcción del algoritmo final. A lo largo de esta sección se detallan los pasos realizados y los conceptos clave para comprender y replicar el procedimiento.

2.2.1 Regresión lineal individual por banda

Con el fin de profundizar el análisis, se evaluó la relación entre los sólidos suspendidos (sol_sus) y cada banda espectral por separado. Para ello, se entrenó un modelo de regresión lineal utilizando los mismos datos experimentales para cada banda. Este enfoque permite comparar la capacidad predictiva individual de cada banda mediante las métricas , R² ajustado y el error cuadrático medio (RMSE):

  • R² (coeficiente de determinación) indica la proporción de la variabilidad explicada por el modelo; valores cercanos a 1 reflejan una mejor relación lineal.
  • R² ajustado corrige el R² considerando el número de variables y el tamaño de la muestra, evitando sobreestimaciones.
  • RMSE (Root Mean Squared Error) mide el error promedio entre valores observados y predichos; valores bajos indican mayor precisión.

Este análisis permite identificar qué bandas presentan mayor correlación con el parámetro de interés y constituye la base para seleccionar variables relevantes en modelos más complejos.

Para implementar este análisis se emplearon bibliotecas ampliamente utilizadas en ciencia de datos:

  • pandas para la carga y manipulación de datos en estructuras tabulares.
  • numpy para cálculos numéricos eficientes, como la raíz cuadrada en el RMSE.
  • scikit-learn, que proporciona:
    • LinearRegression para ajustar el modelo lineal.
    • train_test_split para dividir los datos en entrenamiento y prueba.
    • mean_squared_error para calcular el error cuadrático medio.
  • matplotlib para generar gráficos comparativos entre valores observados y predichos.

Este análisis permite identificar qué bandas presentan mayor correlación con el parámetro de interés y constituye la base para seleccionar variables relevantes en modelos más complejos.

Tabla 5: Resumen de métricas por banda (entrenamiento)
Banda R²_ajustado RMSE
B05 0.178 0.168 32.891
B06 0.161 0.150 33.233
B07 0.157 0.146 33.318
B08 0.143 0.132 33.594
B8A 0.114 0.103 34.145
B04 0.094 0.082 34.540
B12 0.019 0.007 35.926
B11 0.016 0.004 35.979
B01 0.001 -0.012 36.270
B03 0.001 -0.012 36.257
B02 0.000 -0.013 36.280

El análisis muestra que la relación lineal entre la reflectancia y los sólidos suspendidos es débil cuando se considera cada banda de forma individual. Aunque algunas bandas presentan un mejor desempeño relativo, ninguna alcanza un ajuste robusto que permita una estimación precisa del parámetro.

Estos resultados indican que la regresión lineal simple por banda no es suficiente para capturar la variabilidad de los sólidos suspendidos. Por esto, será necesario avanzar hacia modelos multibanda o enfoques más complejos.

2.2.2 Regresión lineal con transformación logarítmica

En esta etapa se aplica una transformación logarítmica natural a las variables de reflectancia y a la concentración de sólidos suspendidos (sol_sus) antes de ajustar los modelos de regresión lineal. Esta transformación permite:

  • Estabilizar la varianza, reduciendo la heterocedasticidad.
  • Linealizar relaciones no lineales, mejorando el ajuste del modelo.
  • Reducir el impacto de valores extremos, evitando que influyan de forma desproporcionada en la regresión.

El procedimiento sigue la lógica del análisis anterior, pero antes de entrenar el modelo se aplica log(x) a las columnas correspondientes. Para evitar errores, los valores cero se reemplazan por NaN y se excluyen del análisis. Posteriormente, se entrenan modelos de regresión lineal simple por banda usando las variables transformadas.

El desempeño se evalúa mediante métricas en escala logarítmica (R²_log, RMSE_log) y en escala original, lo que facilita la comparación y la interpretación de resultados.

Tabla 6: Métricas en escala log-log (ordenadas por RMSE_log)
Banda R²_log R²aj_log RMSE_log
B05 0.275 0.261 0.337
B06 0.268 0.253 0.339
B07 0.258 0.243 0.341
B08 0.241 0.226 0.345
B8A 0.210 0.195 0.352
B04 0.161 0.144 0.362
B11 0.065 0.046 0.383
B12 0.032 0.013 0.389
B03 0.002 -0.018 0.395
B01 0.000 -0.020 0.396
B02 0.000 -0.020 0.396
Tabla 7: Métricas en escala original (ordenadas por RMSE)
Banda R²aj RMSE
B05 0.186 0.169 33.309
B06 0.184 0.168 33.333
B07 0.173 0.156 33.569
B08 0.155 0.138 33.930
B8A 0.140 0.123 34.220
B04 0.077 0.059 35.454
B11 0.035 0.016 36.258
B12 -0.000 -0.020 36.914
B01 -0.034 -0.055 37.539
B02 -0.034 -0.055 37.540
B03 -0.036 -0.057 37.578

La aplicación de la transformación logarítmica mejoró la estabilidad y el ajuste del modelo en comparación con el análisis en escala original. Esta técnica permitió reducir la influencia de valores extremos, linealizar relaciones no lineales y obtener métricas más consistentes, especialmente en la escala logarítmica.

Aunque la mejora es evidente, los resultados indican que la regresión lineal simple sigue siendo limitada para estimar con precisión los sólidos suspendidos. Por esto, se continuará trabajando con las variables transformadas en log en las siguientes etapas, aplicando modelos multibanda y enfoques más complejos que permitan capturar mejor la variabilidad del parámetro.

2.2.3 Selección de bandas mediante AIC

Para determinar qué bandas espectrales aportan mayor información en la predicción de sólidos suspendidos, se ajustaron modelos de regresión lineal simple en escala logarítmica para cada banda individual. Además de las métricas habituales como el coeficiente de determinación (R²) y el error cuadrático medio (RMSE), se incorporó el Criterio de Información de Akaike (AIC).

El AIC es una medida que evalúa la calidad del modelo penalizando la complejidad: valores más bajos indican un mejor equilibrio entre ajuste y simplicidad. Esta característica permite evitar el sobreajuste, ya que no favorece modelos que mejoran el ajuste únicamente por aumentar el número de parámetros sin aportar información relevante. En este contexto, el AIC se convierte en una herramienta clave para seleccionar las bandas que realmente contribuyen a mejorar la predicción sin añadir complejidad innecesaria.

Bibliotecas y funciones destacadas:

  • pandas y numpy para manipulación y transformación de datos.
  • scikit-learn para el ajuste de modelos (LinearRegression) y cálculo de métricas.
  • Función propia aic_gauss() para calcular el AIC en modelos lineales gaussianos.
Tabla 8: AIC y métricas en escala log‑log (ordenadas por AIC)
Banda R²aj RMSE AIC
B05 0.275 0.261 0.337 -109.159
B06 0.268 0.253 0.339 -108.639
B07 0.258 0.243 0.341 -107.949
B08 0.241 0.226 0.345 -106.752
B8A 0.210 0.195 0.352 -104.710
B04 0.161 0.144 0.362 -101.566
B11 0.065 0.046 0.383 -95.931
B12 0.032 0.013 0.389 -94.126
B03 0.002 -0.018 0.395 -92.515
B01 0.000 -0.020 0.396 -92.433
B02 0.000 -0.020 0.396 -92.432

Este análisis muestra que algunas bandas presentan un mejor equilibrio entre ajuste y parsimonia, reflejado en valores más bajos de AIC.

En términos generales, el AIC se confirma como una herramienta útil para la selección de variables, ya que ayuda a identificar las bandas que contribuyen de manera significativa a la predicción sin añadir complejidad innecesaria. Este criterio será clave en la siguiente etapa.

2.2.4 Regresión multibanda con selección AIC y Forward Selection

En esta sección se construye un modelo de regresión lineal múltiple en escala logarítmica para estimar la concentración de sólidos suspendidos (sol_sus). El objetivo es seleccionar un conjunto óptimo de variables espectrales que maximicen la capacidad predictiva del modelo sin añadir complejidad innecesaria.

Para ello, se aplica el método de Forward Selection guiado por el Criterio de Información de Akaike (AIC). Este procedimiento comienza con un modelo vacío e incorpora progresivamente las variables que más reducen el AIC, siempre que la mejora sea significativa. El AIC permite equilibrar ajuste y simplicidad, evitando el sobreajuste.

Las variables se transforman a escala logarítmica para linealizar relaciones y reducir la variabilidad. Además, se generan combinaciones que incluyen:

  • Bandas individuales en log.
  • Ratios entre bandas y sus transformaciones logarítmicas, para capturar relaciones espectrales relevantes.

Durante la selección, se evalúa el desempeño mediante validación cruzada, calculando métricas como RMSE, y R² ajustado. Una vez seleccionadas las variables, se ajusta el modelo final, se construyen las ecuaciones en escala logarítmica y original, y se realiza un análisis bootstrap para obtener intervalos de confianza, garantizando robustez e interpretabilidad.

Este enfoque permite desarrollar un modelo más preciso y estable, adaptado a las condiciones reales del monitoreo ambiental.

Tabla 9: Selección variables (AIC, RMSE, R², R²aj)
Variables RMSE R²aj AIC
['log_ratio_B04_B05'] 0.193 0.689 0.661 -39.720
['log_ratio_B04_B05', 'log_B01'] 0.167 0.766 0.720 -41.695

Variables finales: log(B04/B05), log(B01)

Ecuación en escala logarítmica:

\(\displaystyle \log(sol\_sus) = 4.106− 2.434\,\log\left(\frac{B04}{B05}\right) − 0.201\,\log(B01)\)

Ecuación en escala original:

\(\displaystyle sol\_sus = 60.673 \times \left(\frac{B04}{B05}\right)^{-2.434} \times B01^{-0.201}\)

Tabla 10: Desempeño Train y Test
Métrica Train (log) Test (log) Train (mg/L) Test (mg/L)
RMSE 0.150 0.186 12.265 15.328
0.819 0.761 0.854 0.831
R² adj 0.811 0.727 0.848 0.806
Tabla 11: Intervalos de Confianza 95 % (Bootstrap)
Métrica Train prom Train 2.5% Train 97.5% Test prom Test 2.5% Test 97.5%
RMSE 0.144 0.116 0.173 0.153 0.069 0.228
0.824 0.738 0.895 0.811 0.581 0.962
R² adj 0.816 0.727 0.891 0.784 0.521 0.956

El enfoque multibanda en escala logarítmica mejoró significativamente la capacidad predictiva respecto a los modelos univariantes, logrando métricas más robustas tanto en entrenamiento como en prueba.

El análisis confirma que la combinación de bandas y ratios seleccionados aporta información relevante para explicar la variabilidad de los sólidos suspendidos, reduciendo el error y aumentando la estabilidad del modelo. Además, la validación cruzada y el análisis bootstrap proporcionaron intervalos de confianza que refuerzan la confiabilidad del ajuste.

2.2.5 Mapas de estimación de SST

En esta sección se describe el proceso para generar mapas que estiman la concentración de Sólidos Suspendidos Totales (SST) en el río Paraná, a partir de imágenes satelitales en formato GeoTIFF (.tif). La estimación se basa en la ecuación obtenida previamente, con el fin de verificar el correcto funcionamiento del código mediante la lectura de la imagen ráster y la visualización del área de estudio.

El flujo de trabajo incluye:

  • Lectura y procesamiento de archivos .tif para extraer las bandas espectrales.
  • Cálculo del NDWI (Índice Diferencial de Agua Normalizado) para generar una máscara que delimite cuerpos de agua.
  • Aplicación de la ecuación multibanda para estimar SST (ppm).
  • Visualización y exportación de resultados en PNG y GeoTIFF.

El NDWI (Normalized Difference Water Index) es un índice que resalta zonas con presencia de agua, calculado como:

\[ NDWI = \frac{B03 - B11}{B03 + B11} \]

donde B03 corresponde a la banda verde y B11 a la banda del infrarrojo de onda corta. Valores altos indican mayor probabilidad de agua. Este índice se utiliza para generar una máscara que separa agua de tierra mediante un umbral adaptativo.

Para definir el umbral que separa agua y tierra, se emplea el método de Otsu, que analiza la distribución de valores NDWI y selecciona el punto que minimiza la varianza intra-clase. El histograma muestra la frecuencia de valores NDWI y líneas que indican:

  • Umbral calculado por Otsu.
  • Media y mediana del NDWI.

Esto permite ajustar el umbral de forma robusta según las condiciones de cada imagen.

Los mapas generados para cada fecha corresponden al recorte del área de interés del producto satelital corregido por ACOLITE.

RGB Original

RGB Original

Máscara de Agua

Máscara de Agua

Estimación SST (mg/L)

Estimación SST (mg/L)

Histograma NDWI

Histograma NDWI

RGB Original

RGB Original

Máscara de Agua

Máscara de Agua

Estimación SST (mg/L)

Estimación SST (mg/L)

Histograma NDWI

Histograma NDWI

RGB Original

RGB Original

Máscara de Agua

Máscara de Agua

Estimación SST (mg/L)

Estimación SST (mg/L)

Histograma NDWI

Histograma NDWI

RGB Original

RGB Original

Máscara de Agua

Máscara de Agua

Estimación SST (mg/L)

Estimación SST (mg/L)

Histograma NDWI

Histograma NDWI

RGB Original

RGB Original

Máscara de Agua

Máscara de Agua

Estimación SST (mg/L)

Estimación SST (mg/L)

Histograma NDWI

Histograma NDWI

RGB Original

RGB Original

Máscara de Agua

Máscara de Agua

Estimación SST (mg/L)

Estimación SST (mg/L)

Histograma NDWI

Histograma NDWI

RGB Original

RGB Original

Máscara de Agua

Máscara de Agua

Estimación SST (mg/L)

Estimación SST (mg/L)

Histograma NDWI

Histograma NDWI

RGB Original

RGB Original

Máscara de Agua

Máscara de Agua

Estimación SST (mg/L)

Estimación SST (mg/L)

Histograma NDWI

Histograma NDWI

2.3 Estimación de SST mediante Machine Learning

En esta sección se aplican modelos de aprendizaje automático para estimar la concentración de Sólidos Suspendidos Totales (SST) a partir de variables predictoras derivadas de la reflectancia satelital. Este enfoque permite capturar relaciones no lineales y aprovechar la información multiespectral de manera más eficiente que los métodos lineales tradicionales.

Se entrenan y evalúan dos algoritmos ampliamente utilizados en problemas de regresión:

  • Random Forest (RF): algoritmo de aprendizaje supervisado basado en conjuntos de árboles de decisión. Su funcionamiento se basa en entrenar múltiples árboles sobre diferentes subconjuntos de datos y promediar sus predicciones, lo que reduce el riesgo de sobreajuste y mejora la estabilidad del modelo. Es especialmente útil para problemas con relaciones no lineales y gran número de variables, como en este caso, donde se utilizan bandas espectrales y combinaciones derivadas.

  • XGBoost (XGB): algoritmo basado en boosting de árboles de decisión, diseñado para optimizar el rendimiento mediante la construcción secuencial de árboles que corrigen los errores de los anteriores. Se caracteriza por su alta precisión, capacidad para manejar relaciones no lineales y control sobre el sobreajuste mediante regularización.

El objetivo es:

  • Comparar el rendimiento predictivo de ambos modelos mediante métricas como , RMSE y MAE.
  • Analizar la importancia relativa de las variables para comprender qué bandas y combinaciones aportan más información.
  • Seleccionar el modelo más adecuado para la estimación de SST y guardar su pipeline para futuras predicciones.

2.3.1 Hiperparámetros utilizados

2.3.1.1 Random Forest

Los principales hiperparámetros que controlan el comportamiento del modelo son:

  • n_estimators: número de árboles en el bosque. Un valor mayor suele mejorar la estabilidad, pero aumenta el coste computacional.
  • max_depth: profundidad máxima de cada árbol. Limitarla evita sobreajuste.
  • min_samples_leaf: número mínimo de muestras en una hoja. Valores más altos generan árboles más simples.
  • max_features: proporción de variables consideradas en cada división. Controla la diversidad entre árboles.
  • selector__threshold: umbral para la selección de variables mediante importancia, aplicado antes del entrenamiento final.

2.3.1.2 XGBoost

Los principales hiperparámetros evaluados en el modelo son:

  • n_estimators: número de árboles en el ensamble. Controla la complejidad y el tiempo de entrenamiento.
  • max_depth: profundidad máxima de cada árbol. Limitarla reduce el riesgo de sobreajuste.
  • learning_rate: tasa de aprendizaje que regula cuánto contribuye cada árbol al modelo final.
  • reg_alpha: término de regularización L1 para reducir sobreajuste.
  • subsample: fracción de muestras utilizadas en cada iteración, lo que introduce aleatoriedad y mejora la generalización.
  • selector__threshold: umbral para la selección de variables miante importancia.ed

Estos parámetros permiten ajustar el equilibrio entre precisión, robustez y eficiencia computacional.

2.3.2 Método de optimización

La selección de hiperparámetros se realiza mediante un esquema de validación cruzada anidada con dos fases internas distintas y una evaluación externa:

  • Búsqueda interna (RandomizedSearchCV): explora de forma eficiente el espacio de hiperparámetros probando un número limitado de combinaciones aleatorias (parámetro n_iter). Esta fase se usa dentro de cada pliegue del outer CV para generar predicciones fuera de muestra (OOF) y estimar el rendimiento sin sesgo.
  • Refinamiento final (GridSearchCV): una vez explorado el espacio, se aplica una búsqueda en malla sobre la grilla definida para refinar la elección y ajustar el pipeline final sobre el conjunto de validación, o conjunto completo disponible para ajuste. Esto permite obtener el estimador definitivo con los hiperparámetros seleccionados.
  • Validación externa (K-Fold outer CV): el outer CV (K-Fold) evalúa el rendimiento realista del procedimiento completo, incluyendo la búsqueda de hiperparámetros, mediante predicciones OOF, evitando la optimista sobreestimación que tendría una evaluación realizada sobre los mismos datos usados para elegir hiperparámetros.

Métrica de optimización: el criterio usado es el coeficiente de determinación R². En la fase interna se maximizan las combinaciones que mejoran R²; para la evaluación final se reportan además métricas en la escala original, como RMSE, cuando procede.

Por qué esta combinación (Randomized → Grid dentro de CV anidado)?: RandomizedSearchCV permite explorar rápidamente espacios grandes con bajo coste computacional; una búsqueda en malla posterior sirve para afinar la búsqueda alrededor de las regiones más prometedoras. La anidación (inner/outer CV) proporciona una estimación más robusta de la generalización al separar la selección de hiperparámetros de la evaluación final del rendimiento.

Este enfoque asegura que el modelo seleccionado no solo se ajuste bien a los datos de entrenamiento, sino que también generalice adecuadamente.

2.3.3 Resultados del modelo

2.3.3.1 Modelo: RF

Hiperparámetros seleccionados

model__max_depth model__max_features model__min_samples_leaf model__n_estimators selector__threshold
10 0.5 2 300 median

Tabla de métricas

Dataset MAE RMSE R2
Escala Log (CV) 0.103070 0.141287 0.847770
Escala Original (CV) 8.425665 12.570240 0.862739

Importancia de variables:

Importancia de variables

Importancia de variables

Predicho vs Observado (Escala Log / Escala Original)

Escala Log

Escala Log

Escala Original

Escala Original

2.3.3.2 Modelo: XGB

Hiperparámetros seleccionados

model__learning_rate model__max_depth model__n_estimators model__reg_alpha model__subsample selector__threshold
0.1 3 300 0 0.8 median

Tabla de métricas

Dataset MAE RMSE R2
Escala Log (CV) 0.094586 0.134599 0.861841
Escala Original (CV) 7.736296 12.048536 0.873896

Importancia de variables:

Importancia de variables

Importancia de variables

Predicho vs Observado (Escala Log / Escala Original)

Escala Log

Escala Log

Escala Original

Escala Original

2.3.3.3 Comparativa de modelos

Modelo MAE (Orig) RMSE (Orig) R2 (Orig)
RF 8.425665 12.570240 0.862739
XGB 7.736296 12.048536 0.873896

Conclusión

Conclusión: El mejor modelo (por R² en escala original) es: XGB (R²: 0.874)

El modelo muestra un rendimiento sólido para la estimación de SST, con un R² elevado y errores aceptables en escala original. Esto sugiere que el algoritmo captura adecuadamente las relaciones entre las bandas espectrales y la concentración de sólidos suspendidos.

Las bandas más relevantes incluyen las bandas en el espectro visible y cercano infrarrojo, bandas B03 (verde), B02 (azul), B08 (NIR), junto con la banda costera B01, sensible a partículas finas y materia disuelta (CDOM). Físicamente esto es coherente, el aumento de sólidos en suspensión incrementa la dispersión de la luz en las bandas visibles y modifica la pendiente espectral entre visibles y NIR. El contraste entre bandas visibles y NIR refleja cambios en la turbidez, mientras que los cocientes y logaritmos resaltan variaciones relativas del espectro y reducen efectos de iluminación o atmósfera, lo que explica el buen desempeño del modelo.

2.3.4 Mapas de estimación de SST

En esta sección se detalla el proceso para generar mapas que estiman la concentración de Sólidos Suspendidos Totales (SST) en el río Paraná a partir de imágenes satelitales en formato GeoTIFF (.tif). La estimación se basa en el modelo obtenido anteriormente. Para el procesamiento se utilizará la librería rasterio en python.

Los mapas generados para cada fecha corresponden al recorte del área de interés del producto satelital corregido por ACOLITE.

RGB Original

RGB Original

Máscara de Agua

Máscara de Agua

Estimación SST (mg/L)

Estimación SST (mg/L)

Histograma NDWI

Histograma NDWI

RGB Original

RGB Original

Máscara de Agua

Máscara de Agua

Estimación SST (mg/L)

Estimación SST (mg/L)

Histograma NDWI

Histograma NDWI

RGB Original

RGB Original

Máscara de Agua

Máscara de Agua

Estimación SST (mg/L)

Estimación SST (mg/L)

Histograma NDWI

Histograma NDWI

RGB Original

RGB Original

Máscara de Agua

Máscara de Agua

Estimación SST (mg/L)

Estimación SST (mg/L)

Histograma NDWI

Histograma NDWI

RGB Original

RGB Original

Máscara de Agua

Máscara de Agua

Estimación SST (mg/L)

Estimación SST (mg/L)

Histograma NDWI

Histograma NDWI

RGB Original

RGB Original

Máscara de Agua

Máscara de Agua

Estimación SST (mg/L)

Estimación SST (mg/L)

Histograma NDWI

Histograma NDWI

RGB Original

RGB Original

Máscara de Agua

Máscara de Agua

Estimación SST (mg/L)

Estimación SST (mg/L)

Histograma NDWI

Histograma NDWI

RGB Original

RGB Original

Máscara de Agua

Máscara de Agua

Estimación SST (mg/L)

Estimación SST (mg/L)

Histograma NDWI

Histograma NDWI

Los mapas de SST confirman el patrón observado en las imágenes RGB. La ribera chaqueña (margen izquierda) muestra concentraciones más altas, mientras que la costa correntina (margen derecha) presenta valores menores. Esta distribución concuerda con una mayor resuspensión y aporte litoral del lado chaqueño.

Referencias

[1]
D. C. R. Ramírez, «Método de Estimación de Sólidos Suspendidos Totales como Indicador de la Calidad del Agua Mediante Imágenes Satelitales». Universidad Nacional de Colombia, Facultad de Ciencias Agrarias, 2017.
[2]
G. D. J. L., J. Stephan, y Delance-Martinic., «Determinación del parámetro sólidos suspendidos totales (sst) mediante imágenes de sensores ópticos en un tramo de la cuenca media del río Bogotá (Colombia).», UD y la Geomática, pp. 19-27, 2014, doi: 10.14483/udistrital.jour.udgeo.2014.9.a02.
[3]
A. Cruz-Retana, C. Fonseca-Ortiz, R. Becerril-Piña, M. A. Gómez-Albores, M. Hernández-Téllez, y R. Arévalo-Mejia, «Characterization of spectral reflectance and TSS concentration in continental water bodies worldwide», vol. 1. pp. 4-18, 2023.
[4]
E. E. C. Vargas, «Modelamiento de Relaciones entre Parámetros Fisicoquímicos y Microbiológicos en Aguas de la Bahía Interior del Lago Titicaca-Puno (Perú) mediante Árboles de Predicción», Revista Tecnica De La Facultad De Ingenieria Universidad Del Zulia, vol. 44, pp. 154-168, ago. 2021, doi: 10.22209/rt.v44n3a02.
[5]
M. Moeini, A. Shojaeizadeh, y M. Geza, «Supervised machine learning for estimation of total suspended solids in urban watersheds», Water (Switzerland), vol. 13, ene. 2021, doi: 10.3390/w13020147.
[6]
L. S. Kupssinskü, T. T. Guimarães, E. M. D. Souza, y D. C. Zanotta, «A method for chlorophyll-a and suspended solids prediction through remote sensing and machine learning», Sensors (Switzerland), vol. 20, abr. 2020, doi: 10.3390/s20072125.

Notas

  1. Aguas lénticas.↩︎

  2. d = prueba estadística de Durbin-Watson.↩︎