50
Universidad de los Andes Facultad de Ciencias Departamento de Geociencias MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO- GEOESTADÍSTICO DE LAS PROPIEDADES HIDROGEOQUÍMICAS DEL SISTEMA ACUÍFERO DEL VALLE MEDIO DEL MAGDALENA (SAVMM)- COLOMBIA Proyecto de Grado presentado por: Laura Catalina Cáceres Torres Bogotá DC, Colombia 2018

MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

Universidad de los Andes

Facultad de Ciencias

Departamento de Geociencias

MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO-

GEOESTADÍSTICO DE LAS PROPIEDADES HIDROGEOQUÍMICAS DEL

SISTEMA ACUÍFERO DEL VALLE MEDIO DEL MAGDALENA (SAVMM)-

COLOMBIA

Proyecto de Grado presentado por:

Laura Catalina Cáceres Torres

Bogotá DC, Colombia

2018

Page 2: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

MAPEO POR ANÁLISIS HÍBIRDO DE APRENDIZAJE AUTOMÁTICO-

GEOESTADÍSTICO DE LAS PROPIEDADES HIDROGEOQUÍMICAS DEL SISTEMA

ACUÍFERO DEL VALLE MEDIO DEL MAGDALENA (SAVMM)-COLOMBIA

POR:

Laura Catalina Cáceres Torres

DIRECTOR:

Fabio Iwashita PhD

CO-DIRECTOR:

Jorge Salgado Bonnet PhD

PROYECTO DE GRADO

Presentado a:

UNIVERSIDAD DE LOS ANDES

Para obtener el Título de:

GEOCIENTIFICO

BOGOTA DC, COLOMBIA

2018

Page 3: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

A mis Padres y Hermanas por creer siempre en mí.

Vivir la vida, aceptar el reto,

recuperar la risa, ensayar el canto,

bajar la guardia y extender las manos,

desplegar las alas e intentar de nuevo,

celebrar la vida y retomar los cielos.

Mario Benedetti

Page 4: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

Resumen:

El agua subterránea representa una reserva importante de agua dulce. Es necesario caracterizar

su ocurrencia, distribución y principales características hidráulicas e hidrogeoquímicas para una

gestión adecuada y sostenida del recurso. Este trabajo pretende utilizar técnicas geoestadística y

computacionales (en inglés Self-Organizing Maps-SOM) para estimación de datos faltantes en la

creación de modelos hidrogeológicos en el Sistema Acuífero del Valle Medio del Magdalena

(SAVMM). El conjunto de datos fue suministrado por la Autoridad Nacional de Licencias

Ambientales y está compuesto de 289 pozos localizados en el Valle Medio del Magdalena (VMM)

con 13 variables hidroquimicos (Solidos totales disueltos, Conductividad, Potasio, Bicarbonatos,

Profundidad, Nitratos, Magnesio, Temperatura, Calcio, Cloruro, pH, Sodio y Sulfatos). Por

consiguiente, los objetivos del presente trabajo son: a) estimar valores hidrogeoquímicas

faltantes del sistema acuífero del Valle del Magdalena Medio mediante imputación con SOM; b)

evaluar la incertidumbre de valores estimados de los parámetros hidrogeoquímicos; c) análisis

geoestadístico de los parámetros fisicoquímicos para modelar espacialmente la distribución de

las propiedades hidrogeoquímicas del SAVMM. Los resultados incluyen la estimación de los datos

faltantes, el análisis de incertidumbre de las muestras estimadas a través de la estrategia de

‘leave-one-out’, el análisis de variogramas y los mapas de las variables hidroquímicas usando

Kriging ordinario.

Palabras Clave: SOM (Self-Organizing Map), Geoestadistica, Hidrogeoquímica, Agua Subterránea,

imputación

Page 5: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

Tabla de contenido

Pagina 1. Introducción --------------------------------------------------------------------------------- 1

2. Descripción Área de Estudio ------------------------------------------------------------ 2

2.1 Ubicación --------------------------------------------------------------------------- 2

2.2 Marco Geológico ----------------------------------------------------------------- 2

2.2.1 Geología Local ----------------------------------------------------------- 4

2.2.2 Estratigráfica Local ------------------------------------------------------6

2.3 Marco Hidrogeológico -----------------------------------------------------------8

3. Marco Teórico ------------------------------------------------------------------------------16

3.1 Método de Imputación de datos ---------------------------------------------16

3.2 Mapa autorganizado (Self-Organizing Maps (SOM)) --------------------18

3.3 Análisis Geoestadístico (Variogramas)-------------------------------------- 21

4. Resultados y Discusión ------------------------------------------------------------------ 23

4.1 Análisis Automático (SOM) --------------------------------------------------- 23

4.2 Análisis Geoestadístico--------------------------------------------------------- 33

5. Conclusiones ------------------------------------------------------------------------------- 43

6. Referencias --------------------------------------------------------------------------------- 44

Page 6: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

1

1. INTRODUCCIÓN

El Sistema Acuífero del Valle Medio del Magdalena (SAVMM), Colombia, está ubicado en la

cuenca sedimentaria del Valle Medio del Magdalena, zona con el mayor consumo de agua

subterránea , 78% del agua concesionada a nivel nacional (IDEAM, 2014a). Esta zona del país

presenta un alto grado de producción agrícola, minera y de hidrocarburos lo que puede

considerarse como una fuente potencial de alteración de la calidad del agua subterránea

(IDEAM, 2014a); así mismo es lugar del mayor yacimiento de gas lutita del país (ANH, 2012).

Además, la demanda de agua subterránea ha incrementado debido a que se ha empleado

como suministro de agua potable en diferentes comunidades y para uso agrícola e industrial

(IDEAM, 2014a) y por ser una importante reserva de agua dulce con menor susceptibilidad a

procesos de contaminación y degradación con respecto a fuentes superficiales (IDEAM , 2014).

De acuerdo a lo anterior, es necesario caracterizar su ocurrencia, distribución y principales

características hidráulicas, hidrológicas e Hidrogeoquímicas para una gestión adecuada y

sostenida del recurso (IDEAM , 2014).

La ausencia de datos para la creación de modelos numéricos confiables genera incertidumbre

y en ocasiones inconsistencias, pero existen alternativas para hacer frente a la escasez de

datos como los métodos de Imputación; los cuales componen aproximaciones estadísticas y

matemáticas para estimar valores faltantes en un conjuntos de datos (Iwashita F. , 2017), sin

embargo es un método con enfoque lineal que debe ser complementado con técnicas como

Mapas Auto-Organizados (SOM) de cuantificación vectorial lineal (Konohen T. , 1984) que

permite caracterizar conjuntos de datos de datos de gran dimensión representándolos en dos

o tres dimensiones y proyectándolos en mapas compuestos por vectores de código.

Adicionalmente, para observar el comportamiento espacial de los diferentes parámetros, se

hace uso de técnicas geoestadisticas como Krigging Ordinario para estimación de puntos y

Semivariogramas para obtención de ponderadores que se asignan a cada punto de referencia

usado en la estimación. La base de datos fue suministrada por la autoridad de licencia

ambientales (ANLA) de la cual se escogieron 4 variables explicativas (Conductividad,

Page 7: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

2

Profundidad, Temperatura, pH) y 9 variables hidroquímicas (Potasio (K), Bicarbonatos (HCO3),

Solidos Totales Disueltos (STD), Nitratos (NO3-), Magnesio(Mg), Calcio (Ca), Cloruro(Cl-), Sodio

(Na) y Sulfatos (SO4-2 )) de los 289 pozos localizados en el Valle Medio del Magdalena.

Objetivos

General Estimar valores hidrogeoquímicas faltantes del sistema acuífero del Valle del

Magdalena Medio mediante imputación con SOM

Específicos 1. Evaluar la incertidumbre de valores estimados de los parámetros

hidrogeoquímicos

2. Análisis geoestadístico de los parámetros fisicoquímicos para modelar

espacialmente la distribución de las propiedades hidrogeoquímicas del

SAVMM

2. AREA DE ESTUDIO

2.1. Ubicación

El Sistema Acuífero del Valle Medio del Magdalena (SAVMM) está localizado en la cuenca

sedimentaria del Valle Medio del Magdalena, limitada por la Cordillera Oriental y Central

de los Andes Colombianos, abarca una superficie de 14.913km2. (Figura 1)

2.2 Marco Geológico

La Provincia Hidrogeológica del Valle Medio del Magdalena (SAVMM) en Colombia, tiene

un área de 24.496Km2 y corresponde a la zona de mayor consumo de agua subterránea,

con un 78% del agua concesionada a nivel nacional (IDEAM , 2014). Este sistema

hidrogeológico se extiende de norte a sur, donde limita con el cinturón plegado de

Girardot. Al nororiente, con el sistema de fallas de Bucaramanga- Santa Marta, Bitumia

Page 8: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

3

y La salina. Al occidente, con el basamento de la serranía de San Lucas y el basamento

igneo-metamorfico de la Cordillera Central (IDEAM , 2014). La compleja evolución de la

cuenca del Valle Medio del Magdalena (VMM) durante el Paleógeno-Neógeno, ha sido

considera como el resultado de la interacción de las Placas Suramericana y Caribe, que

llevo a una intensa deformación de origen compresivo en la margen continental.

Las unidades sedimentarias que componen la cuenca se desarrollan sobre un basamento

ígneo-metamórfico, que rellena la cuenca desde el jurásico hasta los depósitos más joven

del Plioceno-Holoceno. Se han identificado tres eventos de sedimentación; la primera

secuencia, se deposito en ambientes continentales a marginales durante un rift

intracratónico durante el Triásico y comienzos del Jurásico; la segunda secuencia ocurrió

durante el Jurásico – Cretáceo, sedimentada en ambientes fluviales y litorales, durante

una fase de extensión producto de un rift de retro-arco. Finalmente, la última secuencia

sedimentaria corresponde a la del Cretáceo-Paleoceno, sedimentada en condiciones

marinas, durante un proceso tectónico de subsidencia termal. (Etayo-2013)

Durante el proceso de expansión del rift se sedimento la secuencia que conforma las

formaciones Girón, Los santos y Tambor. Después, durante la fase de subsidencia termal,

se depósitaron las formación Rosablanca,Paja, Tablazo, Simiti y los Miembros de la

formación La Luna (Salada, Pujama y Galembo), siendo este el nivel de máxima

inundación marina del cretáceo (ANH, 2012). El ciclo sedimentario finalizo con un

periodo tectónico compresivo(Paleoceno-Eoceno) que origino elevaciones estructurales

que afectaron los procesos erosivos en la parte superior de la secuencia cretácica. Para

depositarse posteriormente de manera discordante las formaciones correspondientes al

Paleógeno tardío (La Paz y Esmeraldas), coincidiendo con el inicio del cabalgamiento y

llegando así a la depositación de las formaciones Mugrosa, Colorado y La Cira (ANH,

2012).

Page 9: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

4

Se han identificado diferentes lineamientos y deformaciones asociadas al levantamiento

de la cordillera oriental en su flanco occidental. De acuerdo al Mapa Geológico

Colombiano (SGC,2015) se observan el sinclinal del Ermitaño, sinclinal de Peña de Oro,

Sinclinal del Nuevo Mundo entre otros con orientación preferencial norte-sur y

deformados por unidades cretácicas y paleógenas. Así mismo se reconocen lineamientos

correspondientes a fallas producto de esfuerzos compresivos al occidente del área de

estudio, la mayoría de las fallas son inversas de bajo ángulo, algunas son la falla de

arrugas, fallas de infantas, falla de Cambras en su gran mayoría de orientación Norte-Sur.

Algunas fallas conocidas como las Brisas, San Blas y Cimitarra son de fallas de rumbo con

componente dextral.

Finalmente, la Falla de Casaba de gran importancia para los sistemas petrolíferos, se

encuentra al este del municipio de Barrancabermeja y se extiende en dirección NE desde

el extremo W de la plancha 119 Barrancabermeja. Tiene una extensión aproximada de

39km, tipo normal, con plano de falla buzante al W, y con una dirección de rumbo NE-

SW; está cubierta por sedimentos cuaternarios y la formación Mugrosa.

2.2.1 Geología Local

El SAVMM, está delimitado por diferentes sistemas de fallas, cinturones plegados y

diferentes basamentos. El área de estudio corresponde a una cuenca intracordilllera

basculada hacia el oriente y diferentes unidades sedimentarias y cristalinas asociadas a

diferentes procesos geológicos del Jurásico y Cuaternario. Donde afloran rocas de diverso

origen y edad, como secuencias de conglomerados, arenas y arcillas del Mio-Plioceno

que le comunican a la topografía una morfología variable entre ondulada y escarpada,

contrario a la morfología suave que generan las sedimentitas cuaternarias formadas por

depósitos volcánicos y aluviales del Rio Magdalena.

Page 10: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

5

Adicionalmente las rocas del SAVMM presentan evidencia de la incursión marina

desarrollada durante el cretácico, dejando evidencias paleontológicas a su paso. Así

mismo, durante el paleógeno, el inicio del proceso de inversión tectónica de la cuenca

genera un cambio en el ambiente de depositación de las unidades, pasando de un

ambiente marino a un ambiente controlado por procesos fluviales con evidencia en la

Formación Mesa, Grupo Real y Depósitos cuaternario.

El VMM presenta un gran número de estructuras de pliegues y cabalgamientos inducidos,

los cuales pueden ser analizados a partir de su origen, carácter, geometría y relaciones

espaciales a partir de 3 provincias estructurales.

1. Provincia Piedemonte Occidental de la Cordillera Oriental (II)

La primera provincia estructural corresponde al cinturón de pliegues y

corrimientos del Piedemonte Occidental de la Cordillera Oriental en el VMM ,

limita por el sistema de Fallas de la Salina al oriente y los cabalgamientos frontales

de la Cordillera Oriental, como Dos Hermanos (Cambrás) y Corcovada Guineal.

Está constituida un arreglo de estructuras caracterizado por anticlinales

relativamente estrechos y alargados y sinclinales amplios y de moderada

extensión, los cuales obedecen a un mecanismo de propagación de fallas desde

el basamento hacia niveles estratigráficos más altos.}

2. Provincia Central VMM (III)

Esta provincia se extiende desde el Rio Magdalena al occidente hasta los pliegues

y cabalgamientos más externos del Piedemonte. Contiene un amplio monoclinal

inclinado hacia el este, configurando las sedimentitas del Neógeno.

3. Provincia Occidental VMM(IV)

Esta provincia se extiende a lo largo del flanco oriental de la Cordillera Central

entre el cinturón de pliegues y cabalgamientos del Piedemonte Occidental de la

Cordillera Oriental. En general, son estructuras con alta inclinación y

Page 11: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

6

comportamiento ligeramente lístrico en profundidad, con superficies de

despegue inferidas en rocas precretáceas posiblemente paleozoicas o

precámbricas.

2.2.2 Estratigrafía Local

El SAVMM, está compuesto en gran parte por Rocas Sedimentarias en un 95%, las

cuales corresponde a 12 formaciones litoestatigráficas y litodemicos 1.

Pre-Cretácico

a. Batolito de Segovia: Cuerpo plutónico alargado en sentido norte-sur, que

coincide con el sentido tectónico regional; tiene una longitud de 270km y

un ancho en su parte central de 50km. Esta compuesta principalmente por

dioritas con variaciones composicionales y texturales hacia dioritas

cuarzosas y gabros hornblendicos. Tonalidad grisácea, heterogénea y una

textura fanerítica de grano fino.

b. Formación Norean: Corresponde a una secuencia vulcanoplástica que

aflora en el Departamento de Santander, típicamente piroclastica con

fragmentos de composición dacitica a andesitica en el Oriente de la

serranía de San Lucas.

Cretácico

Formación La Luna: Corresponde a unidad calcárea fina constituida por

biomicritas, con variaciones graduales a lo largo de la sucesión. Predominan

lodolitas calcáreas-grises-fosilíferas laminadas con nódulos de micritas

hasta 1m de diámetro. Los Sedimentos basales de la unidad se desarrollan

1 Cuerpo definido de roca, predominantemente intrusivo con metamorfismo de alto grado o muy deformado

Page 12: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

7

sobre la superficie transgresiva que coincide con la inundación regional a

inicios del Turoniano. Su espeso medio es de 188m. y de 300 a 350m en el

subsuelo. (Sarmiento Perez, Puentes, & Sierra , 2015 )

Paleógeno

a. Grupo Chorro: Corresponde a rocas del Eoceno y Oligoceno Temprano,

compuesto por las formaciones Esmeraldas y la Paz. La formacion Esmeraldas

fue nombrada por (Morales , 1958) compuesta por areniscas grises y verdosas

de grano fino con intercalaciones de limolitas y lutitas rojas, purpura y pardo;

contiene algunas capas de carbón. Su ambiente deposicional fue bajo

condiciones lagunares deltaicas, y su espesor calculado ha sido 1200m.

Suprayace la formación La Paz mientras que el contacto superior es con la

Formación la Mugrosa. Respecto a la formación La Paz esta compuestas por

areniscas de color gris claro con estratificación cruzada y conglomerados

lenticulares e intercalaciones de calizas grises moteadas.

b. Grupo Chuspas: Corresponde a la Unidad Litoestratigráfica de rango

mayor que incluye las formaciones Mugrosa y Colorado [L. Morales, 1958],

a formación Mugrosa en su parte basal consiste en areniscas de grano fino a

medio- color gris- con intercalaciones de lutitas grises y azules (Mora & Rizzi,

2004). Su ambiente de formación compete abanicos aluviales al occidente del

sistema de ríos meandricos en el centro y oriente de la cuenca.

La formación Colorado, está compuesta por lutitas masicas de color violeta

rojizo con varias capas masivas de areniscas localmente conglomeráticas con

granocrecimiento.

Page 13: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

8

Neógeno

a. Grupo Real: Descrita por Wheeler (Porta, 1974). Situada al norte del Rio

Opon y dividida inicialmente en cinco formaciones que desde la base a la

parte superior son: Lluvia, Chontorales Shale, Hiel,Enrejado Shale y Bagre.

Cerca al Rio Opon inicia con 30m de conglomerados y horizontes locales

de carbón, sigue 500m de areniscas conglomeráticas las cuales exhiben

estratificación cruzada con intercalaciones de lutitas de color moteado de

gris y azul (Formación Lluvia). Posteriormente se encuentra la formación

Chontorales compuesta por lodolitas abigarradas grises a rojas. De

acuerdo a lo anterior y con base en la literatura la mayoría corresponden

a ambientes fluviales, los intervalos conglomeráticos hacen referencia a

ambientes fluviales de montaña de alta energía; adicionalmente la

secuencia de lodolitas corresponde a ríos meandriformes a

anastomosados.

b. Formación Mesa: Compuesta por conglomerados masivos, areniscas

líticas con estratificación cruzada y menores capas de lodolitas.

Depósitos Cuaternarios

Los depósitos cuaternarios son inconsolidados, sin sufrir procesos diagenéticos

o de litificación hasta llegar a formar rocas.

2.3 Marco Hidrogeológico

El Sistema Acuífero del Valle medio del Magdalena se encuentra dividido en tres principales

sistemas acuíferos: 1. Valle medio del Magdalena constituido por 7 unidades

hidrogeológicas y de tipos de acuíferos libres, semiconfinados a confinados y cársticos. 2.

Sistema Acuífero Mariquita-Dorada-Salgar constituido por 7 Unidades hidrogeológicas con

tipos de acuíferos libre a confinado, finalmente el sistema acuífero del Abanico de

Page 14: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

9

Aguachica constituido por 4 unidades hidrogeológicos y tipos de acuíferos libres a

confinado.

El SAVMM está delimitado dentro un sistema de fallas, cinturones plegados y basamentos,

que han permitido el desarrollo de unidades sedimentarias y cristalinas como resultado de

la inclusión marina desarrollada en el cretácico, con evidencia de unidades paleontológicas.

A partir del Paleógeno, inicia el proceso de inversión tectónica de la cuenca, que conlleva a

un cambio en el ambiente de depositación de las unidades litoestratigráficas del área;

donde las unidades pasan de un ambiente marino controlado por procesos fluviales.

El Basamento del SAVMM, está compuesto por unidades calcáreas intercaladas con

unidades de ambientes marinos profundos de edad cretácica, las cuales, por cambio en el

régimen tectónico, contienen fracturas a través de las cuales fluye el agua subterránea,

infrayaciendo una secuencia de unidades de origen fluvial de edad Cenozoica. Por encima

de dicho basamento, hay rocas sedimentarias y depósitos no consolidados que conforman

la mayor parte del SAVMM, esta unidades, en su mayoría, son depósitos recientes asociados

a la dinámica fluvial en las zonas más profundas de la cuenca del Valle Medio del Magdalena,

por consiguiente, las variaciones granulométricas se convierten en lugares adecuados para

la acumulación de agua (Malagón, 2017).

El régimen hidrogeológico está controlado por el Rio Magdalena, siendo la principal zona

de descarga existente para el área de estudio. La dirección del flujo regional subterráneo es

convergente hacia el rio Magdalena, pero con sentido hacia el norte (INGEOMINAS, 2013),

pero en los periodos de mayor pluviosidad, puede generarse la recarga de unidades

hidrogeológicas adyacentes al Rio Magdalena. Mientras que en temporada de estiaje el

agua subterránea almacenada en las unidades adyacentes descarga y aporta al caudal base

del rio.

Page 15: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

10

En cuanto a las unidades hidrogeológicas del SAVMM, se pueden clasificar de acuerdo a los

criterios de productividad y capacidad para almacenar (porosidad) y transmitir agua

(permeabilidad). Se han clasificado en tres categorías principales que dependen del tipo de

porosidad de las rocas, ocurrencia o no de agua subterránea y valor de capacidad especifica.

Estas categorías son: (A). Sedimentos y rocas con flujo intergranular, (B). Rocas con flujos a

través de fracturas y (C). Sedimentos y Rocas con limitados recursos de agua subterráneas.

Existe un predominio de sedimentos poco consolidados como arenas y grava con

intercalaciones de materiales de grano fino como arcillas y limo. Se considera Acuífero a los

depósitos aluviales recientes y de terraza que afloran en cercanía del Rio Magdalena y

sedimentos poco consolidados (areniscas, conglomerados), asimismo los acuíferos libres a

semilibres tienen porosidad secundaria debido a la composición calcárea como en la

formación la luna y son unidades recientes. Los acuíferos Semiconfinados a confinados

corresponden a las unidades más antiguas del Neógeno (Grupo Real, formación la Mesa).

Tabla 1.1 Características del Sistema Acuífero en la Provincia Hidrogeológica del Valle

Medio del Magdalena

Provincia

Hidrogeológica Código

Sistema

Acuífero

Unidades

Hidrogeológicas Tipo de Acuífero

Parámetros

Hidráulicos

Área

Superfici

al (km2)

PM1 Valle Medio

del Magdalena

SAM

1.1

Valle

Medio

del

Magdale

na

Acuífero Terrazas

del Rio Magdalena,

Acuífero deposito

aluvial del Rio

Magdalena,

Acuífero Mesa

(NgQp), Acuífero

Real (Ngc),Acuífero

la Luna y Acuífero

Tablazo y

Rosablanca

Libres,

semiconfinados

a confinados y

kársticos

B=80

>800

m, K=

5-

12m/

d

T=150-

280m2/d,

S=4.0*10-4

– 6*104

Cs= 1-2

l/s/m

14.913

Page 16: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

11

Figura 1. Localización Geográfica del Sistema Acuífero del Valle Medio del Magdalena

(Escala 1:980.000)

Fuente: Malagón, 2017

Page 17: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

12

Figura 2. Delimitación Estructural de la Cuenca del Valle Medio del Magdalena

Fuente: ANH, Colombia 2007

Figura 3. Corte Transversal Generalizado de la Cuenca del Valle Medio del Magdalena

Fuente: ANH, Colombia 2007

Limites Suroriente: Sistema de Fallas de Bitumia y la Salina (B.S.F.S) Norte: Sistema de Fallas Espíritu Santo (E.S.F.S) Occidente: Onlap de Sedimentos del Neógeno sobre la Serranía de San Lucas (SL) y el basamento de la Cordillera Central (CC) Sur: Cinturón Plegado de Girardot (GFB) Nororiente: Sistema de Fallas Bucaramanga-Santa Marta (B.S.M.F)

Page 18: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

13

Figura 4. Mapa Geológico del Sistema Acuífero del Valle Medio del Magdalena (Escala 1:980.000)

Fuente: Malagón (2017)

Page 19: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

14

Figura 5. Mapa Geológico Estructural del Sistema Acuífero del Valle Medio del Magdalena (Escala 1:980.000)

Fuente: Malagón (2017)

Page 20: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

15

Figura 6. Columna Estratigráfica Generalizada de la Cueca del Valle Medio del Magdalena

Fuente: Malagón (2017)

Page 21: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

16

Figura 7. Localización Sistema Acuífero Valle Medio del Magdalena

Fuente: Malagón (2017)

Page 22: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

17

3. MARCO TEÓRICO

3.1 Imputación

Muchas veces los investigadores se encuentran ante la ausencia de valores en diferentes

bases de datos; ya que la ausencia de Datos puede llevar que el manejo y análisis de los

mismos se convierta en un problema de gran magnitud, disminuyendo la eficiencia de los

análisis estadísticos e introduciendo un valor significativo de sesgo a las variables por

analizar. De acuerdo a esto la imputación de datos es una metodología que permite

reemplazar los datos faltantes por valores estimados, mediante diferentes métodos como:

imputación mediante la media, imputación mediante regresión e imputación mediante

regresión estocástica. (Medina & Galvan, 2007 ).

a. Imputación mediante la media: Dada una variable Xi que presenta valores

perdidos, se reemplaza cada uno de ellos por Xiobs, la media de los valores

observados de Xi.

b. Imputación mediante regresión

Con este método se estima la regresión de la variable Xi sobre las variable Xj a

partir de los ni correspondientes a casos completos y se imputa cada valor

perdido con la predicción dada por la ecuación de regresión estimada.

c. Imputación mediante regresión estocástica

Al imputar mediante regresión se está reemplazando el valor perdido por una

media condicionada, aunque se tiende a subestimar la variabilidad, por lo que se

añade el valor predicho por la regresión.

Page 23: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

18

3.2. Mapa Autorganizado (Self- Organizing Map- SOM)

Mapa autorganizado o Self-Organizing Map (SOM) , corresponde a una red neuronal no

supervisada que tiene propiedades de cuantificación vectorial y algoritmos de proyección

vectorial (Vesanto & Alhonniemi , 2000). El termino autorganización “Self-Organizing”,

hace referencia a la naturaleza no supervisada del algoritmo porque permite organizar

información sin conocimiento previo de un patrón de salida. Es importante mencionar, que

el proceso básico implica entrenamiento, diversidad y estimación ya que SOM permite

representar datos multidimensionales en un espacio de menor dimensión que los

originales, y para poder reducir la dimensionalidad es necesario efectuar el proceso de

cuantización vectorial. El resultado consiste en neuronas organizadas en una cuadricula

rectangular bidimensional (mapa). Cada neurona en el mapa es representada por un vector

de peso multidimensional 𝑴𝒊𝒋 𝒊 = 𝟏, … , 𝒌𝒙, 𝒋 = 𝟏, … , 𝒌𝒚, en un SOM rectangular, 𝒌𝒙 es el

número de filas, y 𝒌𝒚 el número de columnas, la dimensión 𝒏 de cada neurona es la misma

que el número de variables de entrada, 𝑴𝒊𝒋 = {𝒎𝒊𝒋𝟏 , 𝒎𝒊𝒋

𝟐 , … , 𝒎𝒊𝒋𝒏 }. (Iwashita F. , 2017). Cada

neurona es conectada a la neurona adyacente a través de la relación de vecindad funcional

(Vesanto & Alhonniemi , 2000). Las muestras de datos individuales están asociadas a un

vector con propiedades que reflejan sus contribuciones en relación con las otras variables.

Todos los puntos de datos pueden ser representados como vectores en un espacio de

datos definido por las variables, en este caso parámetros hidrogeoquímicos. Los mapas

autorganizados generan un sistema no paramétrico (Regresión) que transforma los

elementos vectoriales de alta dimensionalidad y no lineales para una representación

típicamente bidimensional (2D) , intentando mantener las relaciones entre la unidad de

mejor coincidencia vectorial (Best-matching unit (BMU)) determinada iterativamente

minimizando la medida de distancia euclidiana para cada variable (Vesanto & Alhonniemi

, 2000), (Konohen, 2001) en un espacio nD multidimensional y su representación 2D como

nodos en el mapa.

Page 24: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

19

Para cuantificar el éxito de la preservación topológica, se calcula el error de cuantificación

(QER) que es una medida de cuan diferente es una medida (i.e,. un valor atípico) con

respecto al vector de nodo SOM representado en el mapa auto-organizado.

𝑸𝑬𝑹(𝑮, 𝑿) =𝟏

𝑵∑ ∑ 𝒉𝒊,𝒍

𝑴

𝒋=𝟏𝒊∈𝑸

‖𝒙𝒋 − 𝒘𝒊‖𝟐

Donde 𝒘𝒊 son los vectores de peso asignados a un número fijo de N neuronas en la

cuadricula del mapa G, donde 𝒙𝒋 son los vectores de datos de entrada M, 𝒉𝒊,𝒍 es una

función vecindad, ‖𝒙𝒋 − 𝒘𝒊‖ es la norma euclidiana e 𝑰 es el vector unitario de mejor

coincidencia (BMU):

‖𝒙 − 𝒎𝒄‖ = 𝒎𝒊𝒏𝒊 ‖𝒙 − 𝒎𝒊‖

Donde ‖⁰‖ es la distancia euclidiana , x el vector entrada, m el vector peso y c es la neurona

cuyo vector está más cerca del vector de entrada x.

El error topográfico, ET, corresponde a un porcentaje de que tan bien la red mantiene la

topografía de los datos analizados, y la cantidad de vectores de nodo que están adyacentes

en el espacio n-dimensional, pero no son adyacentes en el mapa auto-organizado

resultante. Computacionalmente el error topográfico está dado por:

𝑬𝑻𝑬 =𝟏

𝒎∑ 𝒖(𝑿𝒑)

𝒎

𝒑=𝟏

Si la neurona ganadora del vector 𝑿𝒑 está más cerca de la neurona, es decir, la distancia

𝑿𝒑 a ella es la más pequeña, entonces 𝒖(𝑿𝒑) = 𝟎, de otra manera 𝒖(𝑿𝒑) = 𝟏 y el vector

de peso.

Los mapas resultantes están organizados de tal manera que los datos similares se asignan

a los mismos nodos o a los nodos cercanos, y los datos diferentes se asignan a los nodos

con mayor distancia de separación. Las estimación de las variables se toma directamente

de los vectores BMU (Fessant & Midenet , 2002); (Friedel , 2016).

Page 25: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

20

SOM ha sido utilizado como una herramienta para resolver problemas en muchos campos

de la ciencia, a partir de analítica estándar en estadística. Algunos campos de aplicación

han sido procesamiento de señales, teoría de control, análisis financieros, estadística

experimental, química, Geociencias y Medicina, debido a que permite resolver problemas

de alta dimensión y no lineales [Konohen,2001].

Por otra parte, algunas técnicas de agrupamiento como K-medias ha sido utilizado por

primera vez en 1967 en minera de datos y para complementar el funcionamiento de SOM

en la parte de Cluster, ya que agrupa las características de los nodos en patrones auto-

similares, es decir genera la partición de un conjunto de n observaciones en K grupos en el

que cada observación pertenece al grupo de valor medio más cercano. Así mismo es un

tipo de aprendizaje no supervisado que funciona iterativamente para asignar a cada punto

de datos a uno de los grupos de K-medias. La agrupación de datos puede ilustrarse en una

partición del espacio de datos en celdas de voronoi.

El algoritmo funciona iterativamente para asignar a cada punto de datos a uno de los

grupos de K en función de las características que se proporcionan. Esta agrupación puede

ilustrarse en una partición del espacio de datos en celdas de voronoi. Los puntos de datos

se agrupan según la similitud de características. Sus resultados son presentados como

(Trevino, 2016):

Centroides de los clústeres K, se pueden usar para etiquetar nuevos datos

Etiquetas para los datos de entrenamiento (Cada punto es asignado a un solo

cluster)

Cada centroide de un cluster es una colección de valores de características que definen

los grupos resultantes.

Page 26: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

21

3.2 Análisis Geoestadístico (Variogramas)

La Geoestadistica corresponde al área de estudio de dependencia espacial, variabilidad

y continuidad de diferentes variables a través del espacio y/o tiempo, con el fin de

entender y predecir patrones en fenómenos naturales. Corresponde a un conjunto de

métodos empleados a una gran variedad de áreas como minería, geología de

hidrocarburos, geoquímica, hidrogeología, estudio de suelos, hidrología, meteorología,

geografía y agricultura entre otros (Iwashita F. , 2015).

Los datos hidrogeológicos (piezómetria, conductividad hidráulica, transmisividad,

concentración de contaminantes etc) rara vez pueden ser considerados como no

correlacionados en el espacio y/tiempo (Riberio , 2015). A fin de detectar esos patrones

de regionalización, se utilizan variogramas y se introduce el concepto de variable

regionalizada (VR) para identificar a las variables que poseen una característica aleatoria

determinada.

Para poder estudiar las diferentes variables, se usa variogramas que son una herramienta

fundamental de la Geoestadistica, porque permite analizar el grado de interdependencia

de los datos en el espacio geométrico y su zona de influencia, es decir la variabilidad

entre dos puntos x y x+h. Experimentalmente, la distancia h corresponde a la abscisa, x

en la ordenada. Refleja el valor promedio del cuadrado de la diferencia de los datos de

parámetros hidrogeoquímicos tomados una distancia h con respecto a otra.

De acuerdo a Emery, 2013 se considera una variable regionalizada z conocida en n sitios

{𝒙𝟏; … 𝒙𝒏}. El estimador tradicional del variograma para un vector de separación h dado,

se define como :

�̂�(𝒉) =𝟏

𝟐|𝑵(𝒉)|∑ [𝒛(𝒙𝜶) − 𝒛(𝒙𝜷]

𝟐

𝑵(𝒉)

Page 27: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

22

Donde 𝑵(𝒉) = {(𝜶, 𝜷)} tal que 𝒙𝜶 − 𝒙𝜷 = 𝒉};

|𝑵(𝒉)| es el número de pares contenidos en el conjunto N(h).

La anterior expresión reemplaza la esperanza en el variograma teórico, por la media

aritmética sobre los pares de datos separados por el vector h, se obtiene la siguiente

expresión que corresponde al estimador del variograma experimental.

𝜸(𝒉) =𝟏

𝟐𝑬{[𝒁(𝒙 + 𝒉) − 𝒁(𝒙)]𝟐}

En este trabajo, se hará uso de análisis variográfico a fin de evaluar el comportamiento

espacial de los parámetros hidrogeoquímicos en el Sistema Acuífero del Valle Medio del

Magdalena (SAVMM), evaluando la relación entre los datos de acuerdo a la cercanía (h)

entre los sitios.

Adicionalmente se empleó Kriging porque permite solucionar y desarrollar los siguientes

aspectos (Molano Cajigas & Obregón, 1993).

1. Elegir un estimador insesgado que considera la estructura espacial (o temporal)

real del fenómeno

2. Da la posibilidad de evaluar la varianza del error de estimación en todo punto de

interés

3. Se arregla de tal forma que el estimador sea optimo, luego el mejor posible

El Kriging es un método Geoestadístico de Interpolación, este trabajo empleó kriging

ordinario el cual asume que la variación de los valores es libre en cualquier componente

estructural y estimar el valor de una variable en un sitio o bloque. La clasificación de los

estimadores de Kriging depende en términos generales de la estacionalidad (total o de

segundo orden) e hipótesis intrínseca.

Page 28: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

23

4. Resultados y Discusión

4.1. Análisis de Aprendizaje Automático (SOM)

El método de aprendizaje automático involucra la estimación de datos faltantes utilizando

imputación, con base en esta información se presentan los mapas correspondientes a cada

variable comparando los datos imputados Vs los datos observados.

Figura 8. Valores Imputados (Puntos Blancos) y Valores Observados (Puntos Negros). (a)Solidos

Totales Disueltos (mg/L), (b) Conductividad (µS/cm), (c) Temperatura (°C), (d) Profundidad (m).

Page 29: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

24

Figura 9. Valores Imputados (Puntos Blancos) y Valores Observados (Puntos Negros). (e)

Bicarbonatos (mg/L), (f) Calcio (mg/L), (g) Cloro (mg/L), (h) Magnesio (mg/L).

Page 30: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

25

Figura 10. Valores Imputados (Puntos Blancos) y Valores Observados (Puntos Negros). (i)

Nitrato (mg/L), (j) Potasio (mg/L), (k) pH, (l) Sodio (mg/L), (m) Sulfato (mg/L)

Page 31: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

26

La figura 11 corresponde al plano de Componentes de SOM que permite visualizar la

correlación espacial de las variables, tiene una interpretación similar respecto a los resultados

obtenidos por un histograma y refleja aspectos interesantes en el entrenamiento de datos que

incluyen correlación, dispersión y agrupamiento de los datos. De acuerdo a lo anterior, muestra

gráficamente la distribución de una variable cuantitativa o numérica teniendo en cuenta que

SOM organiza los datos en intervalos de igual tamaño con base en el análisis de K-medias. La

similaridad en el patrón de colores (Figura 11) de Conductividad y Solidos Totales Disueltos

(STD) reflejan una correlación positiva respaldada por el cálculo de la matriz de correlación

(Figura 12) calculada después de la evaluación topológica y obteniendo un valor de 0.964, lo

que indica que la facilidad del agua para conducir la corriente es directamente proporcional a

la cantidad de iones disueltos. Adicionalmente, el rango de valores de conductividad indica

que los valores más bajos (25.3µs/d) son típicos de acuíferos con niveles freáticos someros y

los valores más altos (1330 µs/d) están localizados en áreas de influencia de campos petroleros.

Figura 11. Plano de Componentes de SOM para visualizar correlación no lineal. (a) Matriz U

Page 32: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

27

Nitratos (NNO3 ) y Sulfatos (SO4) tienen similaridad en el patrón de colores y una correlación

positiva de 0.869 que esta posiblemente relacionada con la actividad agroindustrial del área

de estudio. El rango de valores registrado para Nitratos corresponde a un máximo de 10mg/L

y mínimo 0.089mg/L; en cuanto a los Sulfatos se registra un máximo de 48.8mg/L y un mínimo

de 1.2mg/L. Es importante mencionar que niveles mayores de 5mg/L de Nitratos puede ser

indicador de posible contaminación por residuos de animales o fertilizantes (Reboucas & Fraga,

1988).

Calcio y Sodio están positivamente correlacionados de acuerdo al plano de componentes con

una correlación alta de 0.914 asociada a procesos de disolución de silicatos; el rango de valores

registrado de Calcio para el agua subterránea en el área de estudio tiene un máximo de

247mg/L y un mínimo de 0mg/L. Respecto al sodio se registran valores máximos en el agua

subterránea de 74.1mg/L y mínimo 1.26mg/L.

El plano de componentes de pH muestra un valor promedio de 6 unidades; en el área de

estudio el agua subterránea está dominado por un comportamiento medio acido que facilita

los procesos de disolución, sin embargo, se registra un rango de valores con máximo de 7.56

unidades y mínimo 4.4 unidades. Los valores más altos están asociados a salinidad típica de

aguas terrestres causada por sales no hidrolizadas. De acuerdo a Malagón,2017; el análisis

hidroquimicos del agua subterránea del SAVMM permite clasificar el tipo de agua dominante

en una facie hidrogeoquímica bicarbonatada. Por otra parte, existe una correlación parcial en

el plano de componentes (Figura 11) entre pH y Bicarbonatos (HCO3- ) y una correlación de

0.506 (Figura 12) asociada a que el pH de la zona disminuye como resultado de las actividades

industriales extractivas que allí se realizan. Adicionalmente, el rango de valores registrado para

Bicarbonatos en al agua subterránea tiene un máximo de 213mg/L, medio de 18.2mg/L y

mínimo de 0mg/L.

Page 33: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

28

La distribución espacial de temperaturas en un acuífero depende de la conductividad térmica

e hidráulica del medio, de la relación longitud/profundidad de la cuenca, de la configuración

del nivel freático y de la distribución de la temperatura ambiente respecto a la zonas de recarga

y descarga entre otras (Custodio & Llamas , 2001). Existe una relación positiva entre

profundidad y temperatura con un comportamiento inverso en la componente planos

posiblemente relacionado al gradiente geotérmico de la zona, como resultado de la actividad

geológica asociada fallas preexistentes. Asimismo, los rangos de temperatura registrados para

el agua subterránea corresponden a una máxima de 32°C y una mínima de 22.4°C.

Cloruro es considera un ion altamente móvil a través de la mayoría de los sistemas acuíferos, su

fuente puede ser antropogénica o natural. Los rangos de cloruro registrados para el agua

subterránea corresponden a un máximo de 168mg/L y un mínimo de 1.74mg/L con base en el

plano de componentes (Figura 11), pero los valores más altos indican contaminación de origen

antropogénico en el agua subterránea asociada posiblemente a la explotación de hidrocarburos.

Ca y Mg tienen una correlación alta de 0.904 y un patrón similar de color, esto se debe a que son

producto de la disolución de rocas basálticas que forman minerales.

La Matriz U (Matriz de distancia unificada) es una representación bidimensional de las

diferencias de los vectores de código n-dimensionales (Ultsch, 2003) , obece a una

representación de la distancia local del conjunto de datos. Es decir que la mayor distancia

corresponde a un valor de 2.94 y la menor a 0.4. Así mismo las proyecciones de los puntos

correspondientes a los datos de entrada pertenece a los valores mínimos de distancia

visualizando datos de alta dimensionalidad usando una imagen 2D. Adicionalmente, esta matriz

presenta información sobre los diferentes grupos (Cluster) que se pueden agrupar los datos.

La disponibilidad limitada de datos y la alta variabilidad espacial de los mismos, promueve

cantidades crecientes de la incertidumbre en las predicciones del modelo (Hornberger, 1998).

Los conjuntos de datos escasos pueden dar lugar a predicciones sesgadas (Dickson & Giblin ,

2007) que requieren un esquema modificado basado en el bootstrapping (Breiman, 1996).

Page 34: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

29

Figura 12. Matriz de Correlación

El algoritmo SOM es objetivo, pero hay subjetividad cuando se elige el conjunto de variables de

datos como predictores potenciales, y las mismas muestras están limitadas espacialmente con

Solidos

Disueltos

Totales

(mg/L)

Profunddidad

(m)

Temperatura

(°C)

pH

Unidades de

pH

Conductivida

d electrica

(uS/cm)

Nitratos

(NNO3)

(mg/L)

Calcio (Ca)

Sodio (Na)

Potasio (K)

Magnesio

(Mg)

Cloruros (CL)

Sulfatos

(SO4)

Bicarbonatos

(HCO3)

Solido

s Disue

ltos To

tales (m

g/L)

1

Profun

didad

(m)

0,143

1

Temper

atura

(°C)

0,344

-0,238

1

pH (U

nidade

s de pH

) 0,4

790,1

440,1

711

Conduc

tividad

electri

ca (uS/

cm)

0,964

0,106

0,274

0,51

1

Nitrato

s (NNO

3) (mg

/L) 0,3

170,0

69-0,3

69-0,0

770,3

281

Calcio

(Ca)

0,835

0,088

0,034

0,368

0,802

0,414

1

Sodio (

Na)

0,865

00,2

040,3

510,8

580,3

690,9

141

Potasio

(K)

0,667

-0,142

0,421

0,306

0,694

0,276

0,526

0,745

1

Magne

sio (M

g) 0,8

0,001

0,172

0,316

0,748

0,288

0,904

0,919

0,704

1

Clorur

os (CL)

0,7

60,0

490,1

220,1

590,7

210,6

180,7

670,7

560,5

510,6

711

Sulfat

os (SO4

) 0,2

610,2

1-0,4

72-0,0

850,3

030,8

590,3

390,2

730,0

10,1

120,5

471

Bicarb

onatos

(HCO3)

0,6

630,5

390,0

530,5

060,6

590,0

640,5

810,4

420,1

740,4

170,4

730,2

081

Page 35: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

30

diferentes niveles de incertidumbre en sus mediciones y observaciones (Iwashita F. , 2017). De

acuerdo a lo anterior, la fiabilidad de SOM como modelo para predecir valores de las

propiedades hidrogeoquímicas del SAVMM se evalúa mediante validación cruzada, teniendo en

cuenta que SOM actúa como estimador insesgado de acuerdo a la correspondencia uno a uno y

la varianza constante para STD, Conductividad, Temperatura, Profundidad, Bicarbonatos, Calcio,

Cloruro, Magnesio, Nitrato, Potasio, pH, Sodio y Sulfatos (Figura 13)

Figura 13. Diagramas de evaluación de modelos usando un enfoque Bootstrap, correspondencia

uno a uno con referencia (línea punteada) y valores promedio para 15 iteraciones por cada

muestra de valores observados para (a) Solidos totales disueltos, (b)conductividad, (c)

temperatura, (d) profundidad, (e)bicarbonatos, (f) calcio, (g) cloruro, (h) magnesio, (i) Nitratos,

(j) Potasio, (k) pH, (l) Sodio y (m) Sulfatos.

(a) (b)

(c) (d)

Page 36: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

31

(e) (f)

(g) (h)

(i) (j)

Page 37: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

32

(k) (l)

(m)

Page 38: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

33

4.2. Análisis Geoestadístico (Variogramas y Krigging)

Los parámetros hidrogeológicos (conductividad, concentración de contaminantes, profundidad)

es difícil considerarlos como no correlacionados en el espacio y/o en tiempo. Los parámetros de

correlación espacial son fundamentales para caracterizar adecuadamente los fenómenos físicos

porque permite una interpolación espacial adecuada. Las variables que poseen una determinada

estructura se denominan variables regionalizadas, y poseen características aleatorias

determinadas. (Ribeiro, 2015)

Para la determinación del variograma experimental o muestral de cada variable química se

adoptó la hipótesis de estacionalidad, se analizaron la anisotropía, el comportamiento en el

origen y a grandes distancias. Los variogramas muéstrales no revelaron una clara anisotropía por

lo que se trabajó con variogramas omnidireccionales los cuales no depende de la dirección y

cuya tolerancia predeterminada es 90°, por lo que se puede pensar como el promedio del

variograma experimental en todas las direcciones posibles.

Adicionalmente para realizar los mapas de contorno, se empleó la herramienta Krigging tipo

ordinario que permite estimar puntos intermedios de un parámetro, es un estimador optimo ya

que es insesgado es decir que el valor esperado del error es cero y permite garantizar la mínima

varianza de la estimación porque la reduce al mínimo. Por otra parte, se considera un estimador

de interpolación exacto porque incorpora la variabilidad espacial a partir del análisis variográfico

proporcionando una medida de la precisión de estimación mediante la varianza de estimación y

esta se emplea en el diseño del muestro.

A continuación, se muestran los resultados correspondientes al análisis geoestadístico de los

diferentes parámetros analizados mediante Variogramas y mapas de contorno aplicando

Krigging Lineal Ordinario a fin de describir las correlaciones espaciales de los datos.

Page 39: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

34

Figura 14. Variograma y Mapa de Contorno de Solidos Totales Disueltos

El mapa de contorno de STD refleja que el rango de valores registrados tiene un mínimo de 0mg/L y un máximo de 750mg/L. En el SAVMM predominan valores menores a 150mg/L.

Figura 15. Variograma y Mapa de Contorno de Conductividad El mapa de contorno para conductividad, registra un rango de valores con un mínimo de -50µs/d y máximo 1300µs/d, sin embargo en SAVMM predominan valores menores a 650µs/d.

Page 40: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

35

Figura 16. Variograma y Mapa de Contorno de Temperatura

El mapa de contorno para temperatura, registra un rango de valores con un mínimo de 0°C y máximo 40°C, sin embargo en el SAVMM predominan valores de temperatura entre 22°C y 34°C.

Figura 17. Variograma y Mapa de Contorno de Profundidad

El mapa de contorno de Profundidad, registra un rango de valores con un mínimo de 0m y máximo 180m, sin embargo en el SAVMM predominan valores de profundidad 0mC y 60m, asi

Page 41: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

36

mismo registra áreas con profundidades hasta 180m asociadas posiblemente a zonas de explotación de hidrocarburos.

Figura 18. Variograma y Mapa de Contorno de Bicarbonatos

El mapa de contorno de Bicarbonatos, registra un rango de valores con un mínimo de 0m y máximo 180m, sin embargo en el SAVMM predominan valores de profundidad 0mC y 60m, así mismo registra áreas con profundidades hasta 180m asociadas posiblemente a zonas de explotación de hidrocarburos.

Figura 19. Variograma y Mapa de Contorno de Calcio

Page 42: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

37

El mapa de contorno de Calcio, registra un rango de valores con un mínimo de 0mg/L y máximo 44Mg/L , sin embargo en el SAVMM predominan valores de concentración de Calcio entre 0mg/L y 32m/L y en áreas cercanas a la falla de cimitarra( Noroeste) y el municipio de San Pablo (Noroeste) (Figura 5) se registran las mayores concentraciones.

Figura 20. Variograma y Mapa de Contorno de Cloruro

El mapa de contorno de Cloruro, registra un rango de valores con un mínimo de 0mg/L y máximo 2400Mg/L , sin embargo en el SAVMM predominan valores de concentración de Cloruros entre 0mg/L y 400mg/L y en cercanías al Municipio de Cimitarra( Sureste) se registran las mayores concentraciones.

Figura 21. Variograma y Mapa de Contorno de Magnesio

Page 43: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

38

El mapa de contorno de Magnesio (Figura 21), registra un rango de valores con un mínimo de 0mg/L y máximo 2400Mg/L , sin embargo en el SAVMM predominan valores de concentración de Cloruros entre 0mg/L y 400mg/L y en cercanías al Municipio de Cimitarra( Sureste) se registran las mayores concentraciones.

Figura 22. Variograma y Mapa de Contorno Nitrato

El mapa de contorno de Nitrato, registra un rango de valores con un mínimo de 0mg/L y máximo 90Mg/L , sin embargo en el SAVMM predominan valores de concentración de Cloruros entre 0mg/L y 40mg/L y en cercanías al Municipio de Cimitarra( Sureste) se registran las mayores concentraciones 90mg/L.

Figura 23. Variograma y Mapa de contorno Potasio

Page 44: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

39

El mapa de contorno de Potasio (Figura 23), registra un rango de valores con un mínimo de 0mg/L y máximo 32Mg/L , sin embargo en el SAVMM predominan valores de concentración de Potasio entre 0mg/L y 20mg/L.

Figura 24. Variograma y Mapa de contorno pH

El mapa de contorno de pH, registra un rango de valores con un mínimo de 5mg/L y máximo 7.6Mg/L, sin embargo, en el SAVMM predominan valores de pH entre 6mg/L y 6.7mg/L, por otra parte, en cercanías a Barrancabermeja se registran los valores entre 7-8 unidades de ph neutro.

Figura 25. Variograma y Mapa de contorno Sodio

Page 45: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

40

El mapa de contorno de Sodio (Figura 25), registra un rango de valores mínimo de 0mg/L y

máximo 700Mg/L, sin embargo, en el SAVMM predominan valores de Sodio entre 0mg/L y

100mg/L, por otra parte, en cercanías a Cimitarra se registran los valores entre 700mg/L.

Figura 26. Variograma y Mapa de contorno Sulfatos

El mapa de contorno de Sulfatos (Figura 26), registra un rango de valores mínimo de 0mg/L y

máximo 1100Mg/L, sin embargo, en el SAVMM predominan valores de Sulfatos entre 0mg/L y

150mg/L, por otra parte, en cercanías a Cimitarra se registran los valores máximos de 900mg/.

Page 46: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

41

La tabla 1.3 a continuación, resume el tipo de Variograma teórico elegido y los parámetros

adoptados para cada una de las variables, luego de la validación cruzada de cada modelo.

Variable Modelo Efecto pepita

Solidos Totales Disueltos Gaussiano 12000

Conductividad Exponencial 38030

Temperatura Exponencial 3.9

Profundidad Gaussiano 310

Bicarbonatos Gaussiano 5800

Calcio Gaussiano 38

Cloruro Gaussiano 100

Magnesio Gaussiano 23

Nitratos Gaussiano 10

Potasio Gaussiano 21

Ph Gaussiano 0.9

Sodio Gaussiano 100

Sulfatos Gaussiano 5100

Con base en los resultados anteriormente obtenidos, se puede observar que entre más regular

el variograma en el origen (distancias cercanas a 0), más regular es la variable regionalizada en

el espacio. Sin embargo, en gran parte de las variables esta condición no se cumple exceptuando

Cloruros, por lo que no son variables regulares con respecto a su regionalización en el espacio.

Los variogramas de Conductividad (Figura 15) y Temperatura (Figura 16) tienen un

comportamiento exponencial donde el modelo alcanza su meseta de una manera asintótica, y

el efecto pepita o nugget es bajo en comparación con otras variables. Así mismo es apropiado

suponer que las correlaciones son arbitrariamente pequeñas a gran distancia, pero nunca

desaparecen.

Las variables con variogramas que describen un modelo Gaussiano son Solidos Totales Disueltos

(Figura 14), profundidad (Figura 15), Bicarbonatos (Figura 18) , calcio (Figura 19), Cloruros (Figura

20), Magnesio (Figura 21), Nitrato (Figura 22), Potasio (Figura 23), pH (Figura 24) , Sodio(Figura

25) y Sulfatos (Figura 26) , tienen un comportamiento parabólico cercano al origen lo que

Page 47: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

42

permite concluir que representa una variable regionalizada suficientemente lisa para ser

diferenciable, por ejemplo la pendiente entre dos puntos está muy bien definida a medida que

la distancia entre estos dos puntos desaparece. Así mismo este modelo permite asumir un

comportamiento muy regular para dichas variables, sin embargo, en la mayoría de los casos

pueden ocurrir problemas numéricos en la fase de estimación.

Page 48: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

43

5. Conclusiones

La variación espacial de los parámetros hidrogeoquímicas usando SOM para estimación de

valores faltantes y Análisis Geoestadístico para correlación espacial de los mismos, permite

exponer las siguientes observaciones:

1) La matriz de correlación de SOM estimada para los datos, provee información

de relaciones paramétricas entre elementos hidrogeoquímicos y variables

explicatorias.

2) La técnica K-means clasifica las variables de acuerdo a su similaridad topológica

como TDS y conductividad

3) La estimación de datos faltantes mediante análisis automático es una

herramienta adecuada para completar información de base datos, en este caso

que facilitan en un futuro la construcción de modelos hidrogeológicos de agua

subterránea

4) El análisis geoestadístico para evaluar la distribución espacial de los elementos

químicos y mapas de contorno revela patrones de comportamiento

hidrogeoquímicos como relación positiva fuerte entre Solidos Totales Disueltos

y Conductividad.

Page 49: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

44

Referencias

ANH. (Diciembre de 2012). Agencia Nacional de Hidrocarburos.

Breiman, L. (1996). Bagging Predictions. Mach Learn, 24(2), 123-140.

Custodio, E., & Llamas , M. (2001). Hidrologia Subterranea. Omega.

Dickson , B., & Giblin , A. (2007). An evaluation of methods for impuration of missing trace

element data in groundwaters. Geochemistry: Exploration, Environment, Analysis (7),

173-178.

Emery, X. (2013). Geoestadistica. Santiago de Chile : Universidad de Chile .

Fessant, F., & Midenet , S. (2002). Self-Organizing map for the data imputacion and correction

in -surveys. Neuer Computational Application (10 ), 300-310 .

Fraser , S., & Hodgkinson, J. (2009). An investigation Using SiroSOM for the Analysisi of QUEST

Stream-Sediment and Lake-Sediment Geochemical Data . Geosciences BC- CSIRO .

Friedel , M. J. (2016). Estimation and scaling of hydrostratigraphic units: application of

unsupervised machine learning and multivariate statistical techniques to

hydrogeophysical data. Hydrogeology J(24), 2103-2122.

Hornberger, G. M. (1998). Elements of Physical Hydrology . Baltimore: JHU Press.

IDEAM . (2014). Estudio Nacional del Agua .

IDEAM. (2014a). Estudio Nacional del Agua 2014. Bogota D.C.

Iwashita, F. (15 de Enero de 2015). Geociencias . Obtenido de

http://geociencias.uniandes.edu.co/investigacion/geoestadistica

Iwashita, F. (2017). A self-organizing map approach to characterize hydrogeology of the

fracture Serra-Geral transbounday aquifer. Hydrology Research.

Kalteh, A. &. (2009). Imputation of Missing values in precipitation-runoff process database.

Nordic Hidrology 40(4), 420 -432.

Kitanidis, P. K. (1997). Introduction to Geostatistics: Applications in Hydrogeology. Cambridge:

Cambridge University Press.

Konohen. (2001). Self-Organizing Maps 3ra Ed. Berlin: Springer-Verlag.

Konohen, T. (1984). Self-Organization and Associative Memory . Berlin: Springer .

Malagón, J. P. (2017). Analisis Hidrogeoquimico Multivariado del Agua Subterranea del Sistema

Acuifero del Valle Medio del Magdalena - Colombia. Bogota: Universidad Nacional de

Colombia.

Medina, F., & Galvan, M. (2007 ). Estudios Estadisticos y proespectivos: Imputacion de datos

(Teoria y Practica). Santiago de Chile: Naciones Unidas CEPAL .

Molano Cajigas, C., & Obregón, N. (1993). Aplicacion Geoestadistica en la Hidrogeologia del

Acuifero de Santa Marta. Bogota: Universidad de los Andes.

Page 50: MAPEO POR ANÁLISIS HÍBRIDO DE APRENDIZAJE AUTOMÁTICO

45

Mora, a., & Rizzi, J. (2004). Regional Prospectivity Evaluation, Reporte interno Petrobras. Bogta

.

Morales , L. (1958). General Geology and oil ocurrences of the Middle Magdalena Valley.

Colombia : AAPG Oil Symposium.

Porta, J. D. (1974). Lexique Stratigraphique International. Volume V. Paris : Centre National de

la Recherceh Scientifique .

Reboucas , A. C., & Fraga, C. G. (1988). Hidrogeologia das rochas vulcânicas do Brasil. Águas

Subterrân(12), 29-55.

Ribeiro, L. (2015). Introduccion a los métodos geoestadísticos aplicados a la Hidrogeología.

Prometeo.

Riberio , L. (2015). Introducción a los métodos geoestadísticos aplicados a la Hidrogeología.

Guayaquil: Prometeo.

Sarmiento Perez, G., Puentes, J., & Sierra , C. (2015 de 2015 ). Estratigrafía y Petrofacies de la

Formacion la Luna en el sinclinal de Nuevo Mundo, Valle Medio del Magdalena.

Obtenido de

https://www.researchgate.net/publication/288668481_Estratigrafia_y_Petrofacies_de

_la_Formacion_La_Luna_en_el_Sinclinal_de_Nuevo_Mundo_Valle_Medio_del_Magdal

ena

Trevino, A. (12 de Julio de 2016). Introdiction to K-means Clustering. Obtenido de

https://www.datascience.com/blog/k-means-clustering

Ultsch, A. (2003). U*matrix: a Tool to Visualize Clusters in High Dimensional Data. Marburg:

Fachbereich Matematik und Informatik.

Vesanto & Alhonniemi . (2000). Clustering of the self-organizing map. IEEE Trans Neural

Network, 586-600.