Table Of ContentLA GRANJA. Revista de Ciencias de la
Vida
ISSN: 1390-3799
[email protected]
Universidad Politécnica Salesiana
Ecuador
Muñoz, Erith; Seijas, Cesar
ANÁLISIS COMPARATIVO DE AJUSTE EN ENTRENAMIENTO DE REDES
NEURONALES ARTIFICIALES A PARTIR DE LAS LIBRERÍAS O PEN NN Y ALGLIB
LA GRANJA. Revista de Ciencias de la Vida, vol. 21, núm. 1, 2015, pp. 49-60
Universidad Politécnica Salesiana
Cuenca, Ecuador
Disponible en: http://www.redalyc.org/articulo.oa?id=476047266005
Cómo citar el artículo
Número completo
Sistema de Información Científica
Más información del artículo Red de Revistas Científicas de América Latina, el Caribe, España y Portugal
Página de la revista en redalyc.org Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
LA GRANJA:
Artículocientífico/Scientificpaper
REVISTA DE
METEOROLOGÍA COMPUTACIONAL CIENCIAS DE LA VIDA
DOI:10.17163/lgr.n21.2015.04
ANÁLISIS COMPARATIVO DE AJUSTE EN ENTRENAMIENTO DE
REDES NEURONALES ARTIFICIALES A PARTIR DE LAS LIBRERÍAS
OPEN NN Y ALGLIB
COMPARATIVE ANALYSIS OF ADJUSTMENT IN ARTIFICIAL NEURAL
NETWORKS TRAINING USING OPEN NN AND ALGLIB LIBRARIES
Erith Muñoz1,2 yCesarSeijas1
1FacultaddeIngeniería,UniversidaddeCarabobo,Valencia-Venezuela
2UniversidadSanFranciscodeQuito,ColegiodeCienciaseIngeniería-ElPolitécnico.CalleDiegodeRoblesyVíaInteroceánica,
CampusCumbayá,Edif.Newton.CasillaPostal17-1200-841,Quito,Ecuador.
Autorparacorrespondencia:[email protected]
Manuscritorecibidoel19deagostode2014.Aceptado,trasrevisión,el1dejuniode2015.
Resumen
Enlasúltimasdécadassonmuchoslosavancesquehantenidolugareneldesarrollodeaplicacionesyalcancesdelasredesneuronales
artificiales,ydeigualmodoeldesarrollotecnológicoeneláreadelacomputación.Estetipodeavanceshanincididodirectamente
enelnúmerodepublicacionesdeaplicaciones,endiversasáreasdelconocimiento,basadasenestemétododeinteligenciaartificial.
Ahorabien,hastaelpresentesiguesiendotemadediscusiónlaidoneidadyaplicabilidaddeherramientasdesoftwarelibrepara
facilitarlaimplementaciónylacalidadderesultados.Enestecontexto,estetrabajorepresentaunanálisiscomparativodeaplicaciones
usandolaslibreríasALGLIByOpenNN(OpenSourceNeuralNetworksC++Library),orientadasalentrenamientoyreproducción
deredesneuronalesartificiales.Deigualmodo,seestableceunaevaluacióndelosresultadosobtenidosapartirdelosnivelesde
correlaciónentrelasalidadevalorespararedesentrenadasyunconjuntodedatosdeentrenamientosimulados.
Palabrasclaves:RedesNeuronalesArtificiales,ALGLIB,OpenNN,AlgoritmoQuasi-Newton,C++.
Abstract
In the last decades, there have been a considerable amount of innovationsin the developmentof applications and the scope of
artificialneuralnetworks,andlikewisethetechnologicaldevelopmentincomputerscience.Theseimprovementshavehadadirect
effectinthenumberofpublicationsonapplications,indiverseareasofknowledge,basedonthisartificialintelligencemethod.Until
now,theadequacyandapplicabilityoffreesoftwaretoolstofacilitatetheimplementationandthequalityofresultsisstillunder
discussion.Inthiscontext,thisworkpresentsacomparativeanalysisofsuchapplicationsusinglibrariesALGLIBandOpenNN,
orientedtotrainingandreproductionofartificialneuralnetworks.Also,weproposeanevaluationoftheresultsobtainedfromthe
levelsofcorrelationbetweentheoutputvaluesfortrainednetworksandasetofdataforsimulatedtraining.
Keywords:Artificialneuralnetworks,ALGLIB,OpenNN,Quasi-Newtonalgorithm,C++
Formasugeridadecitar: Muñoz,E.yC.Seijas2015.AnálisisComparativodeAjusteenEntrenamientodeRedes
NeuronalesartificialesapartirdelasLibreríasOpenNNyALGLIB.LaGranja:Revista
deCienciasdelaVida.Vol.21(1):49-60.ISSN:1390-3799.
LAGRANJA:RevistadeCienciasdelaVida21(1)2015:49-60.
49
(cid:13)c 2015,UniversidadPolitécnicaSalesiana,Ecuador.
Artículocientífico/Scientificpaper
ErithMuñozyCesarSeijas
METEOROLOGÍA COMPUTACIONAL
1. Introducción presentada por Haykin (1999) asemeja a las ANNs
con el cerebro en dos aspectos, en primer lugar re-
salta el hecho de que el conocimiento es adquirido
El objetivo de este trabajo es presentar un análisis
por la red desde su medio, a través de un proceso
comparativoentrelaslibreríasOpenNNyALGLIB
deaprendizajeyporotrapartelasfuerzasdelasco-
paraentrenamientoyreproducciónderedesneuro-
nexiones inter-neuronas, conocidas como pesos si-
nalesartificiales,ambasdecaracterísticasdesoftwa-
nápticos,sonusadasparaalmacenarelconocimien-
re libre, a partir de la evaluación del ajuste en un
to adquirido. El primer aspecto está relacionado a
proceso de entrenamiento. Los datos usados para
las características de los datos de entrada y salida,
elentrenamientode lasredesneuronalesfueronsi-
así como con los mecanismos de entrenamiento de
muladossiguiendolametodologíapresentadaenla
lared,mientrasqueelsegundoaspectoestárelacio-
guíadeusuariosdelRTTOVv10(RadiativeTransfer
nado con la estructura de la ANN. A continuación
forTOVSsatellite),paralasimulaciónderadianzas
se proporciona un tratamiento formal del conjunto
debido a la dispersión de microondas por nubes y
de tópicos asociados con ANNs usados en esta in-
precipitación(Hockingetal.,2012).Estosdatosestán
vestigación.
compuestos por 22variablesdeentradacorrespon-
dientesalos22canalesdelsensorATMSabordode De acuerdo con Haykin (1999), toda estructura
la plataforma Suomi-NPP, y una variable de salida compleja de ANNs está conformada por una uni-
representadapor la tasa de precipitación. Además, dad de procesamiento simple denominada neuro-
losdatoscomprendenobservacionessobreocéanoy na(Haykin,1999).Unaneuronapuedeconsiderarse
continenteenperíododeverano. comouna entidadque emiteunarespuesta(salida)
debido a la estimulación generada (activación) por
En este contexto, se entrenan redes neuronales
el recibimiento de señales conocidas (entradas). En
paraquelassalidasgenerentasasdeprecipitacióna
otraspalabras,laneuronarecibeinformacióndeen-
partirdelastemperaturasdebrilloproporcionadas
trada para la cual ella emite respuestas en función
pordatosdeloscanalesdelsensorATMSabordode
deunconocimientoprevio,locualimplicaquesila
la plataforma Suomi-NPP. Con la finalidad de eva-
neurona recibe estímulos desconocidos, la respues-
luarlasdiferenciasinherentesalaestacionalidadde
tapudierasernoacordealoesperado.Lacorrección
procesos de precipitación se entrenan redes neuro-
derespuestasnoesperadasporpartedelaneurona
nalesartificialessobresuperficiedeocéanoyconti-
que recibe nuevos estímulos, se resuelve mediante
nenteencondicionesdeveranoenreferenciaalhe-
laaplicacióndeprocesosdeentrenamiento.
misferionorte.
En la Figura 1 se aprecia el modelo matemá-
tico de la estructura de una neurona, donde con-
2. Generalidades siderando que j es el índice de identificación de
la neurona estimulada, se tiene entonces que X =
{x ,x ,x ,...,x }eselvectordeentradasquecon-
Lasredesneuronalesartificialesrepresentanunade 1 2 3 n
tiene información de n neuronas inter-conectadas
las técnicas más conocidas de las que forman par-
con j. Por otro lado w es el peso sináptico en-
te del área de Inteligencia Artificial, la cual algu- ij
tre cada una de las n neuronas, identificadas con
nos autores consideran, que ha sido inspirada por
i = 1,2,3,...,n, y la neurona j; θ es el umbral de
la naturaleza de la inteligencia humana en su afán j
activación de la neurona j también conocido como
porcomprenderydesarrollarentidadesinteligentes
umbrales. Por otra parte, f es la función de activa-
simplesquepermitancrearsistemasdeinteligencia
ción asociada a la neurona j, generalmente se usa
complejos. Haykin (1999) proporcionó el siguiente
una función sigmoidal, tal como la tangente hiper-
concepto para ANNs: Una Red Neuronal Artificial
bólica. La relación matemática entre las entradas y
es un procesador distribuido dotado de alto nivel
lasaliday delaneuronaestadadocomo:
de paralelismo construido a partir de unidades de j
procesamientossimples,lascualestienenunacapa- n
cidadnaturaldealmacenarconocimientoconforme yj = f ∑wijxi−θj (1)
a la experiencia y disponer de dicho conocimiento i=1 !
parasuuso(Haykin,1999).
Laecuación1representaunageneralizaciónsim-
De acuerdo a Mas y Flores (2008), la definición ple de la ecuación de McCulloch-Pitts (Hertz et al.,
LAGRANJA:RevistadeCienciasdelaVida21(1)2015:49-60.
50
(cid:13)c 2015,UniversidadPolitécnicaSalesiana,Ecuador.
AnálisisComparativodeAjusteenEntrenamientodeRedesNeuronalesartificialesapartir
delasLibreríasOpenNNyALGLIB
1991),lo cual hace referenciaa la similitud entre el La salida y de una neurona en términos de la
j
modelo biológico neuronalcon el modelo matemá- combinaciónlinealdeentradasx ,estádefinidapor
j
ticopresentado,conlasalvedaddequeenestecaso, una función de activación. Existen diferentes tipos
larelaciónentrada-salidanoconsideradependencia defuncionesdeactivaciónentrelascualessedesta-
temporal, es decir es una relación atemporal y por can, por ser usados en la presente investigación, la
otro lado no se consideran en la salida efectos de funciónlinealylasfuncionessigmoidales(Hiperbó-
acumulación debidoa los datos de entrada,lo cual licayLogística).
setraduceenquenosealmacenainformaciónsobre
Laformadelasfuncionessigmoidalespermiten
estadosanterioresdelasentradas,sóloelmomento
simular la actividad de una neurona biológica, de-
actual(XinguiyShaohua,2010).Laformaenquelas
bidoaqueapartirdelascombinacionesdelosdife-
neuronas son dispuestas en una red determinan la
rentesestímulosrecibidosporunaneurona,esposi-
arquitecturaotopologíadelared,lacualestáestre-
bledescribirestadosdetransiciónintermediosentre
chamenterelacionadaconlaseleccióndelalgoritmo
losestadosabsolutosdeactivaciónyno-activación
deentrenamiento(MasyFlores,2008).
en la respuesta neuronal. Tal y como se aprecia en
la figura 3, la función de activación para respues-
tasbinariasestárepresentadaenlasubfigura3.apor
lafunciónescalón,enlasubfigura3.bsemuestrala
funciónlineal,yenla3.cy3.dlasfuncionessigmoi-
dales.
Figura1. Modelomatemático de una neurona (Xingui y
Shaohua,2010).
2.1 Elmodelodelperceptrón
El modelo del perceptrón fue introducido por Ro-
senblatt (1958) y también de forma independiente
porWidrowyHoff(1960),comounmecanismoca-
paz de ser entrenado en forma supervisada y a su
vez como la arquitectura más simple de ANNs. En
la Figura 2 se muestra la arquitectura del percep-
trón,elmismoconstadeunacapadeentradaconec-
tada a una capa de salida, en la capa de entrada el
númerodeneuronasnesigualalacantidaddeda-
tosdeentrada x,mientrasqueenlacapadesalida Figura3.Funcionesdeactivación:a)Escalón,b)Lineal,c)
i
setienenmneuronasdesaliday . Logística,d)Hiperbólica(MasyFlores,2008).
j
Enreferenciaalmodelodelperceptróndebeaña-
dirsequelaslimitacionesfueronpuestaseneviden-
cia en el trabajo de Minsky y Papert (1969), en el
cualtrasunestudiobasadoenaplicacionesdelógi-
caoperacional,elperceptrónnopermitióconseguir
solucionesparaelproblemadelXOR,debidoaque
esunproblemalinealmentenoseparable,destacan-
do por ende, la aplicabilidadde la arquitectura del
Figura 2. Algoritmo para la estimación de Temperatura perceptrónexclusivamenteaproblemaslinealmente
(Hsieh,2009). separables.
LAGRANJA:RevistadeCienciasdelaVida21(1)2015:49-60.
51
(cid:13)c 2015,UniversidadPolitécnicaSalesiana,Ecuador.
Artículocientífico/Scientificpaper
ErithMuñozyCesarSeijas
METEOROLOGÍA COMPUTACIONAL
2.2 Elmodelodelperceptrónmulticapa delacapaoculta,setienelasiguienteecuación:
Posterior al conocimiento de las limitaciones del n
h = f ∑w x −b (2)
modelodelperceptrónrelacionadasalrequerimien- j ij i j
i=1 !
todelalinealidaddelos datosdeentradaysalida,
se pensaba que esta dificultad podía ser superada
Donde,deformasimilaralaecuación1,w esel
mediantelainclusióndecapasocultasentrelacapa ij
peso sináptico entre cadaneurona de entradai con
de entrada y salida, sin embargo para la época no
la j-esimaneuronadelacapaoculta, f eslafunción
habíaningúnalgoritmopararesolverANNsmulti-
de activación y b es el umbral de activación de la
capas. El trabajo de Rumelhart et al. (1986), fijó las j
neuronadelacapaoculta j.Porotraparte,lasalida
bases que permitieron posteriormente el desarrollo
paralaneuronay delacapadesalidaestádadapor
delPerceptrónMulticapa(MLP,porsussiglasenin- k
laecuaciónsiguiente:
glés).Enelmismosepresentaelre-descubrimiento
delAlgoritmodePropagaciónDirigidahaciaAtrás,
n
elcualhabíasidopresentadopreviamenteporWer- y = g ∑w˘ h −b˘ (3)
k jk j k
bos(1974). j=1 !
En la Figura 4 se muestra la estructura de un
MLP de arquitectura x −h −y (Una capa de en- Dondew˘ eselpesosinápticoentrecadaneuro-
i j k jk
tradaxconformadaporineuronas,unaocultahdej najdelacapaocultaconcadaneuronay delacapa
k
neuronasyunacapadesalidaydekneuronas).Esta de salida y g es la función de activación. La exten-
arquitecturadeANNesconocida comoPerceptrón sión de la figura 3, para el caso de N capasocultas
MulticapaDirigidohaciaAdelante(MLPFF,porsus resultanatural,siendonecesarioobtenerlasalidaen
siglas en inglés) la cual se caracteriza por el hecho dependenciadelafuncióndeactivaciónentrecada
de que, cada neurona de cada capa, está conectada dos capas sucesivas, de tal forma como se mostró
concadaneuronadelapróximacapa. parah yy enesteejemplo.
j k
2.3 EntrenamientodeANNs.
De acuerdo con Blackwell y Chen (2009), gene-
ralmente los problemas atmosféricos basados en
ANNsestánenfocadoscomounproblemadeclasi-
ficación mediante reconocimiento de patrones (RP,
porsussiglaseninglés)ocomounproblemadere-
gresióndefunciones.Enestimacionesdeprecipita-
ción,latécnicadeRPesempleadageneralmentepa-
radiscriminarentrepixelesdeprecipitaciónydeno
precipitación en una escena, mientras que la regre-
sióndefuncionesesempleadaparaestimarvalores
de tasas de precipitación. En esta investigación las
Figura4.ArquitecturadeunMLP,enlacualsemuestrala
ANNs se entrenan para generar en la salida valo-
capadeentradadedatos,unacapaoculta,yunadecapa
desalida(Hsieh,2009). resdetasadeprecipitación,porlotanto,elenfoque
teóricoquesustentaestainvestigaciónestávincula-
doalentrenamientodeANNsorientadasala reso-
lucióndeproblemasdeestimacióndeprecipitación
En este caso se deben implementar dos funcio-
medianteregresióndefunciones.
nesdeactivaciónunaparaactivaralasneuronasde
la capa oculta al ser estimuladas por las neuronas En este sentido es propicio el contexto para de-
delacapadeentrada,yotraparaactivarlasneuro- notar que, se define entrenamiento de una ANN al
nasdelacapadesalidatrasserestimuladasporlas procesodedeterminarvaloresóptimosdepesossi-
neuronas de la capa oculta. En este contexto consi- nápticosybiasquemaximicenlaaproximacióndel
derandoenprimerlugarlasalidadelasneuronash conjunto desalidasdedatospredichosmediantela
j
LAGRANJA:RevistadeCienciasdelaVida21(1)2015:49-60.
52
(cid:13)c 2015,UniversidadPolitécnicaSalesiana,Ecuador.
AnálisisComparativodeAjusteenEntrenamientodeRedesNeuronalesartificialesapartir
delasLibreríasOpenNNyALGLIB
ANN,conelconjuntodedatosdesalidaquerepre- SegúnBishop(2005),elalgoritmoBPconsisteen
sentanlosdatosobjetivosdeajusteodepredicción el entrenamiento de MLPs mediante la aplicación
durantelafasedeentrenamiento.Lascaracterísticas del método del Gradiente Descendiente (DG, por
intrínsecas de la ANN determinanen gran medida sus siglas en inglés) sobre la función de costo, sin
sucapacidadypropiedadparaserentrenadas,entre embargo cabe destacar que Xingui (2010) mencio-
estascaracterísticassepuedenmencionar laestruc- na que existen varios métodos mejorados basados
turadelaANN,formadeinicializacióndelared,así en BP, como por ejemplo el Gradiente Conjugado,
comotambiénlasfasesderegularizaciónquepermi- Newton, Quasi-Newton, Levenberg-Maquardt, en-
tenlaautoevaluaciónentiemporealdelprocesode treotros(XinguiyShaohua,2010).Laoptimización
entrenamiento. depesosybiasesllevadaacabomedianteBPusan-
do Gradiente Descendente a partir de la actualiza-
El proceso de post-entrenamiento requiere ade-
cióniterativaenladirecciónenlaquelafunciónde
másunprocesodeevaluacióndelacalidaddelpro-
costodisminuyemasrápido,esdecirenladirección
ceso, el cual puede ser realizado mediante una re-
negativadelgradiente.
gresiónlinealentrelasalidadelaredylosdatosob-
jetivos,asícomotambiénmediantelaestimacióndel Enestainvestigación seusaelalgoritmoQuasi-
coeficiente de correlación. Hsieh (2009) afirma que Newton para el proceso de entrenamiento de las
elprocesodeentrenamientogeneralmenteeslleva- ANNs, debido principalmente a que es un algorit-
doacaboalminimizar unafuncióndecosto J,que modesegundoordenmejorado,locualimplicauna
conforme a su metodología, ha sido definida como buenarelaciónentrerendimientoytiemporequeri-
unmediodelerrormediocuadrático(MSE,porsus doparaelentrenamiento,porotroladoestealgorit-
siglaseninglés)entrelasalidaobtenidaporlaANN moestáimplementadoenlasdoslibreríasdelicen-
y las salidas del conjunto de datos usados durante ciaabiertaparaC++,quesonOPENNNyALGLIB,
elprocesodeentrenamiento(Hsieh,2009).Matemá- locualpermitediseñarcondicionesestándarespara
ticamentelafunción Jtienelasiguienteforma: llevaracaboelanálisiscomparativo.
1 N 1
J = ∑ ∑[yn−yn ]2 (4) 3. Metodología de la investiga-
N n=1(2 k k dk )
ción
En la ecuación 4 y representa el dato ob-
dk
jetivo (meta proporcionada en el entrenamiento),
De acuerdo Bellerby et al. (2000), una red neuro-
y es la salida generada mediante la ANN, n =
k nalartificialdedoscapasocultasproporcionanive-
1,2,3,...,N, son el número de casos, observacio-
les de complejidad adecuados para modelar la no-
nes o mediciones. De esta manera, se puede plan-
linealidad entre los datos de entrada y salida aso-
tearqueelprocesodeentrenamientodeANNscon-
ciados a problemas de segundo orden, garantizan-
siste en el empleo de algoritmos de optimización
doademás,costoscomputacionalesadmisiblespara
(comúnmentedenominadosalgoritmosdeentrena-
realizarelprocesoderegresiónno-linealconvencio-
miento)quepermitandeterminarvaloreswybpara
nalqueinvolucranlosmétodosgeneralesdeestima-
loscualeslafuncióndecosto Jresulteminimizada.
cióndetasadeprecipitaciónusandoANNsenbase
adatossatelitales.
2.4 Entrenamiento mediante propaga- Enestesentido,conlafinalidaddeemularlosfe-
ción de erroreshacia atrás nómenos físicosinvolucrados enelprocesodepre-
cipitación,enestetrabajoseentrenandiferentesmo-
Eltérmino Propagaciónhacia Atrás(BP, por sus si- delosderedesneuronalesartificiales,todosconuna
glas en inglés) tiene diferentes connotaciones en el capadeentrada,doscapasocultas,unacapadesa-
campo de las ANN, por una parte se suele asociar lida y se utilizan como datos de entrada diferen-
estetérminoalaarquitecturadelaANN,yporotra, tescombinaciones decanalesdelsensor ATMS.Es-
tambiénse denomina BPal mecanismo de minimi- ta topología de redes constante en los diversosex-
zacióndelafuncióndecostopresentadaporRumel- perimentos numéricos realizadosenesta investiga-
hartetal.(1986),queesenelcontextoenelcualeste ción,sinembargo,sepresentanalgunasvariantesen
términoesempleadoenlapresenteinvestigación. cuantoalnúmerodeneuronasquecomponenlaca-
LAGRANJA:RevistadeCienciasdelaVida21(1)2015:49-60.
53
(cid:13)c 2015,UniversidadPolitécnicaSalesiana,Ecuador.
Artículocientífico/Scientificpaper
ErithMuñozyCesarSeijas
METEOROLOGÍA COMPUTACIONAL
padeentradaylascapasocultas. ta relaciónconla posibilidad de predecirla tasade
precipitación,yporotroladolosdatosdesalidason
En este orden de ideas, con la primicia de pro-
valoresde tasa de precipitaciónsimulados paralas
porcionar mayor información sobre la arquitectura
diferentes combinaciones de los datos de entradas.
deredneuronalusadaenestetrabajo,enlaFig.4se
Posterioraestaseparacióndescriptivasobrelosda-
muestranlasdiferentespartesque conforman cada
tos entrada, los mismos son divididos en tres sub-
redneuronalartificial.
conjuntosdedatos;elprimerocorrespondealosda-
tosdeentrenamientoparalared,elsegundoadatos
quesirvenparalaverificacióndeajusteeneltiempo
delprocesodeentrenamientoyelterceroparareali-
zarpruebassobreeldesempeñopredictivodelared
neuronal.
Lasvariablesdeentradaestánrepresentadaspor
elconjuntodecanalesdelATMSquetienenunaal-
ta relaciónconla posibilidad de predecirla tasade
precipitación,yporotroladolosdatosdesalidason
valoresde tasa de precipitaciónsimulados paralas
Figura5.Diseñosecuencialdelatopologíaderedneuro-
diferentes combinaciones de los datos de entradas.
naldedoscapasocultas.
Posterioraestaseparacióndescriptivasobrelosda-
tos entrada, los mismos son divididos en tres sub-
conjuntosdedatos;elprimerocorrespondealosda-
3.1 Capade entrada
tosdeentrenamientoparalared,elsegundoadatos
quesirvenparalaverificacióndeajusteeneltiempo
La importancia de la capa de entrada se encuentra
delprocesodeentrenamientoyelterceroparareali-
implícita en el hecho de que la red neuronal debe
zarpruebassobreeldesempeñopredictivodelared
emular las relacionesfísicasy matemáticasque tie-
neuronal.
nenlugarentrelasvariablesqueconformanlosda-
tosdeentradaysalidaquerepresentanlasmagnitu-
despredichas.Enestesentido,debenrealizarseva- 3.2 Escalamiento y desescalamiento de
riasconsideracionesconlafinalidaddellevaracabo los datos
unaóptimaseleccióndelosdatosdeentrada,entre
las que cabe resaltar el hecho de que dichas varia- En la Fig. 4 se puedeapreciarenla etiqueta A que,
bles tengan poca correlación entre sí, pero alta co- antesdeque losdatosseanintegradosala capade
rrelaciónconlasalidadelaANN,asícomotambién entrada, hay un procesode escalamiento. El proce-
que contengan poco contenido de ruido en el caso sodeescalamientopuedeserllevadoacabocuando
dequelosdatosprovengandeinstrumentosdeme- losdatosrepresentanlinealidadencuantoalaesca-
dición. la, sin embargo es conveniente hacerlo para expre-
Conrespectoalaestructuradelacapadeentra- sar los datos de entrada en orden de magnitud ce-
da,esimportanteprecisarqueelconjuntodevaria- ro,locualayudaaalcanzarunamejoraproximación
blesdeentradadefineelnúmerodeneuronasenes- porpartedelalgoritmodeentrenamiento.Deigual
tacapa.Asípues,elnúmerodevariablesdeentrada forma se apreciaque en la etiqueta H, nuevamente
tieneunarelacióndirectaconeldiseñodelaestruc- se hace el desescalamiento de los datos, lo cual es
turadeneuronasdelascapasocultasdelaredypor imprescindible para expresar los resultados en las
endeconeldesempeñodelaredentrenada.Esim- magnitudesoriginales.
portante además resaltar que en el proceso de en-
trenamientodela redneuronal,los datosde inicia-
3.3 Capasocultas
lizacióndelprocesodeentrenamientoentradaestán
conformadosporvariablesdeentradayvariablesde
En la arquitectura de las redes que son entrena-
salida.
das para los efectos de este trabajo, se han inclui-
Lasvariablesdeentradaestánrepresentadaspor do dos capas ocultas, siguiendo las recomendacio-
elconjuntodecanalesdelATMSquetienenunaal- nesdeBlackwellyChen(2005).Deestemodo,laar-
LAGRANJA:RevistadeCienciasdelaVida21(1)2015:49-60.
54
(cid:13)c 2015,UniversidadPolitécnicaSalesiana,Ecuador.
AnálisisComparativodeAjusteenEntrenamientodeRedesNeuronalesartificialesapartir
delasLibreríasOpenNNyALGLIB
quitecturabaseparalaevaluacióndelentrenamien- enelusodelafuncióndeerrorexactaHessiana,yel
toderedesneuronaleses10neuronasenlaprimera método de paradatemprana, el cualevita el sobre-
capaoculta y 5 enla segunda, tomando como refe- entrenamientoapartirdelafinalizaciónautomática
renciaeltrabajodeChenetal.(2006).Apartirdeesta delprocesodeentrenamientomedianteparámetros
arquitectura base, se evalúa el desempeño de cada determinados en el algoritmo (http://www.alglib.
red entrenada y en función de la calidad de resul- net/dataanalysis/neuralnetworks.php).
tadosobtenidosseplanteanexperimentosalternati-
Unaventajadestacabledelaimplementacióndel
vos con diferentes números de neuronas en ambas
algoritmo Quasi-Newton en ALGLIB, es el hecho
capasocultas.
de que presenta criterios de parada predefinidos,
lo cual garantiza una convergencia óptima duran-
te el proceso de entrenamiento, y al mismo tiempo
3.4 Función deactivación
proporciona3parámetrosquepermitenlamodifica-
cióndelcriteriodeparadasinperdergeneralidaden
En la Fig. 4 se aprecian 2 capas de activación, una
lascaracterísticasdeoptimización.Deestemodo,es
con la etiqueta D que corresponde a las neuronas
posible establecer procedimientos de entrenamien-
delacapaoculta1yotraconlaetiquetaFque está
to de ANNs, con pocos pasos de configuración del
asociadaalacapaoculta2,enamboscasossehase-
algoritmoydeformaóptimizada.
leccionadocomofuncióndeactivaciónalafunción
hiperbólica.Esimportantemencionar,queenlaFig.
4 ha sido ignorada una tercera capa de activación 3.6 Características deOpen NN
quecorrespondealasneuronasdelacapadesalida,
esta omisión se debe alhecho de que la función de Open Neural Network (Open NN) es una libre-
activaciónaplicadaenestaetapaeslalineal,lacual ría gratuita basada en C++ para el entrenamien-
para los efectos este trabajo ha sido implementada to y reproducción de ANNs. Posee herramientas
enunarelaciónunoauno. para el manejo y disposición de datos, además
de contar con una amplia variedad de algoritmos
de entrenamiento entre los que resaltan el método
3.5 Característicasde ALGLIB
del Gradiente Descendiente, Gradiente Conjugado,
Newton,Quasi-Newton,Levenberg-Marquardt,en-
ALGLIB es un conjunto de herramientas compu-
tre otros. Al igual que ALGLIB proporciona herra-
tacionales y numéricas con versiones comerciales
mientas paraentrenar redesparaclasificación y re-
y gratuitas, orientadas a implementaciones mate-
gresión lineal, pero a diferencia de ALGLIB, Open
máticas aplicadas. ALGLIB contiene interfaces de
NN tiene una documentación que incluye más de
desarrolloparalareproducciónyentrenamientode
10ejemplosdesolucionesdeproblemasapartirdel
ANNs, que están compuestas por librerías dispo-
entrenamiento de ANNs por diferentes algoritmos
nibles para ser compiladas y usadas en varios len-
(http://www.cimne.com/flood/Links.asp).
guajesdeprogramación,sinembargoenestetraba-
La arquitectura de Open NN, y la implementa-
jolasimplementacioneshansidollevadasacaboen
cióndelalgoritmoQuasi-Newton,permitenalusua-
C++ para establecer una comparación con Openn
riocrearestrategiasdeentrenamientoapartirdela
NN, que está desarrollada exclusivamente en este
configuración de un criterio de parada por un in-
lenguaje.
crementomínimo de desempeño, cumplimiento de
Dentro de las ventajas que aporta ALGLIB pa-
meta, meta de gradiente normal, y también por la
ra implementaciones de ANNs resalta el hecho de
evaluación de decremento de generalización máxi-
que se pueden entrenar ANNs tanto para clasifi-
ma. También es posible establecer configuraciones
cación como para regresión lineal, por otra parte
parallevaracaboelprocesodeentrenamientoen3
cuenta con tres algoritmos de entrenamiento que
fases,deestemodoseusaunprimeralgoritmopa-
son,elL-BFGS(LimitedMemoryBroyden-Fletcher-
rallevaraestabilidadyconvergencialosbíasype-
Goldfarb-Shanno)queesunmétodoQuasi-Newton
sos sinápticos (Generalmente un algoritmo de pri-
con costo de iteraciones fijas cuyo uso es recomen-
merordencomoelGradienteDescendente),uegoel
dableenproblemascongrancantidaddedatos,el
segundo algoritmo que realiza el proceso de entre-
Levenberg-Marquardt que está fundamentado namiento, y un tercer algoritmo para optimizar el
LAGRANJA:RevistadeCienciasdelaVida21(1)2015:49-60.
55
(cid:13)c 2015,UniversidadPolitécnicaSalesiana,Ecuador.
Artículocientífico/Scientificpaper
ErithMuñozyCesarSeijas
METEOROLOGÍA COMPUTACIONAL
proceso. 21,41%másaltoqueOpenNN,esteresultadopue-
de ser observado de forma visual a partir de la re-
Paralosefectosdeestainvestigaciónsehausado
gresiónlinealy lalínea deajuste mostradaencada
unsoloalgoritmo,paraevaluarlascaracterísticasde
caso,siendorelevantelacalidaddelajusteobtenido
ajuste de cada libreríaen condiciones similares. De
apartirdeALGLIB.
igualformaesimportantemencionarqueelcriterio
de paradautilizadofue elde la evolución de gene- En este experimento, ALGLIB reportó un valor
ralización,yaqueevitaelsobreentrenamientodela de2,59paraelerrorcuadráticomedio,mientrasque
ANN. Open NN la figura 7 muestra la diferenciade erro-
res, durante el proceso de entrenamiento, entre los
datosdesalidadelaredylosdatosdeprueba.
4. Resultados
A continuación se presenta el diseño de las ANNs
paracadaexperimento,asícomotambiénlosresul-
tadosderivadosparacadaunadelaslibrerías:
4.1 Entrenamiento sobre superficie de
continente
Enlatabla1seapreciaelconjuntodeexperimentos
diseñados para el proceso de entrenamiento en ve-
rano,cadaunotieneasociadounnúmerodereferen-
cia,uncódigoparafacilitarsuidentificaciónduran-
teelentrenamientodelaredneuronal,yfinalmente
loscanalesseleccionadoscomodatosdeentrada.
Figura6.Gráficodedispersiónentrelosvaloresdetasade
Número Código Canales
precipitaciónestimadosporlaANNyelvalorobjetivode
1 LS_1 3,4,5,16,17,18,19,20,21,22 losdatosdeentrenamiento(Database)paraentrenamien-
2 LS_2 18,19,20,21,22 tomedianteALGLIBdelexperimentoLS_1.
3 LS_3 5,17,18,19,20,21,22
Tabla1.Diseñodeexperimentosdeentrenamientodela
ANN para la estimación de tasa de precipitación sobre
continente enperíododeVerano(LSsonsiglaseninglés
quehacenreferenciaaLand-Summer,locualseinterpre-
tacomodatoparapixelsobrecontinenteenépocadeVe-
rano).
Elconjuntodedatossimuladosusadosparaeste
entrenamiento, involucra 25384 casos de combina-
ciones de los canales ATMS asociados con diferen-
tesnivelesdetasadeprecipitaciónquecomprenden
valoresentre6.30×10−4 y61.43mm/h.Losresulta-
dosdelentrenamientoderedes,obtenidosparaesta
experiencia, se muestran en la Figura 5 y Figura 6,
dondesehanrepresentadolosresultadosderivados
a partir de la librería ALGLIB y los obtenidos me-
Figura7.Gráficodedispersiónentrelosvaloresdetasade
diantelalibreríaOpenNNrespectivamente. precipitaciónestimadosporlaANNyelvalorobjetivode
La primera observación a destacar es que AL- losdatosdeentrenamientoparaentrenamientomediante
GLIB proporciona un coeficiente de correlación OpenNNdelexperimentoLS_1.
LAGRANJA:RevistadeCienciasdelaVida21(1)2015:49-60.
56
(cid:13)c 2015,UniversidadPolitécnicaSalesiana,Ecuador.
AnálisisComparativodeAjusteenEntrenamientodeRedesNeuronalesartificialesapartir
delasLibreríasOpenNNyALGLIB
evitar tanto el sub-entrenamiento, como el sobre-
entrenamiento de la red, en orden de llevar a cabo
un buen proceso de entrenamiento. Particularmen-
te,enestecasosetomócomopesosybiasdelared,
losvalorescorrespondientesa1000épocas.
Esimportantemencionar,queestagráficanofue
posible generarla para el entrenamiento mediante
ALGLIB,porqueestalibreríanoproporcionalapo-
sibilidad de almacenar valoresde RMSE para cada
ciclo, mientras que con Openn NN fue posible ob-
tenerlaconunasencillamodificacióndeuncódigo,
Figura 8. Error Cuadrático Medio del desempeño del
tambiénesimportanteaclararqueestasgraficasson
proceso de entrenamiento(azul) y de los datos de prue-
naturalesenOpenNN yaque elcriteriode parada
ba(rojo)duranteelprocesodeentrenamientodelareden
noesautomáticoyuncriterioparaestablecerpara-
OpenNNdelcasoLS_1.
dasdeentrenamientoenOpenNNesdefinirunva-
lor máximo de diferencia en RMSE entre los datos
Idealmente, en la Figura 7 es de esperarse dos
deperformanceygeneralization.
curvassuperpuestas,locualindica que elerroren-
Las Figs. 8 y 9 corresponden al segundo ex-
tre la salida de la red(curva inferior de la figu-
perimento, etiquetado como LS_2. En este caso el
ra) en entrenamiento reproduce perfectamente los
coeficiente de correlación obtenido por ALGLIB es
datos de prueba(curva superior de la figura), sin
24,67%superioraldeOpenNN.
embargo, en lugar de esto se tiene entonces que
cuando la curva roja asociada a los datos de prue- Respecto a la calidad de este resultado, se pue-
ba(Generalization)seaproximaalosdatosdesalida de destacar que una correlación de 0.451 es baja y
de la red en función de las épocas se tiene un pro- másaunconsiderandoqueestacorrelacióndescribe
ceso de entrenamiento normal, ahora bien cuando lacapacidaddeprediccióndedatossimuladosyno
estacurvadepruebasealejaporarribadelacurva de datos reales, en cuyo caso se espera disminuya
azul(Performance),como sucede en la Fig. 7 a par- aunmásdichacorrelación.Esteresultadoseatribu-
tir de la época 1000, se dice que la red está sobre- ye al hecho de que estos 5 canales, por si solos no
entrenandolocualsetraduceenpérdidadegenera- contienensuficienteinformacióncomoparaestimar
lidadporpartedelprocesodeentrenamiento. precipitación.Portalmotivo,lainclusióndecanales
que permitan aumentar la correlación entre los da-
Por otro lado, cuando la curva roja se ale-
tosdeentradaydesalida,sonunaexcelenteopción
ja de la azul por debajo, el resultado es un sub-
paraaumentarlosnivelesdepredicción.
entrenamiento de la red. En todo caso es necesario
Experimento R2conALGLIB R2conOPENNN Diferenciaporcentual(%)
LS_1 0.8391 0.6594 21.41
LS_2 0.4510 0.3397 24.67
LS_3 0.5854 0.3846 34.30
Tabla 2. Resumen de resultados de coeficientes de correlación para las redes neuronales de estimación de tasa de
precipitaciónsobrecontinenteenépocadeverano.
LAGRANJA:RevistadeCienciasdelaVida21(1)2015:49-60.
57
(cid:13)c 2015,UniversidadPolitécnicaSalesiana,Ecuador.
Description:En las últimas décadas son muchos los avances que han tenido lugar en el desarrollo de aplicaciones y alcances de las redes neuronales artificiales