Metodología
Así se construyó el algoritmo del Proyecto Dipteryx que analiza el riesgo de tráfico de madera
El Proyecto Dipteryx es una iniciativa periodística basada en el uso de un algoritmo que alerta sobre la sospecha de riesgo de ilegalidad en el comercio de madera amazónica. Lleva su nombre por ser el género al que pertenece el shihuahuaco, una de las especies forestales más exportadas en Perú y que hoy se encuentra en situación vulnerable.
El algoritmo desarrollado durante el Proyecto Dipteryx parte de un modelo inicial trabajado por las organizaciones expertas en temas forestales Proética y la Agencia de Investigación Ambiental (EIA), que se basaron en supervisiones en campo realizadas por el Organismo de Supervisión de los Recursos Forestales y de Fauna Silvestre (Osinfor), entre 2008 y 2021. A este modelo el equipo de OjoPúblico sumó cinco bases de datos con dos millones de datos nuevos para construir un algoritmo que combine información de comercialización, investigaciones fiscales y sanciones.
Durante un año, un equipo periodístico multidisciplinario desarrolló durante un año y construyó y analizó cinco bases de datos estructuradas con más de más de 2’718.000 datos vinculados a 15 años de comercio y transporte de madera, concesiones forestales, sanciones administrativas, investigaciones penales por crímenes ambientales, empresas con antecedentes y exportaciones de Aduanas.
El algoritmo —que se basa en un modelo Random Forest Classifier (RFC)— establece una predicción de riesgo de 0 a 1 —donde 0 representa la inexistencia de riesgo y 1 el máximo riesgo— para tres actores principales del comercio maderero: el titular (que administra la concesión forestal), el comprador (que adquiere el producto y en su mayoría lo transforma en aserraderos) y el destinatario (casi siempre el empresario exportador o vendedor local).
En principio, y a partir de los datos consignados, el resultado se puede obtener para tres actores de la cadena productiva de la madera: el titular de la concesión o permiso donde se extrae la madera, el comprador o también llamado propietario quien la adquiere y la moviliza; y el destinatario final, que —en algunos casos— puede ser el mismo comprador o una empresa de otra región o exportadora.
El algoritmo establece como parámetros este tipo de riesgos: muy alto (de 0,9 a 1), alto (de 0,7 a 0,89); medio (0,6 a 0,69); bajo (0,5 a 0,59) y sin riesgo (de 0 a 0,49). Esta puntuación, además, tiene como pieza fundamental a las Guías de Transporte Forestal (GTF), documento que emiten los gobiernos regionales y que detalla una parte de la trazabilidad de la madera. Como parte de la investigación, OjoPúblico accedió a más 60.000 de estas guías de los años 2020 y 2022 y las incorporó a las otras bases de datos de 15 años que pondera el algoritmo.
Además de la información de 60.000 guías de transporte forestal, el modelo contiene también datos del registro del Organismo de Supervisión de Recursos Forestales (Osinfor) sobre modalidades de aprovechamiento, ubicación, infracciones detectadas, entre otros. Asimismo, se sumó información adicional del concesionario supervisado que se tradujo en una hoja de cálculo de 45 columnas por cada una de las guías.
En el proceso se realizó una limpieza en la homologación de las especies maderables para que el nombre científico no tuviera diferencias y pueda alterar el resultado.
En la siguiente etapa del modelo, OjoPúblico entrenó al algoritmo con miles de datos históricos con los que se manejaban. Se usó la información consignada en más de 62.000 guías de movilización de madera, aprobadas por el Gobierno Regional de Ucayali, correspondientes al período 2020 a 2022. De este grupo se tomó como variable a los titulares, compradores, destinatarios y especie de la madera.
Además, para el análisis, se consideró el uso de otras fuentes oficiales como intervenciones realizadas por el Servicio Nacional Forestal (Serfor), registros de investigaciones a cargo de fiscalías ambientales del país y exportaciones de productos maderables de la Aduana peruana. En total, para el Proyecto Dipteryx, se emplearon más de dos millones y medio de datos sobre comercialización de madera.
Respecto al tipo de algoritmo —de técnica Machine Learning para un aprendizaje con datos y mejora con la experiencia—, la sugerencia inicial de los especialistas fue usar el denominado Random Forest Classifier (RFC) porque permite trabajar con problemas de clasificación cuyas variables se responden con un ‘Sí’ o ‘No’. Y también porque el RFC es de regresión, usado para conectar características y una variable objetivo continua.
Además, este modelo de algoritmo RFC pertenece a los de la categoría “Supervisado”, es decir, que tiene como cualidad poder responder “Sí” o “No”, respecto a las variables que se estén estudiando. En este caso, si hay o no irregularidad en la madera analizada.
En la etapa preliminar del modelo se probó con una decena de tipos de algoritmos como el Dumb usado para proyectos de aprendizaje, el Decision Tree empleado para distintos análisis o el XG Boost, de rasgo potente pero con una implementación técnica más costosa y con poca literatura sobre su uso.
Los mejores resultados, en grado de confiabilidad del score (superior al 60%) e implementación en servidores, fueron cuando se trabajó con el RFC. Este modelo, a su vez, es usado en varias industrias y se tiene un mejor registro para su implementación, una debilidad que tenía el XG Boost pese a las características positivas con las que cuenta.