Manex Pagola 2025
Amaitua
- Ikerketa lerroa:
- Explainable models
- Azalpena:
ALDAPA ikerketa-taldeak (http://www.aldapa.eus) badu PCTBagging (Partially Consolidated Tree Bagging) algoritmoaren inplementazio bat, berriki pakete ofizial gisa kode irekiko Weka plataforman onartuta (https://weka.sourceforge.io/packageMetaData/J48PartiallyConsolidated/index.html). Algoritmo hau zuhaitz kontsolidatuak sortzeko CTC algoritmoaren eta oso ezaguna den Bagging sailkatzaile anitzaren hibrido bat bezala ikus daiteke. Bere helburu nagusia zera da: oreka bat bilatzea sailkatzeko gaitasunaren eta sailkapenaren azalpenaren artean.
Inplementazio honek Kontsolidazio-portzentaia izeneko parametro bat du, zeinaren bidez mantendu beharreko zuhaitz kontsolidatu partzialaren barrne-nodoen kopurua adierazten den (horiek dira azalpena ematen dutena), zuhaitz osoko nodo kopuruarekiko. Horrela, lehenik, zuhaitz kontsolidatu osoa eraikitzen da (CTC algoritmoa), eta, ondoren, inausi egiten da (1. fasea), nodo handienak (populazioaren arabera) bakarrik utzita, erro-nodotik hasi eta parametroak emandako balioraino. Zuhaitz partzial honen egitura komuna mantenduz, puntu horretatik aurrera, gainerako zuhaitz guztiak garatzen dira, Baggingen egiten den bezala (2. fasea), modu independentean.
Proiektu honek J48PartiallyConsolidated-en inplementazioa aldatzea proposatzen du, algoritmoaren bi faseak, ahal den neurrian, paraleloan egin daitezen, egikaritzen den makinaren hardware baliabideak erabiliz.
Javan garatutako Machine Learningeko WEKA plataformak (http://www.cs.waikato .ac.nz/ml/weka/) Bagging algoritmoa inplementatzen du. Inplementazio horrek badu aukera bat (numExecutionSlots parametroa) thread-ak erabiliz paraleloan exekuta dadin.
Ideia da, besterik adierazi ezean, Javaren bidez eskura dauden CPU edo core kopurua lortzea Runtimen.getRuntime().availableProcessors() izeneko funtzioarekin, eta bi faseak balio horrek adierazten duen beste threadetan exekutatzea, hardware-baliabideak ahalik eta gehien aprobetxatzeko.
Bi faseetan, thread-en artean karga banatzeko hainbat estrategia azter daitezke, bai eta hardware ezaugarri desberdinak dituzten makinetan probatu ere (prozesatze-abiadura, core-kopurua, etab.), betiere, ezarritako estrategien errendimendua aztertuz testuinguru desberdinetako serieko inplementazioarekiko. Hori guztia, eraikitako sailkatzaileek berdin-berdinak izan behar dutela bi bertsioetan; paraleloa eta seriea (jatorrizkoa), kontuan hartuta.
- Partehartzaileak:
-
- Zuzendaria(k):
- Jesús M. Pérez
Olatz Arbelaitz
- Unibertsitatea:
- Universidad del País Vasco/Euskal Herriko Unibertsitatea (UPV/EHU)
- Zentroa:
- Informatika Fakultatea - Facultad de Informática
- Saila:
- Konputagailuen Arkitektura eta Teknologia - Arquitectura y Tecnología de computadores
- Irakurketaren data:
- 2025-02-26
- Irakurketaren urtea:
- 2025
