python source code of utils

Project: category_encoders (GitHub Link)

category_encoders-master
- .github
  - PULL_REQUEST_TEMPLATE.md
  - ISSUE_TEMPLATE.md
  - workflows
    - test-suite.yml
    - pypi-publish.yml
    - docs.yml
    - test-docs-build.yml
- joss
  - paper.md
  - paper.bib
- examples
  - img
  - benchmarking_cpu
    - output
      - result.csv
    - benchmarking_cpu.py
  - grid_search_example.py
  - benchmarking
    - reporting.py
    - peak_mem.csv
    - __init__.py
    - benchmarking.py
  - benchmarking_large
    - datasets
      - article
        pbcseq.csv
        references.txt
      - arff-datasets-master
        boolean
        xor.arff
        classification
        diabetes.arff
        colic.orig.arff
        dermatology.arff
        spect.train.arff
        hepatitis.arff
        heart.h.arff
        cmc.arff
        heart.c.arff
        bridges.version2.arff
        column2C.arff
        postoperative.patient.data.arff
        audiology.arff
        shuttle.landing.control.arff
        tae.arff
        zoo.arff
        column3C.arff
        spectf.test.arff
        flags.arff
        soybean.arff
        bridges.version1.arff
        breast.cancer.arff
        heart.statlog.arff
        ionosphere.arff
        sponge_mod.arff
        tic-tac-toe.arff
        vehicle.arff
        spect.test.arff
        cylinder.bands.arff
        vote.arff
        iris.arff
        labor.arff
        sponge.arff
        autos.arff
        primary.tumor.arff
        haberman.arff
        lymph.arff
        balance.scale.arff
        credit.a.arff
        sonar.arff
        vowel.arff
        credit.g.arff
        anneal.orig.arff
        anneal.arff
        solar.flare1.arff
        spectf.train.arff
        car.arff
        solar.flare2.arff
        glass.arff
        trains.arff
        breast.w.arff
        wine.arff
        ecoli.arff
        colic.arff
        robotics
        README.rst
        regression
        pwlinear.arff
        schlvote.arff
        mbagrade.arff
        pollution.arff
        quake.arff
        autoprice (2).arff
        housing.arff
        fruitfly.arff
        fishcatch.arff
        detroit.arff
        autoprice.arff
        pyrim.arff
        wisconsin.arff
        auto93.arff
        cholesterol.arff
        longley.arff
        breasttumor.arff
        diabetes.numeric.arff
        stock.arff
        servo (2).arff
        elusage.arff
        servo.arff
        housing (2).arff
        veteran.arff
        cloud.arff
        strike.arff
        autohorse.arff
        bolts.arff
        sensory.arff
        cpu.arff
        machine.cpu.arff
        autompg (2).arff
        hungarian.arff
        meta.arff
        cleveland.arff
        vineyard.arff
        echomonths.arff
        bodyfat.arff
        autompg.arff
        abalone.arff
        pharynx.arff
        sleep.arff
        triazines.arff
        pbc.arff
        baskball.arff
        lowbwt.arff
        gascons.arff
        statlib
        nominal
        analcatdata_aids.arff
        analcatdata_fraud.arff
        analcatdata_famufsu.arff
        prnn_synth.arff
        cars_with_names.arff
        analcatdata_japansolvent.arff
        analcatdata_challenger.arff
        analcatdata_cyyoung8092.arff
        backache.arff
        analcatdata_birthday.arff
        schizo.arff
        analcatdata_reviewer.arff
        wseries.arff
        analcatdata_bondrate.arff
        analcatdata_esr.arff
        analcatdata_broadwaymult.arff
        analcatdata_bankruptcy.arff
        analcatdata_happiness.arff
        collins.arff
        analcatdata_cancerrate.arff
        fl2000.arff
        prnn_fglass.arff
        analcatdata_germangss.arff
        cars.arff
        irish.arff
        analcatdata_currency.arff
        prnn_virus3.arff
        analcatdata_devils.arff
        analcatdata_halloffame.arff
        prnn_viruses.arff
        prnn_crabs.arff
        biomed.arff
        cloud.arff
        profb.arff
        analcatdata_asbestos.arff
        prnn_cushings.arff
        analcatdata_chall2.arff
        analcatdata_donner.arff
        analcatdata_dmft.arff
        analcatdata_broadway.arff
        analcatdata_assessment.arff
        confidence.arff
        analcatdata_homerun.arff
        analcatdata_boxing2.arff
        analcatdata_draft.arff
        analcatdata_votesurvey.arff
        analcatdata_marketing.arff
        analcatdata_lawsuit.arff
        analcatdata_authorship.arff
        analcatdata_mapleleafs.arff
        analcatdata_benford.arff
        analcatdata_hurricanes.arff
        analcatdata_cyyoung9302.arff
        analcatdata_boxing1.arff
        analcatdata_creditscore.arff
        analcatdata_braziltourism.arff
        analcatdata_chall101.arff
        lupus.arff
        numeric
        mhsets_annual-frnchb.arff
        mhsets_askew-askew16.arff
        chatfield_3.arff
        visualizing_hamster.arff
        mhsets_noakes-trinity.arff
        mhsets_ecology-lynx.arff
        mhsets_commod-goldl.arff
        csb_ch19a.arff
        mhsets_commod-goldh.arff
        christensen_tab17-3.arff
        mhsets_noakes-misinab.arff
        rabe_182.arff
        mhsets_annual-tpyr.arff
        visualizing_galaxy.arff
        smoothmeth_adptvisa.arff
        mhsets_askew-askew4.arff
        mhsets_annual-rhine.arff
        visualizing_livestock.arff
        mhsets_thompsto-lacstjin.arff
        mhsets_ecology-mink.arff
        mhsets_annual-sunspt.arff
        mhsets_askew-askew2.arff
        sleuth_ex1024.arff
        visualizing_barley.arff
        visualizing_polarization.arff
        sleuth_case1302.arff
        mhsets_lamarche-ring.arff
        mhsets_ecology-skunk.arff
        christensen_tab7-5.arff
        sapa_4.arff
        mhsets_epi-mumps.arff
        mhsets_annual-spirits.arff
        mhsets_monthly-tseoil.arff
        christensen-llm_tab2-8b.arff
        chscase_funds.arff
        mhsets_annual-kiewa.arff
        riverflow_english.arff
        analcatdata_ossification.arff
        mhsets_htong-vatnsd.arff
        mhsets_roberts-aarivint.arff
        sleuth_ex0326.arff
        mhsets_monthly-pphil.arff
        analcatdata_soccer.arff
        sleuth_case2001.arff
        mhsets_boxjenk-seriesb2.arff
        sleuth_case1301.arff
        hutsof99_tab5_11.arff
        rabe_36.arff
        christensen-llm_tab4-16.arff
        kidney.arff
        mhsets_annual-gota.arff
        christensen_tab12-15.arff
        baseball-hitter.arff
        mhsets_hurst-rhine.arff
        mhsets_roberts-align.arff
        christensen_tab12-16.arff
        rmftsa_oldfaith.arff
        smoothmeth_mineacci.arff
        mhsets_roberts-plhuron.arff
        smoothmeth_birthrt.arff
        sleuth_case0202.arff
        smoothmeth_basesal.arff
        mhsets_hurst-espanola.arff
        diggle_table_a7.arff
        baseball-pitcher.arff
        mhsets_askew-askew17.arff
        sapa_7.arff
        christensen_tab13-3.arff
        diggle_table_a2.arff
        pollution.arff
        mhsets_hurst-mstouis.arff
        csb_ch11b.arff
        sleuth_case2201.arff
        christensen_tab7-17.arff
        mhsets_hurst-bryce.arff
        mhsets_wisconsi-traneq.arff
        mhsets_cnelson-rgnp.arff
        mhsets_ecology-hopedale.arff
        sapa_1.arff
        arsenic-male-bladder.arff
        mhsets_londonwq-prec.arff
        mhsets_roberts-velmon.arff
        smoothmeth_geyser.arff
        christensen_tab12-3a.arff
        smoothmeth_ethanol.arff
        christensen_tab11-12.arff
        mhsets_boxjenk-seriesb.arff
        mhsets_monthly-wqlondon.arff
        smoothmeth_galaxy.arff
        smoothmeth_swissmon.arff
        christensen_tab4-6.arff
        mhsets_askew-askew7.arff
        mhsets_roberts-dj.arff
        mhsets_hurst-eaglecol.arff
        mhsets_askew-askew25.arff
        sleuth_ex0728.arff
        baseball-team.arff
        mhsets_annual-bwater.arff
        mhsets_noakes-american.arff
        christensen_tab7-19.arff
        mhsets_monthly-piper.arff
        mhsets_epi-measlbal.arff
        christensen_tab13-2.arff
        mhsets_htong-precip.arff
        mhsets_askew-askew9.arff
        witmer_laughter_and_funniness.arff
        chscase_chal.arff
        christensen-llm_berkley.arff
        csb_ch10.arff
        sleuth_ex1220.arff
        mhsets_noakes-oostanau.arff
        mhsets_roberts-boxhun.arff
        mhsets_annual-globtp.arff
        sleuth_ex0821.arff
        mhsets_noakes-stjohns.arff
        mhsets_roberts-yule1.arff
        visualizing_iris.arff
        mhsets_askew-askew3.arff
        chscase_geyser2.arff
        mhsets_noakes-rappahan.arff
        mhsets_roberts-pgreatl.arff
        sleuth_ex2224.arff
        sleuth_ex0915.arff
        smoothmeth_marathon.arff
        mhsets_prothero-iv.arff
        analcatdata_uktrainacc.arff
        analcatdata_lda.arff
        christensen_tab18-1.arff
        mhsets_noakes-saugeen.arff
        tumor.arff
        diggle_table_a6.arff
        hutsof99_tab2_01.arff
        mhsets_noakes-neches.arff
        chscase_health.arff
        christensen_tab9-1.arff
        sleuth_case0801.arff
        riverflow_mckenzie.arff
        sapa_9.arff
        riverflow_richelu.arff
        hutsof99_tab5_17.arff
        christensen_tab13-4.arff
        mhsets_epi-measlnyc.arff
        christensen_tab4-9.arff
        analcatdata_olympic2000.arff
        mhsets_htong-temper.arff
        sleuth_case2002.arff
        arsenic-us-female-bladder.arff
        sleuth_case0401.arff
        hutsof99_tab5_16.arff
        sleuth_ex0331.arff
        mhsets_misc-caffeine.arff
        mhsets_noakes-pigeon.arff
        chscase_ppp.arff
        christensen_tab9-16.arff
        christensen_tab7-16.arff
        sleuth_ex0330.arff
        christensen_tab7-1.arff
        christensen_tab9-6.arff
        analcatdata_anscombe.arff
        christensen-llm_trauma.arff
        mhsets_roberts-halsey.arff
        rabe_258.arff
        mhsets_annual-nywater.arff
        mhsets_annual-geoduck.arff
        mhsets_htong-jokulsa.arff
        mhsets_commod-soyh.arff
        smoothmeth_salyear.arff
        mhsets_misc-pack.arff
        visualizing_slope.arff
        sleuth_ex2016.arff
        mhsets_hurst-gota.arff
        mhsets_korsan-dailyibm.arff
        mhsets_astatkie-oldmanp.arff
        christensen-llm_tab4-18.arff
        diggle_table_a4.arff
        christensen_tab11-4.arff
        smoothmeth_salary.arff
        mhsets_annual-dal.arff
        smoothmeth_sulfate.arff
        mhsets_askew-askew11.arff
        smoothmeth_mbasurv.arff
        riverflow_mboulder.arff
        mhsets_misc-saugeen.arff
        mhsets_baracos-cminet.arff
        mhsets_monthly-ssask.arff
        mhsets_cnelson-m.arff
        chscase_vine3.arff
        rmftsa_unemp.arff
        smoothmeth_safewatr.arff
        mhsets_annual-nile.arff
        riverflow_neches.arff
        sleuth_ex1217.arff
        christensen_tab9-13a.arff
        mhsets_cnelson-ip.arff
        analcatdata_hivcd4cd8.arff
        sleuth_case1002.arff
        analcatdata_neavote.arff
        christensen_tab12-1.arff
        boston_corrected.arff
        christensen_tab16-23.arff
        sleuth_case0502.arff
        mhsets_prothero-m.arff
        christensen_tab4-3.arff
        csb_ch16b.arff
        mhsets_boxjenk-seriesf.arff
        smoothmeth_whale.arff
        mhsets_annual-usm3.arff
        witmer_draft_lottery.arff
        mhsets_monthly-azusa.arff
        sleuth_ex1221.arff
        mhsets_thompsto-lacstjsn.arff
        mhsets_monthly-furnas_dat.arff
        christensen-llm_tab4-21.arff
        mhsets_londonwq-consum.arff
        mhsets_boxjenk-seriesc.arff
        rabe_265.arff
        mhsets_lamarche-campito.arff
        chscase_census3.arff
        sleuth_ex0112.arff
        mhsets_korsan-dailysap.arff
        mhsets_hurst-dell.arff
        csb_ch6.arff
        sleuth_ex1509.arff
        riverflow_james.arff
        csb_ch16a.arff
        diggle_table_a3.arff
        detroit.arff
        sleuth_ex2011.arff
        christensen_tab7-20.arff
        analcatdata_negotiation.arff
        sleuth_case0702.arff
        chscase_empl.arff
        mhsets_monthly-reddeer.arff
        riverflow_rappahan.arff
        sleuth_ex0620.arff
        smoothmeth_gascons.arff
        mhsets_askew-askew12.arff
        mhsets_ecology-hebron.arff
        sleuth_ex1614.arff
        christensen_tab9-13.arff
        riverflow_colum.arff
        chscase_vote.arff
        christensen_tab11-23.arff
        mhsets_noakes-wolf.arff
        mhsets_monthly-salesx.arff
        cps_85_wages.arff
        witmer_credits_oberlin.arff
        riverflow_mad.arff
        visualizing_melanoma.arff
        mhsets_misc-paper.arff
        christensen_tab5-10.arff
        analcatdata_kotzehawk.arff
        disclosure_x_noise.arff
        hutsof99_tab6_11.arff
        mhsets_askew-askew.arff
        csb_ch4a.arff
        mhsets_hurst-naramata.arff
        mu284.arff
        arsenic-us-male-bladder.arff
        mhsets_noakes-riogrand.arff
        christensen_tab10-6.arff
        visualizing_food_web.arff
        mhsets_roberts-ccpi.arff
        mhsets_prothero-cn.arff
        christensen-llm_tab8-4.arff
        mhsets_annual-peas.arff
        christensen_tab2-4.arff
        sleuth_ex1120.arff
        mhsets_cnelson-cpi.arff
        mhsets_cnelson-bnd.arff
        sleuth_case2101.arff
        iq_brain_size.arff
        csb_ch3a.arff
        analcatdata_election2000.arff
        chscase_census5.arff
        rmftsa_propores.arff
        christensen-llm_tab2-8a.arff
        analcatdata_seropositive.arff
        mhsets_roberts-gnpr.arff
        mhsets_cnelson-vel.arff
        christensen_tab4-14.arff
        pbcseq.arff
        visualizing_fly.arff
        mhsets_noakes-namakan.arff
        mhsets_roberts-ibm.arff
        mhsets_annual-usm2.arff
        ships.arff
        mhsets_hurst-ogden.arff
        arsenic-male-lung.arff
        sleuth_ex0428.arff
        chscase_hockey1.arff
        chscase_hockey2.arff
        sleuth_ex1414.arff
        mhsets_misc-salesx.arff
        christensen_ex5-1-2.arff
        mhsets_boxjenk-seriesjx.arff
        christensen_tab13-5.arff
        mhsets_commod-gold.arff
        christensen-llm_tab4-20.arff
        mhsets_astatkie-saugeenp.arff
        sleuth_ex1122.arff
        csb_ch12.arff
        chscase_rock.arff
        mhsets_annual-corn.arff
        mhsets_askew-askew26.arff
        christensen_tab4-11.arff
        christensen_tab5-9.arff
        sleuth_ex0523.arff
        papir_1.arff
        mhsets_askew-askew21.arff
        sleuth_case1102.arff
        mhsets_hurst-minimum.arff
        mhsets_hurst-sunspt.arff
        hutsof99_tab5_08.arff
        sleuth_ex0820.arff
        christensen-llm_tab10-1.arff
        hutsof99_tab3_01.arff
        chscase_djsp.arff
        mhsets_hurst-bigcone.arff
        mhsets_hurst-precip.arff
        rabe_176.arff
        chscase_prdq.arff
        christensen_tab7-15.arff
        christensen-llm_tab8-2.arff
        sleuth_ex0724.arff
        mhsets_askew-askew15.arff
        longley.arff
        smoothmeth_airaccid.arff
        christensen_tab10-1.arff
        saubts_2.arff
        analcatdata_ncaa.arff
        sleuth_ex0727.arff
        mhsets_ecology-muskrat.arff
        smoothmeth_racial.arff
        smoothmeth_caco2.arff
        mhsets_ecology-wolveren.arff
        christensen_tab9-9.arff
        sleuth_ex0211.arff
        rmftsa_msft72997300.arff
        mhsets_roberts-yule2.arff
        smoothmeth_elusage.arff
        rabe_261.arff
        mhsets_epi-chicknyc.arff
        mhsets_pruscha-year.arff
        sleuth_case1702.arff
        sleuth_ex0817.arff
        sleuth_ex2220.arff
        analcatdata_chlamydia.arff
        mhsets_monthly-hankou.arff
        arsenic-female-lung.arff
        christensen_tab16-7.arff
        sleuth_case0402.arff
        visualizing_ozone.arff
        sleuth_ex0429.arff
        pollen.arff
        rabe_70.arff
        sleuth_ex1512.arff
        hutsof99_tab5_13.arff
        mhsets_blowfly-deaths.arff
        christensen_tab17-6.arff
        mhsets_commod-ush.arff
        sleuth_ex1708.arff
        sleuth_case1101.arff
        chscase_return.arff
        analcatdata_michiganacc.arff
        chscase_subway.arff
        mhsets_ecology-arctic.arff
        mhsets_cnelson-sp500.arff
        christensen-llm_tab2-4.arff
        christensen-llm_tab4-15.arff
        sleuth_case0302.arff
        mhsets_wisconsi-metals.arff
        chscase_demand.arff
        sleuth_ex0221.arff
        mhsets_ecology-wolf.arff
        sleuth_ex1605.arff
        mhsets_cnelson-pcrgnp.arff
        christensen_tab5-11.arff
        rabe_131.arff
        visualizing_environmental.arff
        mhsets_sanfran-precip.arff
        mhsets_monthly-baydu.arff
        christensen_tab9-14.arff
        chscase_census1.arff
        arsenic-female-bladder.arff
        witmer_bush_perc_88_vote.arff
        visualizing_playfair.arff
        diggle_table_a1.arff
        chscase_ers.arff
        witmer_june_rain.arff
        balloon.arff
        mhsets_ecology-otter_l.arff
        hutsof99_tab2_03.arff
        mhsets_annual-wheat.arff
        smoothmeth_quake.arff
        riverflow_oostanau.arff
        mhsets_monthly-woods.arff
        christensen_tab5-1.arff
        sleuth_case0802.arff
        csb_ch13.arff
        rabe_168.arff
        sleuth_ex0818.arff
        csb_ch21a.arff
        mhsets_noakes-turtle.arff
        strikes.arff
        mhsets_sanfran-temper.arff
        mhsets_misc-freedman.arff
        analcatdata_apnea1.arff
        mhsets_annual-canfire.arff
        mhsets_wisconsi-food.arff
        smoothmeth_schlvote.arff
        mhsets_noakes-judith.arff
        analcatdata_titanic.arff
        sleuth_ex2225.arff
        visualizing_singer.arff
        christensen-llm_tab2-5.arff
        rabe_166.arff
        mhsets_annual-ogden.arff
        hutsof99_tab5_10.arff
        mhsets_annual-dvi.arff
        mhsets_roberts-gnpn.arff
        mhsets_monthly-nigeria.arff
        sleuth_ex0914.arff
        no2.arff
        riverflow_madison.arff
        chscase_vine1.arff
        mhsets_commod-feedh.arff
        mhsets_askew-askew20.arff
        sapa_6.arff
        mhsets_commod-feed.arff
        visualizing_ethanol.arff
        mhsets_commod-usl.arff
        christensen-llm_tab2-6.arff
        chscase_whale.arff
        mhsets_pruscha-summer.arff
        christensen_tab7-14.arff
        mhsets_roberts-rgnp.arff
        riverflow_namakan.arff
        riverflow_feather.arff
        chscase_sex.arff
        sleuth_case1401.arff
        mhsets_hurst-neumunas.arff
        analcatdata_vehicle.arff
        sleuth_ex1415.arff
        christensen_tab8-21.arff
        analcatdata_gmat.arff
        stanford.arff
        sleuth_case2202.arff
        socmob.arff
        sapa_2.arff
        analcatdata_whale.arff
        mhsets_misc-simar4.arff
        mhsets_roberts-beards.arff
        witmer_satm_satv_oberlin_math_majors.arff
        hutsof99_tab3_07.arff
        mhsets_monthly-riotiete.arff
        disclosure_z.arff
        analcatdata_gsssexsurvey.arff
        christensen_tab4-5.arff
        mhsets_askew-askew6.arff
        sapa_8.arff
        analcatdata_apnea3.arff
        mhsets_roberts-egdeman.arff
        mhsets_noakes-clearwat.arff
        mhsets_roberts-boxhu1.arff
        mhsets_monthly-co2.arff
        christensen_tab12-14.arff
        christensen_tab7-10.arff
        sleuth_ex2228.arff
        hutsof99_tab1_01.arff
        newton_hema.arff
        sleuth_ex1317.arff
        mhsets_annual-huron.arff
        hutsof99_tab5_07.arff
        sleuth_ex2012.arff
        sleuth_ex2015.arff
        christensen_tab11-20.arff
        analcatdata_hivtrans2.arff
        christensen-llm_tab7-2.arff
        christensen_tab9-11.arff
        mhsets_askew-askew18.arff
        mhsets_sanfran-flow.arff
        mhsets_monthly-nilemon.arff
        christensen_tab4-8.arff
        mhsets_askew-askew8.arff
        christensen_tab13-1.arff
        sleuth_case1201.arff
        christensen-llm_tab2-3.arff
        sleuth_case1001.arff
        mhsets_noakes-madison.arff
        boston.arff
        sleuth_case0102.arff
        mhsets_hurst-snake.arff
        mhsets_roberts-scholes.arff
        sleuth_case0201.arff
        veteran.arff
        christensen_tab16-24.arff
        mhsets_hurst-exshaw.arff
        mhsets_baracos-cminer.arff
        transplant.arff
        sleuth_ex1612.arff
        sleuth_case0301.arff
        sleuth_ex0329.arff
        christensen-llm_tab4-17.arff
        sleuth_case1202.arff
        christensen_tab2-1.arff
        chscase_adopt.arff
        smoothmeth_hckshoot.arff
        visualizing_dating.arff
        analcatdata_beetles.arff
        mhsets_boxjenk-seriesg.arff
        analcatdata_mines.arff
        sleuth_ex2114.arff
        sapa_5.arff
        mhsets_londonwq-temper.arff
        sleuth_ex1511.arff
        chatfield_6.arff
        rmftsa_intc72997300.arff
        csb_ch3b.arff
        riverflow_ssask.arff
        witmer_census_median_age.arff
        mhsets_roberts-joe.arff
        riverflow_boise.arff
        chscase_nyseotc.arff
        riverflow_saugeen.arff
        christensen_tab16-26.arff
        sleuth_ex1714.arff
        mhsets_roberts-cryer.arff
        christensen_tab17-10.arff
        mhsets_blowfly-total.arff
        smoothmeth_mineexpl.arff
        analcatdata_enrollment.arff
        christensen_tab10-9.arff
        mhsets_annual-danube.arff
        sleuth_ex0321.arff
        analcatdata_runshoes.arff
        riverflow_lacstjsn.arff
        mhsets_annual-mcken.arff
        analcatdata_menarche.arff
        mhsets_cnelson-prgnp.arff
        mhsets_hurst-danube.arff
        christensen_tab11-21.arff
        rabe_49.arff
        mhsets_boxjenk-seriese.arff
        mhsets_commod-soy.arff
        mhsets_noakes-richelu.arff
        rmftsa_ctoarrivals.arff
        papir_2.arff
        christensen_tab4-2.arff
        places.arff
        mhsets_monthly-ozone.arff
        rabe_188.arff
        christensen-llm_tab8-6.arff
        witmer_brain_weight.arff
        csb_ch21b.arff
        mhsets_monthly-fraser.arff
        christensen_tab11-1.arff
        mhsets_annual-nile2.arff
        rmftsa_sleepdata.arff
        witmer_burglaries_massachusetts.arff
        mhsets_roberts-harbor.arff
        mhsets_misc-qbirths.arff
        mhsets_ecology-nain.arff
        christensen_tab4-2a.arff
        csb_ch11a.arff
        riverflow_pigeon.arff
        mhsets_commod-us.arff
        mhsets_annual-cig.arff
        csb_ch4b.arff
        sleuth_case0601.arff
        hutsof99_tab2_02.arff
        csb_ch1b.arff
        witmer_pres_vote_1976-1988.arff
        christensen_tab9-10.arff
        mhsets_annual-fortalez.arff
        sleuth_ex0619.arff
        mhsets_noakes-ssask.arff
        nflpass.arff
        sleuth_ex1318.arff
        rabe_11.arff
        hutsof99_logis_d.arff
        christensen_tab10-8.arff
        csb_ch18b.arff
        mhsets_roberts-plmich.arff
        christensen-llm_boring.arff
        mhsets_roberts-u.arff
        sleuth_case1601.arff
        csb_ch17.arff
        mhsets_commod-porkl.arff
        christensen-llm_tab2-7.arff
        mhsets_prothero-y.arff
        mhsets_annual-sunspots.arff
        mhsets_prothero-cd.arff
        rmftsa_ge72997300.arff
        witmer_cereal.arff
        hutsof99_logis.arff
        saubts_1.arff
        mhsets_noakes-nmagnet.arff
        lmpavw.arff
        sleuth_ex0430.arff
        mhsets_noakes-boise.arff
        analcatdata_randomgen.arff
        mhsets_cnelson-un.arff
        rmftsa_rainfall.arff
        witmer_challenger.arff
        mhsets_astatkie-fisher.arff
        analcatdata_sexpartners.arff
        mhsets_roberts-lyndpin.arff
        christensen_tab4-15.arff
        riverflow_sfskykom.arff
        sleuth_case2102.arff
        sleuth_ex1713.arff
        mhsets_noakes-wbdelawa.arff
        mhsets_roberts-plsuper.arff
        mhsets_hurst-lakeview.arff
        mhsets_askew-askew22.arff
        analcatdata_lalottery.arff
        witmer_cleveland_temp.arff
        mhsets_londonwq-waterq.arff
        analcatdata_supreme.arff
        mhsets_baracos-cminef.arff
        riverflow_lacstjra.arff
        witmer_nfl_1987.arff
        sleuth_ex1613.arff
        witmer_florida_population.arff
        mhsets_blowfly-eggs.arff
        mhsets_astatkie-oldman.arff
        riverflow_wolf.arff
        mhsets_roberts-ish66.arff
        visualizing_fusion_time.arff
        hutsof99_tab4_14d.arff
        witmer_percap_income.arff
        sleuth_ex0822.arff
        mhsets_monthly-guelph.arff
        sleuth_case0602.arff
        christensen-llm_tab4-19.arff
        smoothmeth_salmon.arff
        sleuth_ex0116.arff
        bolts.arff
        sleuth_ex1014.arff
        witmer_twins_batting_averages.arff
        chscase_pcb.arff
        mhsets_boxjenk-seriesjy.arff
        witmer_dodgers_attendance.arff
        mhsets_hurst-ninemile.arff
        sleuth_case0701.arff
        christensen_tab4-13.arff
        witmer_oberlin_temp_1988.arff
        mhsets_commod-feedl.arff
        sensory.arff
        sleuth_case1602.arff
        rmftsa_darwin.arff
        witmer_class_ratings_and_size.arff
        smoothmeth_diabetes.arff
        smoothmeth_baskball.arff
        mhsets_annual-frncha.arff
        sleuth_ex0325.arff
        sleuth_ex1115.arff
        smoothmeth_cars93.arff
        mhsets_noakes-colum.arff
        mhsets_ecology-marten.arff
        christensen_tab7-18.arff
        sleuth_case0901.arff
        sleuth_case0902.arff
        riverflow_judith.arff
        witmer_height_by_sex.arff
        visualizing_rubber.arff
        mhsets_misc-logistic.arff
        chscase_mort.arff
        chscase_lischool.arff
        christensen_tab9-15.arff
        csb_ch7.arff
        hutsof99_tab4_14.arff
        mhsets_monthly-arosa.arff
        analcatdata_galapagos.arff
        disclosure_x_bias.arff
        sleuth_case1502.arff
        analcatdata_hivtrans1.arff
        witmer_columbus_snow.arff
        mhsets_pruscha-winter.arff
        mhsets_misc-cigb.arff
        christensen_tab16-1.arff
        sleuth_ex2413.arff
        riverflow_stjohns.arff
        mhsets_thompsto-lacstjra.arff
        rabe_161.arff
        mhsets_askew-askew5.arff
        visualizing_ganglion.arff
        hutsof99_tab3_11.arff
        smoothmeth_calibrat.arff
        smoothmeth_newscirc.arff
        mhsets_noakes-mboulder.arff
        mhsets_boxjenk-seriesa.arff
        mhsets_roberts-ironsu.arff
        chatfield_2.arff
        mhsets_annual-pgreatl.arff
        witmer_shaw_and_wells.arff
        rmftsa_passengers1.arff
        csb_ch5.arff
        csb_ch1a.arff
        sleuth_ex1611.arff
        mhsets_roberts-rocky.arff
        mhsets_ecology-okak.arff
        chatfield_1.arff
        mhsets_roberts-blume.arff
        christensen_ex12-3-1.arff
        mhsets_ecology-racoon.arff
        christensen_tab2-3.arff
        chscase_foot.arff
        chscase_liinc.arff
        sleuth_ex0524.arff
        riverflow_american.arff
        rabe_16.arff
        rabe_152.arff
        mhsets_blowfly-emerging.arff
        christensen_tab4-1.arff
        sleuth_case0501.arff
        christensen_tab4-12.arff
        christensen_tab8-3a.arff
        csb_ch9.arff
        mhsets_astatkie-oldmant.arff
        mhsets_annual-thames.arff
        chatfield_5.arff
        riverflow_trinity.arff
        riverflow_current.arff
        mhsets_boxjenk-seriesj.arff
        csb_ch2.arff
        riverflow_nmagnet.arff
        smoothmeth_chondrit.arff
        mhsets_annual-usm1.arff
        mhsets_monthly-elbe.arff
        wind_correlations.arff
        mhsets_monthly-tpmon.arff
        mhsets_hurst-temper.arff
        mhsets_cnelson-gnp.arff
        analcatdata_winterolympic.arff
        christensen_tab11-19.arff
        christensen_tab8-2.arff
        mhsets_roberts-gruen.arff
        mhsets_astatkie-fishert.arff
        christensen_tab9-17.arff
        chscase_nba.arff
        christensen_tab11-22.arff
        mhsets_annual-births.arff
        christensen_tab2-2.arff
        hutsof99_tab4_01.arff
        smoothmeth_cdrate.arff
        mhsets_askew-askew14.arff
        mhsets_cnelson-rwg.arff
        witmer_census_1980.arff
        rabe_148.arff
        visualizing_sunspot.arff
        riverflow_misinab.arff
        diggle_table_a5.arff
        rabe_25.arff
        witmer_science_budget.arff
        mhsets_askew-askew24.arff
        christensen_tab16-25.arff
        mhsets_askew-askew19.arff
        mhsets_roberts-tbills.arff
        mhsets_monthly-peas.arff
        hutsof99_tab5_04.arff
        mhsets_cnelson-emp.arff
        sleuth_ex1023.arff
        mhsets_blowfly-nonemerg.arff
        mhsets_astatkie-saugeent.arff
        visualizing_animal.arff
        mhsets_noakes-sfskykom.arff
        analcatdata_apnea2.arff
        smoothmeth_mbagrade.arff
        chscase_vine2.arff
        mhsets_roberts-djweek.arff
        mhsets_astatkie-fisherp.arff
        christensen_tab16-13.arff
        mhsets_hurst-tioga.arff
        chscase_free.arff
        sleuth_ex0431.arff
        sleuth_case1501.arff
        witmer_hs_graduation_rates_1987.arff
        christensen_tab6-1.arff
        mhsets_roberts-g.arff
        sleuth_ex0725.arff
        visualizing_bin_packing.arff
        christensen_tab4-7.arff
        mhsets_commod-soyl.arff
        chscase_elusage.arff
        colleges_aaup.arff
        hutsof99_tab3_05.arff
        sleuth_ex0222.arff
        mhsets_misc-kings.arff
        christensen-llm_tab8-1.arff
        christensen_tab16-18.arff
        smoothmeth_mbasalry.arff
        rmftsa_bnrf1ebv1000.arff
        bodyfat.arff
        csb_ch14.arff
        witmer_water_oberlin.arff
        mhsets_noakes-english.arff
        mhsets_cnelson-wg.arff
        mhsets_roberts-nyse.arff
        christensen-llm_tab8-3.arff
        smoothmeth_votfraud.arff
        mhsets_roberts-ipi.arff
        mhsets_lamarche-temper.arff
        mhsets_hurst-whitemtn.arff
        rmftsa_evatranspiration.arff
        christensen_tab11-15.arff
        smoothmeth_vineyard.arff
        rabe_97.arff
        mhsets_roberts-grant.arff
        analcatdata_gviolence.arff
        witmer_larceny.arff
        sleuth_ex2017.arff
        christensen_tab5-12.arff
        christensen_tab12-3.arff
        christensen-llm_abort.arff
        sleuth_ex2226.arff
        christensen-llm_oring.arff
        mhsets_roberts-att.arff
        christensen-llm_tension.arff
        vinnie.arff
        christensen_tab8-3.arff
        rabe_260.arff
        mhsets_roberts-m.arff
        smoothmeth_jantemp.arff
        riverflow_turtle.arff
        mhsets_wisconsi-trade.arff
        mhsets_monthly-sunsptmo.arff
        mhsets_roberts-snow.arff
        rabe_266.arff
        csb_ch20.arff
        hutsof99_tab5_01.arff
        mhsets_askew-askew13.arff
        mhsets_prothero-yd.arff
        mhsets_annual-mstouis.arff
        rmftsa_ladata.arff
        sleuth_case1402.arff
        analcatdata_hiroshima.arff
        analcatdata_impeach.arff
        christensen-llm_tenslr.arff
        mhsets_monthly-engines.arff
        mhsets_monthly-niagara.arff
        sleuth_ex0816.arff
        mhsets_annual-neumunas.arff
        witmer_mourning_doves.arff
        sleuth_ex0519.arff
        mhsets_askew-askew23.arff
        arsenic-us-male-lung.arff
        mhsets_commod-pork.arff
        fraser-river.arff
        hutsof99_tab3_11d.arff
        chscase_geyser1.arff
        mhsets_noakes-current.arff
        mhsets_annual-minimum.arff
        plasma_retinol.arff
        humandevel.arff
        mhsets_hurst-navajo.arff
        christensen_tab4-4.arff
        sapa_3.arff
        mhsets_noakes-james.arff
        mhsets_commod-porkh.arff
        mhsets_astatkie-saugeen.arff
        chscase_census4.arff
        sleuth_ex2227.arff
        chatfield_4.arff
        sleep.arff
        mhsets_lamarche-precip.arff
        arsenic-us-female-lung.arff
        csb_ch8.arff
        csb_ch18a.arff
        analcatdata_shampoo.arff
        christensen_tab4-10.arff
        mhsets_noakes-mckenzie.arff
        chscase_census6.arff
        sleuth_case0101.arff
        analcatdata_vineyard.arff
        mhsets_ecology-hbco.arff
        mhsets_roberts-lakemich.arff
        mhsets_askew-askew10.arff
        hip.arff
        sleuth_ex1123.arff
        mhsets_boxjenk-seriesd.arff
        mhsets_noakes-mad.arff
        mhsets_noakes-feather.arff
        mhsets_roberts-globwarm.arff
        christensen_ex5-7-12.arff
        riverflow_clearwat.arff
        rabe_262.arff
        analcatdata_floridashark.arff
        mhsets_prothero-i.arff
        analcatdata_uklottery.arff
        riverflow_wbdelawa.arff
        disclosure_x_tampered.arff
        christensen-llm_cushing.arff
        visualizing_carbon_dioxide.arff
        mhsets_monthly-cpi.arff
        pbc.arff
        mhsets_roberts-skirts.arff
        riverflow_riogrand.arff
        visualizing_run_time.arff
        riverflow_lacstjin.arff
        christensen_tab8-19.arff
        mhsets_annual-amazon.arff
        sleuth_case1701.arff
        csb_ch15.arff
        mhsets_annual-elecus.arff
        chscase_census2.arff
        analcatdata_wildcat.arff
        christensen_tab9-12.arff
        sleuth_ex2115.arff
        pm10.arff
        christensen-llm_chapman.arff
        christensen_tab12-13.arff
        agridata
        grub.damage.arff
        pasture.arff
        squash.stored.arff
        squash.unstored.arff
        white.clover.arff
        eucalyptus.arff
    - util.py
    - csv_loader.py
    - arff_loader.py
    - report_history.py
    - benchmarking_large.py
    - report.py
    - output
    - catboost_comparison.py
  - encoding_examples.py
  - column_transformer_example.py
  - __init__.py
  - source_data
    - cars
      - car.names.txt
      - car.data.txt
      - car.c45-names.txt
    - loaders.py
    - __init__.py
    - mushrooms
      - agaricus-lepiota.names
    - splice
      - splice.names.txt
- category_encoders
  - backward_difference.py
  - binary.py
  - woe.py
  - polynomial.py
  - basen.py
  - m_estimate.py
  - glmm.py
  - wrapper.py
  - helmert.py
  - james_stein.py
  - target_encoder.py
  - one_hot.py
  - cat_boost.py
  - __init__.py
  - utils.py
  - sum_coding.py
  - leave_one_out.py
  - ordinal.py
  - hashing.py
  - count.py
- CONTRIBUTING.md
- CHANGELOG.md
- setup.py
- LICENSE.md
- requirements-dev.txt
- setup.cfg
- README.md
- tests
  - test_polynomial.py
  - test_ordinal.py
  - test_basen.py
  - test_utils.py
  - test_encoders.py
  - test_target_encoder.py
  - test_sum_coding.py
  - test_glmm.py
  - test_helpers.py
  - test_count.py
  - test_wrapper.py
  - test_james_stein.py
  - test_m_estimate.py
  - test_backward_difference.py
  - __init__.py
  - test_cat_boost.py
  - test_helmert.py
  - test_woe.py
  - test_hashing.py
  - test_leave_one_out.py
  - test_one_hot.py
  - test_binary.py
  - helpers.py
- CODE_OF_CONDUCT.md
- requirements.txt
- .gitignore
- docs
  - Makefile
  - source
    - targetencoder.rst
    - glmm.rst
    - polynomial.rst
    - onehot.rst
    - jamesstein.rst
    - binary.rst
    - backward_difference.rst
    - mestimate.rst
    - ordinal.rst
    - wrapper.rst
    - catboost.rst
    - hashing.rst
    - leaveoneout.rst
    - helmert.rst
    - sum.rst
    - basen.rst
    - woe.rst
    - index.rst
    - conf.py
  - requirements.txt
- MANIFEST.in

"""A collection of shared utilities for all encoders, not intended for external use."""

import pandas as pd
import numpy as np
from scipy.sparse.csr import csr_matrix

__author__ = 'willmcginnis'


def convert_cols_to_list(cols):
    if isinstance(cols, pd.Series):
        return cols.tolist()
    elif isinstance(cols, np.ndarray):
        return cols.tolist()
    elif np.isscalar(cols):
        return [cols]
    elif isinstance(cols, set):
        return list(cols)
    elif isinstance(cols, tuple):
        return list(cols)
    elif pd.api.types.is_categorical(cols):
        return cols.astype(object).tolist()

    return cols


def get_obj_cols(df):
    """
    Returns names of 'object' columns in the DataFrame.
    """
    obj_cols = []
    for idx, dt in enumerate(df.dtypes):
        if dt == 'object' or is_category(dt):
            obj_cols.append(df.columns.values[idx])

    return obj_cols


def is_category(dtype):
    return pd.api.types.is_categorical_dtype(dtype)


def convert_input(X, columns=None, deep=False):
    """
    Unite data into a DataFrame.
    Objects that do not contain column names take the names from the argument.
    Optionally perform deep copy of the data.
    """
    if not isinstance(X, pd.DataFrame):
        if isinstance(X, pd.Series):
            X = pd.DataFrame(X, copy=deep)
        else:
            if columns is not None and np.size(X,1) != len(columns):
                raise ValueError('The count of the column names does not correspond to the count of the columns')
            if isinstance(X, list):
                X = pd.DataFrame(X, columns=columns, copy=deep)  # lists are always copied, but for consistency, we still pass the argument
            elif isinstance(X, (np.generic, np.ndarray)):
                X = pd.DataFrame(X, columns=columns, copy=deep)
            elif isinstance(X, csr_matrix):
                X = pd.DataFrame(X.todense(), columns=columns, copy=deep)
            else:
                raise ValueError('Unexpected input type: %s' % (str(type(X))))
    elif deep:
        X = X.copy(deep=True)

    return X


def convert_input_vector(y, index):
    """
    Unite target data type into a Series.
    If the target is a Series or a DataFrame, we preserve its index.
    But if the target does not contain index attribute, we use the index from the argument.
    """
    if y is None:
        raise ValueError('Supervised encoders need a target for the fitting. The target cannot be None')
    if isinstance(y, pd.Series):
        return y
    elif isinstance(y, np.ndarray):
        if len(np.shape(y))==1:  # vector
            return pd.Series(y, name='target', index=index)
        elif len(np.shape(y))==2 and np.shape(y)[0]==1:  # single row in a matrix
            return pd.Series(y[0, :], name='target', index=index)
        elif len(np.shape(y))==2 and np.shape(y)[1]==1:  # single column in a matrix
            return pd.Series(y[:, 0], name='target', index=index)
        else:
            raise ValueError('Unexpected input shape: %s' % (str(np.shape(y))))
    elif np.isscalar(y):
        return pd.Series([y], name='target', index=index)
    elif isinstance(y, list):
        if len(y)==0 or (len(y)>0 and not isinstance(y[0], list)): # empty list or a vector
            return pd.Series(y, name='target', index=index, dtype=float)
        elif len(y)>0 and isinstance(y[0], list) and len(y[0])==1: # single row in a matrix
            flatten = lambda y: [item for sublist in y for item in sublist]
            return pd.Series(flatten(y), name='target', index=index)
        elif len(y)==1 and len(y[0])==0 and isinstance(y[0], list): # single empty column in a matrix
            return pd.Series(y[0], name='target', index=index, dtype=float)
        elif len(y)==1 and isinstance(y[0], list): # single column in a matrix
            return pd.Series(y[0], name='target', index=index, dtype=type(y[0][0]))
        else:
            raise ValueError('Unexpected input shape')
    elif isinstance(y, pd.DataFrame):
        if len(list(y))==0: # empty DataFrame
            return pd.Series(name='target', index=index, dtype=float)
        if len(list(y))==1: # a single column
            return y.iloc[:, 0]
        else:
            raise ValueError('Unexpected input shape: %s' % (str(y.shape)))
    else:
        return pd.Series(y, name='target', index=index)  # this covers tuples and other directly convertible types


def get_generated_cols(X_original, X_transformed, to_transform):
    """
    Returns a list of the generated/transformed columns.

    Arguments:
        X_original: df
            the original (input) DataFrame.
        X_transformed: df
            the transformed (current) DataFrame.
        to_transform: [str]
            a list of columns that were transformed (as in the original DataFrame), commonly self.cols.

    Output:
        a list of columns that were transformed (as in the current DataFrame).
    """
    original_cols = list(X_original.columns)

    if len(to_transform) > 0:
        [original_cols.remove(c) for c in to_transform]

    current_cols = list(X_transformed.columns)
    if len(original_cols) > 0:
        [current_cols.remove(c) for c in original_cols]

    return current_cols


class TransformerWithTargetMixin:
    def fit_transform(self, X, y=None, **fit_params):
        """
        Encoders that utilize the target must make sure that the training data are transformed with:
             transform(X, y)
        and not with:
            transform(X)
        """
        if y is None:
            raise TypeError('fit_transform() missing argument: ''y''')
        return self.fit(X, y, **fit_params).transform(X, y)