
Vad är skillnaden mellan klassificering och regression?
Klassificering och regression är två familjer av maskininlärningsmetoder. Övergripande används klassificering för att kategorisera data, medan regression används för att förutspå numeriska värden. Klassificering och regression är de två viktigaste typerna av supervised learning, som du kan lära mer om i min text om supervised och unsupervised learning. I den här texten kommer vi gå in på djupet inom supervised learning, och lära mer om hur det funkar.
Vad är supervised learning?
Supervised learning handlar om data som är märkt på något sätt, och att lära en modell att förutspå märkningen från nytt data. Så hur funkar det för klassificering och regression?
Vad är klassificering?
Klassificering hanterar data som är märkt med diskreta kategorier. Det handlar sedan om att använda maskininlärning för att lära att förutspå märkningen enbart utifrån datan.
Tänk till exempel att du har en samling av bilder på katter och hundar. Klassificering handlar om att introducera katt och hund som diskreta kategorier, och lära en maskininlärningsmodell att kategorisera djurbilder som någon av dessa.
Vad är regression?
Regression handlar om att använda maskininlärning för att lära en matematisk relation mellan olika värden. Till skillnad från klassificeringens fasta kategorier är dessa värden på en glidande skala – som en längd eller en temperatur. Med regression skapar man en matematisk modell som förutspå ett värde från de andra. Linjär regression och polynomregression är kända exempel, men det finns även andra typer av modeller, exempelvis beslutsträd.
Ett enkelt exempel vore data med olika sålda bostäders pris och boyta. Här skulle man kunna använda regression för att hitta en matematisk relation mellan boytan och priset. Detta skulle man sedan kunna använda för att förutspå priset för andra bostäder som inte sålts än.
Hur jämför de sig?
Sammanfattningsvis kan vi se det så här:
- Klassificering
- Data: Uppdelad i fördefinierade diskreta kategorier.
- Mål: Dela upp input i en av dina kategorier.
- Svar från modellen: En specifik kategori från ett urval.
- Regression
- Data: Kontinuerlig numerisk data, med värden som har en underliggande relation.
- Mål: Förutspå en variabel från de andra
- Svar från modellen: Ett numeriskt värde.

