Klassificering

Klassificering (fra latin: classis = ”Klasse” + facere = ”lave”) bruges om det at sammenfatte genstande (konkrete eller abstrakte) til klasser, dvs. grupper eller mængder.

Klassificering udføres i alle områder af tænkningen, men inden for filosofien bruger man oftere udtrykket kategorisering, jf. de aristoteliske kategorier. Klassificering forudsætter enten abstraktion eller opstilling af et kompleks. I semiotikken kaldes disse tilgange henholdsvis ”klassedannelse” og kompleksdannelse”.

Klassificering er en forudsætning for begrebsdannelse og dermed i sidste instans for intelligens. Da man først kan foretage en ordnet bearbejdning efter at have klassificeret de reelle data, er klassificering også en central del af mange anvendelser inden for informatikken, som er den videnskabsgren, hvor man foretager videnskabelige undersøgelser af den automatiske klassificering som forudsætning for mønstererkendelse.

Ved enhver klassificering kan der opstå fejl på grund af forkert arbejdsmåde eller særegenheder ved de behandlede objekter. For at angive, hvor sikker man er i forbindelse med en gruppering, kan det anbefales, at man ledsager enhver afgørelse med en oplysning om, hvor pålidelig den er.

Begrebsafgrænsning

Dette afsnit giver et overblik over artiklens indhold med de vigtigste af de begreber, der er forbundet med klassificering.

Klassificeringens fagbegreber bliver ofte brugt upræcist eller endda forkert, selv om de fleste har en klart fastlagt betydning. Sprogforvirringen bliver yderligere forstærket ved, at mange opfattelser har flere navne:

Klasse eller kategori. En klasse omfatter ting, som opfylder en række betingelser. Man sammefatter almindeligvis de ting til en klasse, hvis de har fælles eller tilsvarende kendetegn. (eksempel: alle de planter, som har de specielle ærteblomster, samles i Ærteblomst-familien)
Klassegrænser, beslutningsgrænser. For at kunne afgøre, hvilken klasse et objekt tilhører, trækker man grænser mellem klasserne (”klassegrænser”, også kaldet ”beslutningsgrænser”). Et objekt tilhører en klasse, når det ligger inden for dens klassegrænser. (eksempel: en plante tilhører Ærteblomst-familien, hvis og kun hvis den bærer blomster, der kan beskrives sådan: ”Ærtekronen består af ét stort, i reglen opadrettet kronblad, fanen, to sidestillede kronblade, vingerne, og to delvist sammenvoksede kronblade, kølen...”)
Klassifikation, klassesystem, systematik. Helheden af alle klasser danner en klassifikation, også kaldet et klassesystem eller en systematik. Meget brugte, specielle klassifikationer har ofte deres egne navne: tesaurus, ontologi, fortegnelse, taksonomi. Klassifikationen er resultatet af en klassificering; det er dog sjældent, at man skelner mellem klassificering (processen) og klassifikation (resultatet) og ordene bruges, som om de var ensbetydende. (eksempel: APG II systemet er en systematik, hvor klassifikationen bygger på planternes fylogenetiske kendetegn)

Bedømmelse af en klassering

Klassering Ved en klassificering bliver der først opstillet nye klassegrænser, men ved en klassering indordner men objekterne i et allerede bestående klassesystem. På de fleste sprog skelner man dog ikke mellem de to fremgangsmåder. (eksempel: en nyopdaget planteart bliver anbragt i den – allerede beskrevne – slægt, som dens kendetegn henviser den til)
Kategorisering Klassificering og kategorisering er ret beset det samme, men inden for matematik og tekniske fag taler man om ”klassificering”, mens man taler om kategorisering, når det drejer sig om psykologi og hermeneutik. Kategorisering kan desuden bruges om selve det at fastlægge klasser.
Klassifikator, klassificerer. Klassifikator (den klassificerende) kalder man den person, institution eller myndighed, som foretager en klassificering. (eksempel: Uppsala Universitets botaniske institut er klassifikator inden for de dækfrøede planters systematik)
Klassificeringsmetode. Klassificeringsmetoden bestemmer klassifikatorens fremgangsmåde. Ofte skelner man ikke mellem klassifikatoren og klassifikationsmetoden. (eksempel: Linné brugte studier af planternes formeringsorganer som klassifikationsmetode)
Bedømmelse af en klassifikator: Værdien af den klassering, der er foretaget af en klassifikator, eller af en bestemt klassificeringsmetode kan bedømmes ved hjælp af statistiske metoder.

Betydning

Klassificering er et grundlæggende og almengyldigt forløb, som talrige mere komplekse processer bygger på. Selv de mest enkle organismer kan inddele påvirkninger fra den ydre verden i klasser som ”farlig” og ”ufarlig” eller ”spiselig” og ”ikke spiselig” og de kan skelne vigtigt fra uvigtigt. Hos levende væsner med et nervesystem skbes en første klassificering allerede af neuronen, som ”afgør”, om påvirkningen er under niveau og kan ignoreres, eller om den er over niveau og må bearbejdes.

Mennesker klassificerer hørte lyde som ord, sete former som bogstaver og symboler; klassificering er grundlaget for enhver forståelse. Evnen til at kunne klassificere skaber forudsætning for begrebsdannelse og dermed i sidste led for intelligens. Artiklen kategorisering oplyser mere om denne side af klassificering.

Automatisk klassificering anvendes i mange teknikker. F.eks. vurderer klassifikatorer produkter på et samlebånd som ”acceptable” eller ”kassable”, og computertomografiske optagelser som ”tumor” eller ”harmløs”. Ligeledes er klassificering af central betydning for kunstig intelligens.

Det grundlæggende, filosofiske modbegreb til klassificeringslogik eller subsumtionslogik findes i den dialektiske logiks metode.

Metode

Man skelner mellem top-down- og bottom-up-fremgangsmåder.

Top down

Top-down-metoden består i tre adskilte trin, når den bruges i klassificering:

Beskrivelse af klasser
Udvælgelse af kendetegn
Beslutning om klassegrænser

Det er typisk for klassificering, at man beslutter et fast antal klasser på forhånd, sådan at det kun kommer an på at bestemme deres indbyrdes grænser. Kategoridannelse er afgørende for beslutninger om antallet og typen af disse klasser.

Udvælgelsen af betydningsbærende kendetegn er væsentlig for en succesrig klassificering, da et stigende antal kendetegn fremkalder et eksponentielt stigende behov for iagttagelser. I praksis er antallet af iagttagelser dog begrænset, da pålideligheden af klassifikators vurderinger er aftagende, når forøgelsen af kendetegn passerer et vist punkt (se også mætningspunkt).

Ved enhver klassifikation er det derfor vigtigt at udpege de afgørende kendetegn. Dette når man ved følgende fremgangsmåder:

Rangorden blandt kendetegn
- ved klarlægning af korrelationer
- ved hjælp af informationsteori

Metoder til udvælgelse af kendetegn
- Filtre
- Wrapper

Hovedkomponentanalyse, PCA

I den henseende er metoderne ikke lige komplekse, men de yder tilfredsstillende resultater, når de bruges målrettet. I visse tilfælde må man gribe til at gentage udvælgelsen af kendetegn, nemlig når de første udvalg ikke viser sig egnet. Til gengæld kan mindre vigtige kendetegn godt spille en afgørende rolle for klassifikationen i bestemte sammenhænge, og derfor kan det være nødvendigt at udvælge nogle mindre væsentlige kendetegn.

Det er dog lige så afgørende at vælge en passende klassifikationsmetode og en effektiv klassifikator.

Bottom up

Denne metode bruges ofte ubevidst, sådan som det f.eks. sker under den første sprogtilegnelse med de begrebsdannelser, det indebærer. Wilhelm Kamlah formulerer det sådan:

	Det, at der overhovedet findes en verden, som vi på forhånd er fortrolige med, hvor den helt nye situation oftest opleves som et særtilfælde af det allerede velkendte, almene, det kan ikke forklares ud fra sproget, men derimod ved, at gentagelser af samme type finder sted i den virkelige verden...
Logische Propädeutik. Vorschule des vernünftigen Redens

Problemer

Følgende problemer kan optræde under en klassificering:

Uklare kriterier

Hvis man ikke opstiller tydelige betingelser for, hvornår et objekt tilhører en klasse og hvornår ikke, bliver det besværligt eller umuligt at klassere et objekt. Dette sker ret ofte i hverdagsbrugen af klassificering: Hvilke betingelser adskillet godt og ondt? Hvilke betingelser skiller rock fra jazz? Det er nødvendigt med klart formulerede og objektivt målbare kriterier, hvis man vil skaffe sig en ubetvivlelig klassificering, og for at nå en klar formulering bruger man sædvanligvis matematik.

Vage kendetegn

Det er kun muligt at indordne objekter i klasser, hvis de udpegede kendetegn faktisk muliggør en skelnen mellem klasserne. F.eks. er det ikke muligt at indordne levende væsner efter deres hårfarve, hvis de skal klassificeres som enten aber eller mennesker. Hårfarven har almindeligvis ingen evne til at afgøre et levende væsens klassetilhørsforhold.

Flydende overgange

Flydende overgange mellem klasserne modsiger ønsket om skarpe klassegrænser. F.eks. er klassegrænserne omkring klassen ”rød” i et farvespektrum vanskelige at fastlægge. Men for at muliggøre en klassificering kan man kunstigt indføre en skarp klassegrænse. I stedet kan man også anvende fuzzylogik på disse uskarpt afgrænsede mængder og opnå en skarp skelnen ved at ”defuzzyficere” objekterne. Sammenlign også med sproglig uklarhed: Fuzziness (sprog).

Udifferentierbarhed

Vanskeligheder med at differentiere møder man først og fremmest, når man betragter for få eller for ligegyldige kendetegn. Objekterne ser under den synvinkel ud til at være blandet kaotisk med hinanden, og en klar adskillelse synes umulig. Hvis man f.eks. ville skelne æbler fra appelsiner ved hjælp af farve, størrelse og vægt, så ville der findes så mange æbler og appelsiner, som lignede hinanden i forhold til disse kendetegn, at en entydig sortering ville være umulig. Selv om kendetegnene er udvalgt efter at være markante, vil der altid være en gråzone, hvor afgørelser er usikre.

Afvigere

Uforudselige målefejl eller usædvanligt specielle enkelteksemplarer kan føre til, at et objekt bliver klassificeret forkert.

Restobjekter

Ved afslutningen af en klassificering kan der være en gruppe af restobjekter, som er til overs, som ikke passer i nogen af de bestående klasser, og som man ikke uden videre kan lave en ny klasse til, fordi den ville gøre det samlede klassifikationssystem usammenhængende. Til den slags objekter må man så oprette en utilfredsstillende restkategori.

Pålidelighed i en afgørelse (confidence)

Selv når man kender alle kendetegn ved et objekt, kan det under visse omstændigheder blive klassificeret forkert. F.eks. ville man almindeligvis klassificere en hasselnød som ufarlig, selv om allergikere kan dø af den, eller den kan skydes af sted med en slynge, så den bliver til et farligt skyts. Omvendt klassificerer man ikke enhver røntgenoptagelse som tegn på sygdom eller sundhed, for efter omstændighederne tillader billedindholdet slet ikke nogen slutninger om klassetilhørsforholdet (= patienten kan altså ikke få at vide, hvordan det står til med hende). Fremtinger men en afgørelse – og det hænder ofte ved klassificeringer – så kan en afgørelse under disse betingelser være tvivlsom eller forkert.

Derfor udarbejder moderne klassifikatorer en værdi ved siden af hver afgørelse, som angiver den trufne beslutnings pålidelighed (confidence). Denne størrelse bliver i almindelighed kaldt for pålidelighedsinformation. En stor, rød tomat kan kalssificeres som ”moden” med stor pålidelighed, men en mellemstor, rød tomat med nogle grønne pletter, må klassificeres med en ringere pålidelighed. Angivelsen af pålideligheden ved en afgørelse giver fordele ved den bearbejdning, der følger efter klassificeringen. En spiselig svamp, der bliver betegnet som ”usikkert genkendt”, bliver ikke spist, mens en ”sikkert genkendt” derimod bliver det.

Under forhold, hvor en forkert klassificering ville medføre mere tungtvejende ulemper end slet ingen, kan det være meningsfuldt at indføre en ekstra klasse med betegnelsen ”ikke klassificerbar”.