Normaliseerimist kasutatakse üleliigsete andmete kõrvaldamiseks ja see tagab kvaliteetsete klastrite genereerimise, mis võivad parandada klastrite moodustamise algoritmide tõhusust. Seega on see oluline samm enne rühmitamist eukleidilise kaugusena. on erinevuste muutuste suhtes väga tundlik[3].
Kas peame K-keskmiste klastrite jaoks andmeid normaliseerima?
Nagu k-NN meetodi puhul, tuleb klastrite moodustamiseks kasutatavaid omadusi mõõta võrreldavates ühikutes. Sel juhul ei ole ühikud probleemiks, kuna kõik 6 tunnust on väljendatud 5-pallisel skaalal. Normaliseerimine või standardimine pole vajalik.
Kuidas andmeid enne rühmitamist ette valmistada?
Andmete ettevalmistamine
Kobaraanalüüsi läbiviimiseks R-is tuleks andmed üldiselt ette valmistada järgmiselt: read on vaatlused (üksikud) ja veerud on muutujad. Andmetes puuduvad väärtused tuleb eemaldada või hinnata. Andmed peavad olema standarditud (st skaleeritud), et muuta muutujad võrreldavaks.
Kas andmeid tuleks klastrite jaoks skaleerida?
Klastrite loomisel arvutate kahe näite sarnasuse kombineerides nende näidete kõik funktsiooniandmed arvväärtuseks. Funktsiooniandmete kombineerimine nõuab, et andmetel oleks sama skaala.
Miks on oluline funktsioone enne rühmitamist normaliseerida?
Standardeerimine on Data oluline sammeeltöötlus.
Nagu selles artiklis selgitatud, minimeerib k-keskmine veafunktsiooni Newtoni algoritmi, st gradiendipõhist optimeerimisalgoritmi kasutades. Andmete normaliseerimine parandab selliste algoritmide lähenemist.