Millal andmeid normaliseerida või standardida?

Millal andmeid normaliseerida või standardida?
Millal andmeid normaliseerida või standardida?
Anonim

Normaliseerimine on kasulik kui teie andmetel on erinev skaala ja teie kasutatav algoritm ei tee eeldusi teie andmete jaotuse kohta, nagu k-lähimad naabrid ja tehisnärv võrgud. Standardimine eeldab, et teie andmetel on Gaussi (kellkõvera) jaotus.

Millal peaksime andmeid normaliseerima?

Andmed tuleks normaliseerida või standardida et kõik muutujad oleksid üksteisega proportsionaalsed. Näiteks kui üks muutuja on teisest (keskmiselt) 100 korda suurem, võib teie mudel paremini käituda, kui normaliseerite/standardite need kaks muutujat ligikaudu samaväärseteks.

Mis vahe on normaliseerimisel ja standardimisel?

Normaliseerimine tähendab tavaliselt väärtuste ümberskaalamist vahemikku [0, 1]. Standardimine tähendab tavaliselt andmete ümberskaalamist, et saada keskmine 0 ja standardhälve 1 (ühiku dispersioon).

Millal ja miks on vaja andmete normaliseerimist?

Lihtsam alt öeldes tagab normaliseerimine, et kõik teie andmed näevad välja ja loetakse kõigis kirjetes ühtemoodi. Normaliseerimine standardiseerib väljad, sealhulgas ettevõtete nimed, kontaktide nimed, URL-id, aadressiteave (tänavad, osariigid ja linnad), telefoninumbrid ja ametinimetused.

Kuidas valida normaliseerimist ja standardimist?

Ärimaailmas tähendab "normaliseerimine" tavaliselt seda, et väärtuste vahemik on"normaliseeritud väärtusele 0,0 kuni 1,0". "Standardeerimine" tähendab tavaliselt seda, et väärtuste vahemik on "standardiseeritud", et mõõta, kui palju standardhälbeid väärtus on selle keskmisest.

Soovitan: