Koosinussarnasust kasutatakse üldiselt kauguse mõõtmise mõõdikuna, kui vektorite suurus ei oma tähtsust. See juhtub näiteks siis, kui töötate tekstiandmetega, mida esindab sõnade arv.
Millal peaksin kasutama koosinussarnasust?
Koosinussarnasus mõõdab sisemise korrutisruumi kahe vektori sarnasust. Seda mõõdetakse kahe vektori vahelise nurga koosinusega ja see määrab, kas kaks vektorit on suunatud ligikaudu samas suunas. Seda kasutatakse sageli dokumentide sarnasuse mõõtmiseks tekstianalüüsis.
Miks kasutada koosinussarnasust eukleidilise kauguse asemel?
Koosinussarnasus on kasulik, sest isegi kui kaks sarnast dokumenti on suuruse tõttu üksteisest eukleidilise vahemaa võrra kaugel (näiteks sõna "kriket" esines ühes dokumendis 50 korda ja teises 10 korda), võivad nad ikkagi väiksem nurk nende vahel. Mida väiksem nurk, seda suurem sarnasus.
Mis vahe on koosinussarnasuse ja eukleidilise kauguse vahel?
Selles artiklis oleme uurinud Eukleidilise kauguse ja koosinussarnasuse formaalseid määratlusi. Eukleidiline kaugus vastab vektorite erinevuse L2-normile. Koosinussarnasus on võrdeline kahe vektori punktkorrutisega ja pöördvõrdeline nende suuruste korrutisega.
Mis vahe on koosinussarnasusel ja koosinuskaugusel?
Tavaliselt kasutavad inimesed koosinussarnasust vektorite vahelise sarnasuse mõõdikuna. Nüüd saab vahemaa määratleda kui 1-cos_similarity. Selle intuitsioon seisneb selles, et kui 2 vektorit on täiesti ühesugused, siis on sarnasus 1 (nurk=0) ja seega on kaugus 0 (1-1=0).