Kuidas Excelis klastrianalüüsi teha: ulatus ja juhised. Klasteranalüüs on algoritm sarnaste tunnuste järgi rühmadesse jagatud andmete uurimiseks.

27.09.2019

, avalik haldus, filoloogia, antropoloogia, turundus, sotsioloogia, geoloogia ja muud teadusharud. Rakenduse universaalsus on aga kaasa toonud suure hulga kokkusobimatute terminite, meetodite ja lähenemisviiside esilekerkimist, mis raskendavad klasteranalüüsi ühemõttelist kasutamist ja järjepidevat tõlgendamist.

Entsüklopeediline YouTube

1 / 5

Klasteranalüüs täidab järgmisi põhiülesandeid:

Tüpoloogia või klassifikatsiooni väljatöötamine.
Objektide rühmitamiseks kasulike kontseptuaalsete skeemide uurimine.
Hüpoteeside genereerimine andmete uurimise põhjal.
Hüpoteesi testimine või uurimine, et teha kindlaks, kas ühel või teisel viisil tuvastatud tüübid (rühmad) on olemasolevates andmetes tegelikult olemas.

Olenemata uuritavast teemast hõlmab klasteranalüüsi kasutamine järgmisi samme:

Proovide võtmine rühmitamiseks. On arusaadav, et on mõttekas koondada ainult kvantitatiivseid andmeid.
Muutujate kogumi määratlus, mille järgi valimi objekte hinnatakse, see tähendab tunnusruumi.
Objektide sarnasuse (või erinevuse) ühe või teise mõõtme väärtuste arvutamine.
Klasteranalüüsi meetodi rakendamine sarnaste objektide rühmade loomiseks.
Kobarlahenduse tulemuste valideerimine.

Leiad andmete kahe põhinõude – ühtsuse ja täielikkuse – kirjelduse. Homogeensus eeldab, et kõik rühmitatud olemid oleksid ühesuguse iseloomuga, mida kirjeldavad sarnased tunnused. Kui klasteranalüüsile eelneb faktoriaalanalüüs, siis valimit ei ole vaja “parandada” – välja toodud nõuded täidab automaatselt faktori modelleerimise protseduur (on veel üks eelis - z-standardiseerimine ilma negatiivsete tagajärgedeta valimile; kui see viiakse läbi otse klasteranalüüsi jaoks, see võib viia rühmade eraldamise selguse vähenemiseni). Vastasel juhul tuleb proovi kohandada.

Klasterdamisprobleemide tüpoloogia

Sisestustüübid

Kaasaegses teaduses kasutatakse sisendandmete töötlemiseks mitmeid algoritme. Analüüsiks objektide võrdlemise teel tunnuste alusel (bioloogiateadustes levinuim) nimetatakse K- analüüsi tüüp ja tunnuste võrdlemise korral objektide põhjal - R- analüüsi tüüp. Püütakse kasutada hübriidanalüüsitüüpe (näiteks RQ analüüs), kuid seda metoodikat pole veel korralikult välja töötatud.

Klastrite loomise eesmärgid

Andmete mõistmine klastri struktuuri tuvastamise kaudu. Valimi jagamine sarnaste objektide rühmadesse võimaldab lihtsustada edasist andmetöötlust ja otsuste tegemist, rakendades igale klastrile oma analüüsimeetodit (strateegia „jaga ja valluta”).
Andmete tihendamine. Kui esialgne valim on liiga suur, saab seda vähendada, jättes igast klastrist ühe tüüpilisema esindaja.
Uudsuse tuvastamine (ing. uudsuse tuvastamine). Valitakse ebatüüpilised objektid, mida ei saa ühegi klastri külge kinnitada.

Esimesel juhul püütakse klastrite arvu väiksemaks muuta. Teisel juhul on olulisem tagada igas klastris olevate objektide suur sarnasus ja klastreid võib olla suvaline arv. Kolmandal juhul pakuvad suurimat huvi üksikud objektid, mis ei mahu ühtegi klastrisse.

Kõigil neil juhtudel saab rakendada hierarhilist klasterdamist, kui suured klastrid jagatakse väiksemateks, mis omakorda veel väiksemateks jne. Selliseid ülesandeid nimetatakse taksonoomia ülesanneteks. Taksonoomia tulemuseks on puutaoline hierarhiline struktuur. Lisaks iseloomustab iga objekti kõigi klastrite loend, kuhu see kuulub, tavaliselt suurtest kuni väikesteni.

Klasterdamismeetodid

Klasterdamismeetoditel puudub üldtunnustatud klassifikatsioon, kuid eristada saab mitmeid lähenemisviiside rühmi (mõned meetodid saab omistada mitmele rühmale korraga ja seetõttu tehakse ettepanek käsitleda seda tüpiseerimist mingi lähendusena klastri moodustamise tegelikule klassifikatsioonile meetodid):

Tõenäosuslik lähenemine. Eeldatakse, et iga vaadeldav objekt kuulub ühte k klassist. Mõned autorid (näiteks A. I. Orlov) usuvad, et see rühmitus ei kuulu üldse klasterdamisse ja on selle vastu "diskrimineerimise" nime all, see tähendab valikut määrata objektid ühte teadaolevatest rühmadest (koolitusnäidised).
Tehisintellektisüsteemidel põhinevad lähenemised: väga tinglik rühm, kuna meetodeid on palju ja metoodiliselt on need väga erinevad.
loogiline lähenemine. Dendrogrammi konstrueerimine toimub otsustuspuu abil.
Graafikteoreetiline lähenemine.
Hierarhiline lähenemine. Eeldatakse pesastatud rühmade (erineva järjestusega klastrite) olemasolu. Algoritmid jagunevad omakorda aglomeratiivseteks (ühendavateks) ja jagavateks (eraldavateks). Tunnuste arvu järgi eristatakse mõnikord monoteetilisi ja polüteetilisi klassifitseerimismeetodeid.
- Hierarhiline jaotusrühmitus ehk taksonoomia. Klastrite moodustamise probleeme käsitletakse kvantitatiivses taksonoomias.
Muud meetodid. Ei kuulu eelmistesse rühmadesse.
- Statistilised klasterdamisalgoritmid
- Klastrite ansambel
- KRAB perekonna algoritmid
- Algoritm, mis põhineb sõelumismeetodil

Lähenemisviisid 4 ja 5 on mõnikord kombineeritud struktuurse või geomeetrilise lähenemise nime all, millel on formaliseeritud läheduse mõiste. Vaatamata olulistele erinevustele loetletud meetodite vahel, tuginevad need kõik originaalile. kompaktsuse hüpotees»: objektiruumis peavad kõik lähedased objektid kuuluma samasse klastrisse ja vastavalt kõik erinevad objektid erinevatesse klastritesse.

Klasterdamisprobleemi ametlik avaldus

Las olla X (\displaystyle X)- palju objekte Y (\displaystyle Y)- klastrite numbrite (nimede, siltide) komplekt. Määratakse objektide vahelise kauguse funktsioon ρ (x , x ′) (\displaystyle \rho (x,x")). On olemas piiratud õppeobjektide komplekt X m = ( x 1 , … , x m ) ⊂ X (\displaystyle X^(m)=\(x_(1),\dots ,x_(m)\)\alamhulk X). Valim tuleb jagada mittekattuvateks alamhulkadeks, nn klastrid, nii et iga klaster koosneb meetriliselt lähedastest objektidest ρ (\displaystyle \rho ), ja erinevate klastrite objektid erinesid oluliselt. Samal ajal iga objekt x i ∈ X m (\displaystyle x_(i)\in X^(m)) klastri number määratud y i (\displaystyle y_(i)).

Klasterdamisalgoritm on funktsioon a: X → Y (\displaystyle a\koolon X\ kuni Y), mis mis tahes objektile x ∈ X (\displaystyle x\in X) vastab klastri numbrile y ∈ Y (\displaystyle y\in Y). Palju Y (\displaystyle Y) mõnel juhul on see ette teada, kuid sagedamini on ülesandeks määrata optimaalne klastrite arv, ühe või teise seisukohast kvaliteedikriteeriumid rühmitamine.

Üldiselt väärib märkimist, et ajalooliselt on see välja kujunenud nii, et sarnasuse mõõte kasutatakse bioloogias sagedamini läheduse, mitte erinevuse (kauguse) mõõtjatena.

Sotsioloogias

Sotsioloogiliste uuringute tulemuste analüüsimisel on soovitatav analüüs läbi viia hierarhilise aglomeratiivse perekonna meetoditega, nimelt Wardi meetodiga, mille puhul optimeeritakse klastrite sees minimaalne dispersioon, mille tulemusena tekivad ligikaudu võrdse suurusega klastrid. on loodud. Wardi meetod on sotsioloogiliste andmete analüüsimisel kõige edukam. Erinevuse mõõduna on ruutkeskne Eukleidiline kaugus parem, mis aitab kaasa klastrite kontrasti suurenemisele. Hierarhilise klasteranalüüsi põhitulemus on dendrogramm ehk "jääpurikadiagramm". Selle tõlgendamisel seisavad teadlased silmitsi samalaadse probleemiga nagu faktoranalüüsi tulemuste tõlgendamisel - klastrite tuvastamise üheselt mõistetavate kriteeriumide puudumine. Põhilistena on soovitatav kasutada kahte meetodit - dendrogrammi visuaalset analüüsi ja erinevate meetoditega teostatud klasterdamise tulemuste võrdlemist.

Dendrogrammi visuaalne analüüs hõlmab puu "lõikamist" proovi elementide optimaalsel sarnasuse tasemel. Viinapuu oks (Olenderfer M.S. ja Blashfield R.K. terminoloogia) tuleks ümber skaleeritud kauguse klastrikombinaadi skaalal umbes 5-le ära lõigata, et saavutada 80% sarnasus. Kui selle sildi järgi on klastreid keeruline valida (mitu väikest klastrit ühinevad üheks suureks), siis saate valida mõne muu sildi. Seda tehnikat pakkusid välja Oldenderfer ja Blashfield.

Nüüd kerkib küsimus vastuvõetud kobarlahenduse stabiilsusest. Tegelikult taandub klastri stabiilsuse kontrollimine selle töökindluse kontrollimisele. Siin kehtib rusikareegel – klasterdamismeetodite muutumisel säilib stabiilne tüpoloogia. Hierarhilise klasteranalüüsi tulemusi saab kontrollida iteratiivse k-keskmiste klasteranalüüsi abil. Kui võrreldavates vastajate rühmade klassifikatsioonides on kokkulangemiste osakaal üle 70% (üle 2/3 kokkulangevustest), siis tehakse klasterotsus.

Lahenduse adekvaatsust on võimatu kontrollida ilma teist tüüpi analüüsi kasutamata. Vähemalt teoreetiliselt pole see probleem lahendatud. Oldenderferi ja Blashfieldi klassikaline klastrianalüüs arendab ja lükkab lõpuks tagasi viis täiendavat vastupidavuse testimise meetodit:

kofeneetiline korrelatsioon – ei ole soovitatav ja kasutuses on piiratud;
olulisuse testid (variantsusanalüüs) - annavad alati olulise tulemuse;
korduvate (juhuslike) valimite tehnikat, mis aga ei tõenda otsuse paikapidavust;
välistunnuste olulisuse testid sobivad ainult korduvateks mõõtmisteks;
Monte Carlo meetodid on väga keerulised ja kättesaadavad ainult kogenud matemaatikutele [ (ing. servatuvastus) või objektituvastus.
Intelligentne andmeanalüüs (inglise keeles data mining) – klasterdamine Data Miningis muutub väärtuslikuks siis, kui see toimib andmeanalüüsi ühe etapina, luues tervikliku analüütilise lahenduse. Sageli on analüütikul lihtsam tuvastada sarnaste objektide rühmi, uurida nende omadusi ja koostada iga rühma jaoks eraldi mudel, kui luua kõigi andmete jaoks üks üldmudel. Seda tehnikat kasutatakse turunduses pidevalt, tõstes esile klientide, ostjate, kaupade gruppe ning töötades välja igaühe jaoks eraldi strateegia.

KLASTERANALÜÜS SOTSIAAL-MAJANDUSLIKU PROGNOOSIMISE PROBLEEMIDES

Sissejuhatus klasteranalüüsi.

Sotsiaalmajanduslikke nähtusi analüüsides ja prognoosides puutub uurija sageli kokku nende kirjeldamise mitmemõõtmelisusega. See juhtub turu segmenteerimise probleemi lahendamisel, riikide tüpoloogia koostamisel piisavalt suure hulga näitajate järgi, üksikute kaupade turuolukorra ennustamisel, majandussurutise uurimisel ja prognoosimisel ning paljudel muudel probleemidel.

Mitmemõõtmelise analüüsi meetodid on kõige tõhusam kvantitatiivne vahend paljude tunnustega kirjeldatavate sotsiaalmajanduslike protsesside uurimiseks. Nende hulka kuuluvad klastrianalüüs, taksonoomia, mustrituvastus ja faktoranalüüs.

Klastrianalüüs peegeldab kõige selgemalt mitmemõõtmelise analüüsi tunnuseid klassifitseerimisel, faktoranalüüsi - kommunikatsiooni uurimisel.

Mõnikord nimetatakse klastrianalüüsi lähenemist kirjanduses numbriliseks taksonoomiaks, numbriliseks klassifikatsiooniks, iseõppimise äratundmiseks jne.

Klasteranalüüs leidis oma esimese rakenduse sotsioloogias. Klastrianalüüsi nimetus tuleb ingliskeelsest sõnast cluster – kimp, akumulatsioon. Esimest korda 1939. aastal defineeris klasteranalüüsi teema ja selle kirjelduse tegi uurija Trion. Klasteranalüüsi põhieesmärk on jagada uuritavate objektide ja tunnuste hulk rühmadeks või klastriteks, mis on sobivas mõttes homogeensed. See tähendab, et lahendatakse andmete klassifitseerimise ja neis vastava struktuuri tuvastamise probleem. Klasteranalüüsi meetodeid saab rakendada erinevatel juhtudel, isegi kui tegemist on lihtsa grupeerimisega, kus kõik taandub rühmade moodustamisele kvantitatiivse sarnasuse järgi.

Klasteranalüüsi suur eelis on see, et see võimaldab objekte jaotada mitte ühe parameetri, vaid terve funktsioonide komplekti järgi. Lisaks ei sea klasteranalüüs erinevalt enamikust matemaatilistest ja statistilistest meetoditest mingeid piiranguid vaadeldavate objektide tüübile ja võimaldab meil arvestada peaaegu suvalise iseloomuga lähteandmete kogumit. See on väga oluline näiteks turu prognoosimisel, kui indikaatoritel on mitmesuguseid vorme, mis raskendavad traditsiooniliste ökonomeetriliste lähenemisviiside kasutamist.

Klasteranalüüs võimaldab arvestada piisavalt suure hulga teabega ning drastiliselt vähendada, tihendada suuri sotsiaalmajandusliku teabe massiive, muutes need kompaktseks ja visuaalseks.

Klasteranalüüsil on suur tähtsus seoses majandusarengut iseloomustavate aegridade kogumitega (näiteks üldised majandus- ja kaubatingimused). Siin on võimalik välja tuua perioodid, mil vastavate näitajate väärtused olid üsna lähedased, samuti määrata aegridade rühmad, mille dünaamika on kõige sarnasem.

Klasteranalüüsi saab kasutada tsükliliselt. Sel juhul viiakse uuring läbi kuni soovitud tulemuste saavutamiseni. Samas võib iga siinne tsükkel anda teavet, mis võib oluliselt muuta klasteranalüüsi edasise rakendamise suunda ja lähenemisviise. Seda protsessi võib kujutada tagasisidesüsteemina.

Sotsiaalmajandusliku prognoosimise probleemides on väga perspektiivikas kombineerida klasteranalüüsi teiste kvantitatiivsete meetoditega (näiteks regressioonanalüüsiga).

Nagu igal teisel meetodil, on klastrianalüüsil teatud puudused ja piirangud: Eelkõige sõltub klastrite koostis ja arv valitud partitsioonikriteeriumidest. Esialgse andmemassiivi taandamisel kompaktsemale kujule võivad tekkida teatud moonutused ja üksikute objektide üksikud omadused võivad kaotsi minna, kuna need asendatakse klastri parameetrite üldistatud väärtuste omadustega. Objektide klassifitseerimisel ignoreeritakse väga sageli võimalust, et vaadeldavas komplektis puuduvad klastri väärtused.

Klasteranalüüsis leitakse, et:

a) valitud omadused võimaldavad põhimõtteliselt soovitud rühmitamist;

b) mõõtühikud (skaala) on õigesti valitud.

Suurt rolli mängib skaala valik. Tavaliselt normaliseeritakse andmed, lahutades keskmise ja jagades standardhälbega nii, et dispersioon on võrdne ühega.

Klasteranalüüsi probleem.

Klasteranalüüsi ülesandeks on jaotada objektide hulk G m-ks (m on täisarv) klastriteks (alamhulkadeks) Q1, Q2, ..., Qm, lähtudes hulgas X sisalduvatest andmetest, nii et iga objekt Gj kuulub ühte ja ainult ühte partitsiooni alamhulka ning et samasse klastrisse kuuluvad objektid on sarnased, samas kui erinevatesse klastritesse kuuluvad objektid on heterogeensed.

Näiteks olgu G hõlmatud n riiki, millest igaüht iseloomustab RKT elaniku kohta (F1), autode arv M 1000 inimese kohta (F2), elektritarbimine elaniku kohta (F3), terase tarbimine elaniku kohta (F4), jne. Siis X1 (mõõtevektor) on kindlaksmääratud karakteristikute kogum esimese riigi jaoks, X2 teise riigi jaoks, X3 kolmanda riigi jaoks ja nii edasi. Väljakutseks on riikide jaotamine arengutasemete järgi.

Klasteranalüüsi probleemi lahenduseks on vaheseinad, mis vastavad teatud optimaalsuse kriteeriumile. See kriteerium võib olla mõni funktsionaal, mis väljendab erinevate partitsioonide ja rühmituste soovitavuse taset, mida nimetatakse sihtfunktsiooniks. Näiteks võib sihtfunktsiooniks võtta rühmasisest hälvete ruudu summat:

kus xj - tähistab j-nda objekti mõõtmeid.

Klasteranalüüsi probleemi lahendamiseks on vaja defineerida sarnasuse ja heterogeensuse mõiste.

On selge, et i-s ja j-s objekt langeksid samasse klastrisse siis, kui punktide Xi ja Xj vaheline kaugus (kaugus) oleks piisavalt väike ja satuksid erinevatesse klastritesse, kui see vahemaa oleks piisavalt suur. Seega määrab ühte või erinevatesse objektide klastritesse sattumise kontseptsioon Xi ja Xj vahelisest kaugusest Ep-st, kus Ep on p-mõõtmeline eukleidiline ruum. Mittenegatiivset funktsiooni d(Xi, Xj) nimetatakse kaugusfunktsiooniks (meetria), kui:

a) d(Xi , Xj) ³ 0, kõigi Xi ja Xj jaoks alates Ep

b) d(Xi, Xj) = 0 siis ja ainult siis, kui Xi = Xj

c) d(Xi, Xj) = d(Xj, Xi)

d) d(Xi, Xj) £ d(Xi, Xk) + d(Xk, Xj), kus Xj; Xi ja Xk on suvalised kolm vektorit Ep-st.

Xi ja Xj väärtust d(Xi, Xj) nimetatakse kauguseks Xi ja Xj vahel ning see on samaväärne Gi ja Gj vahelise kaugusega vastavalt valitud karakteristikutele (F1, F2, F3, ..., Fp).

Kõige sagedamini kasutatavad kaugusfunktsioonid on:

1. Eukleidiline kaugus d2(Хi , Хj) =

2. l1 - norm d1(Хi , Хj) =

3. Supremum - norm d¥ (Хi , Хj) = sup

k = 1, 2, ..., p

4. lp - norm dр(Хi , Хj) =

Eukleidiline mõõdik on kõige populaarsem. l1 mõõdikut on kõige lihtsam arvutada. Ülemnormi on lihtne arvutada ja see sisaldab järjestamisprotseduuri, lp-norm aga katab kaugusfunktsioonid 1, 2, 3,.

Olgu n mõõtmist X1, X2,..., Xn esitatud p ´n andmemaatriksina:

Siis saab vektorpaaride vahelise kauguse d(Хi , Хj) esitada sümmeetrilise kaugusmaatriksina:

Kauguse vastand mõiste on Gi-objektide sarnasuse mõiste. ja Gj. Mittenegatiivset reaalfunktsiooni S(Хi ; Хj) = Sij nimetatakse sarnasuse mõõduks, kui:

1) 0 £ S(Xi , Xj)<1 для Хi¹ Хj

2) S(Хi , Хi) = 1

3) S(Xi, Xj) = S(Xj, Xi)

Sarnasuse mõõteväärtuste paare saab kombineerida sarnasusmaatriksiks:

Sij väärtust nimetatakse sarnasuskoefitsiendiks.

1.3. Klasteranalüüsi meetodid.

Tänapäeval on klasteranalüüsi meetodeid palju. Peatume neist mõnel (allpool toodud meetodeid nimetatakse tavaliselt minimaalse dispersiooni meetoditeks).

Olgu X vaatlusmaatriks: X = (X1, X2,..., Xu) ja Xi ja Xj vahelise eukleidilise kauguse ruut määratakse valemiga:

1) Täielike ühenduste meetod.

Selle meetodi olemus seisneb selles, et kahe samasse rühma (klastrisse) kuuluva objekti sarnasuskoefitsient on väiksem kui mõni läviväärtus S. Eukleidilise kauguse d mõistes tähendab see, et kaugus kahe punkti (objekti) vahel klaster ei tohiks ületada mõnda läviväärtust h. Seega määrab h klastri moodustava alamhulga suurima lubatud läbimõõdu.

2) Maksimaalse kohaliku kauguse meetod.

Iga objekti loetakse ühepunktiliseks klastriks. Objektid rühmitatakse järgmise reegli järgi: kaks klastrit kombineeritakse, kui ühe klastri punktide maksimaalne kaugus teise klastri punktidest on minimaalne. Protseduur koosneb n - 1 sammust ja tulemuseks on sektsioonid, mis vastavad kõigi eelmise meetodi võimalikele sektsioonidele mis tahes läviväärtuste jaoks.

3) Sõnameetod.

Selle meetodi puhul kasutatakse sihtfunktsioonina rühmasisest hälvete ruutsummat, mis ei ole midagi muud kui iga punkti (objekti) vahelise ruudu kauguste ja seda objekti sisaldava klastri keskmise summa. Igal etapil ühendatakse kaks klastrit, mis viivad sihtfunktsiooni minimaalse suurenemiseni, s.o. rühmasisene ruutude summa. See meetod on suunatud tihedalt asetsevate klastrite ühendamisele.

Tervitused!

Lõputöös viisin läbi andmete rühmitamise algoritmide ülevaate ja võrdleva analüüsi. Arvasin, et juba kogutud ja läbitöötatud materjal võib olla kellelegi huvitav ja kasulik.
Mida klasterdamine endast kujutab, rääkis Sashaeve artiklis "Clustering: k-means and c-means algoritmid". Kordan osaliselt Aleksandri sõnu, osaliselt täiendan. Ka käesoleva artikli lõpus saavad huvilised lugeda bibliograafia linkidel olevaid materjale.

Püüdsin ka kuiva "diplomi" esituslaadi ajakirjanduslikumaks tuua.

Klasterdamise mõiste

Klasterdamine (või klastrianalüüs) on ülesanne jaotada objektide komplekt rühmadesse, mida nimetatakse klastriteks. Igas rühmas peaksid olema "sarnased" objektid ja erinevate rühmade objektid peaksid olema võimalikult erinevad. Klasterdamise ja klassifitseerimise peamine erinevus seisneb selles, et rühmade loend pole selgelt määratletud ja see määratakse algoritmi käigus.

Klasteranalüüsi rakendamine üldiselt taandub järgmistele etappidele:

Objektide näidise valimine rühmitamiseks.
Muutujate kogumi määratlus, mille alusel valimi objekte hinnatakse. Vajadusel normaliseerige muutujate väärtused.
Objektide sarnasuse mõõteväärtuste arvutamine.
Klasteranalüüsi meetodi rakendamine sarnaste objektide (klastrite) rühmade loomiseks.
Analüüsitulemuste esitlemine.

Pärast tulemuste saamist ja analüüsimist on võimalik valitud mõõdikut ja klasterdamismeetodit korrigeerida kuni optimaalse tulemuse saamiseni.

Kaugusmõõdud

Niisiis, kuidas teha kindlaks objektide "sarnasus"? Kõigepealt peate iga objekti jaoks koostama tunnuste vektori - reeglina on see arvväärtuste kogum, näiteks inimese pikkus-kaal. Siiski on ka algoritme, mis töötavad kvalitatiivsete (nn kategooriliste) tunnustega.

Kui oleme tunnusvektori määranud, saame selle normaliseerida nii, et kõik komponendid panustavad "kauguse" arvutamisel samamoodi. Normaliseerimisprotsessi ajal vähendatakse kõiki väärtusi teatud vahemikku, näiteks [-1, -1] või .

Lõpuks mõõdetakse iga objektipaari puhul nendevaheline "kaugus" – sarnasuse aste. Mõõdikuid on palju, siin on vaid peamised:

Mõõdikute valik on täielikult uurija enda teha, kuna erinevate mõõdikute kasutamisel võivad klasterdamise tulemused oluliselt erineda.

Algoritmide klassifikatsioon

Enda jaoks olen tuvastanud kaks peamist klasterdamisalgoritmide klassifikatsiooni.

Hierarhiline ja tasane.
Hierarhilised algoritmid (nimetatakse ka taksonoomia algoritmideks) ei ehita valimi ühte partitsiooni mitteühendatud klastriteks, vaid pesastatud partitsioonide süsteemi. See. väljundis saame kobarapuu, mille juur on kogu valim ja lehed on kõige väiksemad kobarad.
Lamedad algoritmid loovad ühe objektide partitsiooni klastriteks.
Selge ja hägune.
Selged (või mittekattuvad) algoritmid määravad igale näidisobjektile klastri numbri, st. iga objekt kuulub ainult ühte klastrisse. Hägusad (või ristuvad) algoritmid määravad igale objektile reaalsete väärtuste komplekti, mis näitavad objekti ja klastri suhte astet. Need. iga objekt kuulub teatud tõenäosusega igasse klastrisse.

Klastrite ühendamine

Hierarhiliste algoritmide kasutamise puhul tekib küsimus, kuidas klastreid omavahel kombineerida, kuidas arvutada nendevahelisi “kaugusi”. Mõõdikuid on mitu:

Üks link (lähimad naabrid)
Selle meetodi puhul määratakse kahe klastri vaheline kaugus erinevates klastrites kahe lähima objekti (lähimate naabrite) vahelise kaugusega. Saadud klastrid kipuvad kokku ahelduma.
Täielik link (kaugimate naabrite kaugus)
Selle meetodi puhul määratakse klastrite vahelised kaugused erinevates klastrites (st kõige kaugemate naabrite) mis tahes kahe objekti vahelise suurima vahemaa järgi. See meetod töötab tavaliselt väga hästi, kui objektid on pärit eraldi rühmadest. Kui klastrid on piklikud või nende loomulik tüüp on "kett", siis see meetod ei sobi.
Kaalumata paaride keskmine
Selle meetodi puhul arvutatakse kahe erineva klastri vaheline kaugus kõigi neis olevate objektide paaride keskmise kaugusena. Meetod on tõhus, kui objektid moodustavad erinevaid rühmi, kuid see toimib sama hästi ka laiendatud ("ahel" tüüpi) klastrite puhul.
Kaalutud paaripõhine keskmine
Meetod on identne kaalumata paaripõhise keskmise meetodiga, välja arvatud see, et arvutustes kasutatakse kaalutegurina vastavate klastrite suurust (st neis sisalduvate objektide arvu). Seetõttu tuleks seda meetodit kasutada, kui eeldatakse ebavõrdse suurusega klastriid.
Kaalumata tsentroidi meetod
Selle meetodi puhul määratletakse kahe klastri vaheline kaugus nende raskuskeskmete vahelise kaugusena.
Kaalutud tsentroidi meetod (mediaan)
See meetod on identne eelmisega, välja arvatud see, et arvutustes kasutatakse klastri suuruste erinevuste arvessevõtmiseks kaalu. Seega, kui klastri suurustes on või kahtlustatakse olulisi erinevusi, on see meetod eelmisest eelistatum.

Algoritmide ülevaade

Hierarhilised klasterdamisalgoritmid

Hierarhilisi rühmitamisalgoritme on kahte peamist tüüpi: kasvavad ja kahanevad algoritmid. Ülalt-alla algoritmid töötavad ülalt-alla põhimõttel: alguses paigutatakse kõik objektid ühte klastrisse, mis seejärel jagatakse järjest väiksemateks klastriteks. Levinumad on alt-üles-algoritmid, mis paigutavad iga funktsiooni algselt eraldi klastris ja liidavad seejärel klastrid suuremateks ja suuremateks klastriteks, kuni kõik valimitud funktsioonid sisalduvad samas klastris. Seega konstrueeritakse pesastatud partitsioonide süsteem. Selliste algoritmide tulemused esitatakse tavaliselt puu - dendrogrammi - kujul. Sellise puu klassikaline näide on loomade ja taimede klassifikatsioon.

Klastritevaheliste kauguste arvutamiseks kasutavad kõik kõige sagedamini kahte kaugust: üksikühendust või täisühendust (vt klastrite vahekauguse mõõtmiste ülevaadet).

Hierarhiliste algoritmide puuduseks on terviklike partitsioonide süsteem, mis võib olla lahendatava probleemi kontekstis üleliigne.

Ruuttõrke algoritmid

Klasterdamisprobleemi võib käsitleda kui objektide optimaalse rühmadesse jaotamise konstrueerimist. Sel juhul saab optimaalsust määratleda kui nõuet minimeerida ruutkeskmise jaotuse viga:

Kus cj- klastri "massikeskus". j(punkt antud klastri tunnuste keskmiste väärtustega).

Ruutvea algoritmid on lamedate algoritmide tüüpi. Kõige tavalisem algoritm selles kategoorias on k-keskmiste meetod. See algoritm loob teatud arvu klastreid, mis asuvad üksteisest võimalikult kaugel. Algoritmi töö on jagatud mitmeks etapiks:

Vali juhuslikult k punktid, mis on klastrite esialgsed "massikeskused".
Määrake iga objekt lähima massikeskmega klastrisse.
Arvutage klastrite "massikeskmed" ümber vastavalt nende praegusele koostisele.
Kui algoritmi peatamise kriteerium ei ole täidetud, minge tagasi sammu 2 juurde.

Algoritmi töö peatamise kriteeriumiks valitakse tavaliselt keskmise ruutvea minimaalne muutus. Algoritmi on võimalik peatada ka juhul, kui 2. etapis ei olnud objekte, mis liiguksid klastrist klastrisse.

Selle algoritmi puuduste hulka kuulub vajadus määrata tükeldamiseks klastrite arv.

Hägusad algoritmid

Kõige populaarsem fuzzy klasterdamisalgoritm on c-means algoritm. See on k-keskmise meetodi modifikatsioon. Algoritmi sammud:

See algoritm ei pruugi sobida, kui klastrite arv ei ole ette teada või kui on vaja iga objekt üheselt ühele klastrile omistada.

Graafiteoorial põhinevad algoritmid

Selliste algoritmide olemus seisneb selles, et objektide valik esitatakse graafikuna G=(V, E), mille tipud vastavad objektidele ja mille servade kaal on võrdne objektide vahelise "kaugusega". Graafikklasterdamise algoritmide eeliseks on nähtavus, teostuse suhteline lihtsus ja võimalus teha erinevaid täiustusi geomeetrilistest kaalutlustest lähtuvalt. Peamised algoritmid on ühendatud komponentide eraldamise algoritm, minimaalse ulatuva (ulatuva) puu koostamise algoritm ja kihilise klastrite moodustamise algoritm.

Algoritm ühendatud komponentide eraldamiseks

Ühendatud komponentide eraldamise algoritmis määratakse sisendparameeter R ja graafikus kõik servad, mille "kaugused" on suuremad kui R. Seotuks jäävad vaid lähimad objektide paarid. Algoritmi eesmärk on leida selline väärtus R, mis jääb kõigi "kauguste" vahemikku, mille juures graafik "lahkub" mitmeks ühendatud komponendiks. Saadud komponendid on klastrid.

Parameetri valimiseks R tavaliselt koostatakse paarikaupa kauguste jaotuste histogramm. Täpselt määratletud klastriandmete struktuuriga ülesannete puhul on histogrammil kaks tippu – üks vastab klastrisisesele kaugusele, teine – klastritevahelistele kaugustele. Parameeter R on valitud nende piikide vahelisest miinimumtsoonist. Samas on kaugusläve abil üsna keeruline klastrite arvu kontrollida.

Minimaalne ulatuva puu algoritm

Minimaalse ulatuva puu algoritm koostab esmalt graafikule minimaalse ulatuva puu ja seejärel eemaldab järjestikku suurima kaaluga servad. Joonisel on näidatud üheksa tunnuse jaoks saadud minimaalne ulatuv puu.

Eemaldades 6 ühiku pikkuse CD lingi (maksimaalse vahemaaga serv), saame kaks klastrit: (A, B, C) ja (D, E, F, G, H, I). Teise klastri saab jagada veel kaheks klastriks, eemaldades serva EF, mille pikkus on 4,5 ühikut.

Kihiline klasterdamine

Kiht-kihilt klasterdamise algoritm põhineb ühendatud graafi komponentide valikul objektide (tippude) teatud kauguste tasemel. Kauguse tase määratakse kauguse läve järgi c. Näiteks kui objektide vaheline kaugus

, siis.

Kihiline klasterdamisalgoritm genereerib graafi alamgraafikute jada G, mis peegeldavad klastrite vahelisi hierarhilisi suhteid:

Kus G t = (V, E t)- taseme graafik koos t,
,
koos t– t-nda vahemaa lävi,
m on hierarhia tasandite arv,
G 0 = (V, o), o on tühi graafi servade hulk, mis on saadud t0 = 1,
G m = G, see tähendab objektide graafik ilma kauguse (graafiku servade pikkuse) piiranguteta, kuna tm = 1.

Vahemaa lävede muutmisega ( 0 , …, m-ga), kus 0 = alates 0 < alates 1 < …< koos m= 1, on võimalik kontrollida saadud klastrite hierarhia sügavust. Seega on kihtide kaupa klasterdamise algoritm võimeline looma nii tasase andmepartitsiooni kui ka hierarhilise partitsiooni.

Algoritmide võrdlus

Algoritmide arvutuslik keerukus

Algoritmide võrdlev tabel

Klasterdamisalgoritm	Klastrite vorm	Sisendandmed	tulemused
Hierarhiline	Tasuta	Klastrite arv või kauguse lävi hierarhia kärpimiseks	Klastrite kahendpuu
k-tähendab	hüpersfäär	Klastrite arv	Klastrite keskused
c-tähendab	hüpersfäär	Klastrite arv, hägususaste	Klastrite keskused, liikmemaatriks
Ühendatud komponentide valimine	Tasuta	Kauguse lävi R
Minimaalne laiuv puu	Tasuta	Klastrite arv või kauguse lävi servade eemaldamiseks	Klastrite puustruktuur
Kihiline klasterdamine	Tasuta	Kauguslävede järjestus	Erinevate hierarhiatasemetega klastrite puustruktuur

Natuke rakendusest

Oma töös oli mul vaja valida hierarhilistest struktuuridest (puudest) eraldi alad. Need. sisuliselt oli vaja algpuu lõigata mitmeks väiksemaks puuks. Kuna suunatud puu on graafi erijuht, siis loomulikult sobivad graafiteoorial põhinevad algoritmid.

Erinevalt täielikult ühendatud graafist ei ole suunatud puu kõik tipud ühendatud servadega ja servade koguarv on n–1, kus n on tippude arv. Need. puu sõlmede suhtes lihtsustatakse ühendatud komponentide eraldamise algoritmi tööd, kuna suvalise arvu servade eemaldamine "tükeldab" puu ühendatud komponentideks (eraldi puudeks). Minimaalne ulatuva puu algoritm langeb sel juhul kokku ühendatud komponentide eraldamise algoritmiga – pikimate servade eemaldamisel jagatakse algne puu mitmeks puuks. Sel juhul on ilmselge, et kõige minimaalsema ulatuva puu ehitamise faas jäetakse vahele.

Teiste algoritmide kasutamise korral peaksid nad eraldi arvestama objektidevaheliste seoste olemasolu, mis muudab algoritmi keerulisemaks.

Eraldi tahan öelda, et parima tulemuse saavutamiseks on vaja katsetada kaugusmõõtude valikut ja mõnikord isegi algoritmi muuta. Ühest lahendust pole.

Teame, et Maa on üks 8 planeedist, mis tiirlevad ümber Päikese. Päike on vaid täht Linnutee galaktika umbes 200 miljardi tähe hulgas. Sellest numbrist on väga raske aru saada. Seda teades võib teha oletuse tähtede arvu kohta universumis – ligikaudu 4X10^22. Me võime taevas näha umbes miljonit tähte, kuigi see on vaid väike osa tähtede tegelikust arvust. Seega on meil kaks küsimust:

Mis on galaktika?
Ja mis seos on galaktikate ja artikli teema (parveanalüüs) vahel

Galaktika on tähtede, gaasi, tolmu, planeetide ja tähtedevaheliste pilvede kogum. Tavaliselt meenutavad galaktikad spiraalset või edeptilist kuju. Kosmoses on galaktikad üksteisest eraldatud. Suured mustad augud on enamasti enamiku galaktikate keskpunktid.

Nagu me järgmises osas arutame, on galaktikate ja parveanalüüsi vahel palju sarnasusi. Galaktikad eksisteerivad kolmemõõtmelises ruumis, klasteranalüüs on mitmemõõtmeline analüüs, mida tehakse n-mõõtmelises ruumis.

Märkus: Must auk on galaktika kese. Kasutame sarnast ideed tsentroidide jaoks klastri analüüsiks.

klastri analüüs

Oletame, et olete telekommunikatsiooniettevõtte turundus- ja kliendisuhete juht. Saate aru, et kõik kliendid on erinevad ja erinevate klientideni jõudmiseks on vaja erinevaid strateegiaid. Te hindate sellise tööriista, nagu klientide segmenteerimine, võimsust kulude optimeerimisel. Klasteranalüüsi alaste teadmiste täiendamiseks vaadake järgmist näidet, mis illustreerib 8 klienti ja nende keskmist vestluse kestust (kohalik ja rahvusvaheline). Allpool on andmed:

Parema tajumise huvides koostame graafiku, kus x-teljel on rahvusvaheliste kõnede keskmine kestus ja y-teljel kohalike kõnede keskmine kestus. Allpool on diagramm:

Märkus: See sarnaneb tähtede asukoha analüüsimisega öötaevas (siinkohal asenduvad tähed tarbijatega). Lisaks on meil 3D-ruumi asemel x- ja y-telgedena 2D-ruum, mis on määratletud kohalike ja rahvusvaheliste kõnede kestusega.
Rääkides nüüd galaktikate mõistest, on probleem sõnastatud järgmiselt – leida mustade aukude asukoht; klasteranalüüsis nimetatakse neid tsentroidideks. Tsenroidide tuvastamiseks võtame alustuseks tsentroidide asukohaks suvalised punktid.

Eukleidese kaugus klastrite tsentroidide leidmiseks

Meie puhul asetame juhuslikult kaks tsentroidi (C1 ja C2) koordinaatidega (1, 1) ja (3, 4) punktidesse. Miks me valisime need kaks tsentroidi? Punktide visuaalne kuvamine graafikul näitab, et analüüsime kahte klastrit. Hiljem näeme aga, et vastus sellele küsimusele ei ole suure andmehulga puhul nii lihtne.
Järgmisena mõõdame kahe punkti vahelise kauguse leidmiseks Eukleidese valemi abil tsentroidide (C1 ja C2) ja kõigi graafiku punktide vahelist kaugust.

Märkus: kaugust saab arvutada ka teiste valemitega, näiteks

eukleidilise kauguse ruut - anda kaalu üksteisest kaugemal asuvatele objektidele
Manhattani kaugus – heitgaaside mõju vähendamiseks
võimsuskaugus – mõju suurendamiseks/vähendamiseks konkreetsetele koordinaatidele
lahkarvamuse protsent - kategoorilistele andmetele
ja jne.

Veerg 3 ja 4 (kaugus C1-st ja C2-st) on selle valemi abil arvutatud kaugus. Näiteks esimesele kasutajale

Tsenroididesse kuulumine (viimane veerg) arvutatakse tsentroidide (C1 ja C2) läheduse printsiibi järgi. Esimene tarbija on tsentroidile nr 1 lähemal (1,41 võrreldes 2,24-ga), seega kuulub ta tsentroidiga C1 klastrisse.

Allpool on graafik, mis illustreerib tsentroidid C1 ja C2 (kujutatud sinise ja oranži teemandina). Tarbijad on näidatud vastava tsentroidi värviga, millele nad olid määratud.

Kuna oleme tsentroidid suvaliselt valinud, on teiseks sammuks muuta see valik iteratiivseks. Keskmiste uus asukoht valitakse vastava klastri punktide keskmiseks. Nii näiteks esimese tsentroidi jaoks (need on tarbijad 1, 2 ja 3). Seetõttu on tsentroidi C1 uus x-koordinaat nende tarbijate x-koordinaatide keskmine (2+1+1)/3 = 1,33. Saame uued koordinaadid C1 (1.33, 2.33) ja C2 (4.4, 4.2) jaoks. Uus graafik on all:

Lõpuks asetame tsentroidid vastava klastri keskele. Allolev diagramm:

Meie mustade aukude (klastri tsentrite) asukohad meie näites on C1 (1,75, 2,25) ja C2 (4,75, 4,75). Kaks ülaltoodud parve on nagu kaks teineteisest kosmoses eraldatud galaktikat.

Niisiis, vaatame näiteid lähemalt. Olgem silmitsi ülesandega segmenteerida tarbijad kahe parameetri järgi: vanus ja sissetulek. Oletame, et meil on kaks tarbijat vanuses 37 ja 44 aastat, kelle sissetulek on vastavalt 90 000 ja 62 000 dollarit. Kui tahame mõõta punktide (37, 90000) ja (44, 62000) vahelist eukleidilist kaugust, siis näeme, et sellisel juhul “domineerib” sissetulekumuutuja vanusemuutuja üle ja selle muutus mõjutab kaugust tugevalt. Vajame selle probleemi lahendamiseks mingit strateegiat, vastasel juhul annab meie analüüs vale tulemuse. Selle probleemi lahendus on viia meie väärtused võrreldavatele skaaladele. Normaliseerimine on meie probleemi lahendus.

Andmete normaliseerimine

Andmete normaliseerimiseks on palju lähenemisviise. Näiteks miinimum-maksimaalne normaliseerimine. Selle normaliseerimise jaoks kasutatakse järgmist valemit

sel juhul on X* normaliseeritud väärtus, min ja max on minimaalsed ja maksimaalsed koordinaadid kogu hulga X ulatuses
(Pange tähele, see valem asetab kõik koordinaadid segmendile)
Mõelge meie näitele, olgu maksimaalne sissetulek 130 000 dollarit ja minimaalne 45 000 dollarit. Tarbija A sissetuleku normaliseeritud väärtus on

Teeme seda harjutust iga muutuja (koordinaadi) kõigi punktide jaoks. Teise tarbija (62000) sissetulek muutub pärast normaliseerimisprotseduuri 0,2-ks. Lisaks olgu alam- ja maksimumvanus vastavalt 23 ja 58. Pärast normaliseerimist on meie kahe tarbija vanuseks 0,4 ja 0,6.

On lihtne näha, et nüüd on kõik meie andmed vahemikus 0 kuni 1. Seetõttu on meil nüüd võrreldavatel skaaladel normaliseeritud andmekogumid.

Pidage meeles, et enne klastrianalüüsi protseduuri on vaja läbi viia normaliseerimine.

Klasteranalüüs on

Head päeva. Siin austan inimesi, kes on oma töö fännid.

Maxim, mu sõber, kuulub sellesse kategooriasse. Töötab pidevalt joonistega, analüüsib neid, teeb asjakohaseid aruandeid.

Eile sõime koos lõunat, nii et pea pool tundi rääkis ta mulle klasteranalüüsist - mis see on ja millistel juhtudel on selle rakendamine mõistlik ja otstarbekas. Aga mina?

Mul on hea mälu, nii et annan teile muide kõik need andmed, millest ma juba teadsin algsel ja kõige informatiivsemal kujul.

Klasteranalüüs on mõeldud objektide komplekti jagamiseks homogeenseteks rühmadeks (klastriteks või klassideks). See on mitme muutujaga andmete klassifitseerimise ülesanne.

Erinevaid klasterdamisalgoritme on umbes 100, kuid kõige sagedamini kasutatavad on hierarhiline klastrianalüüs ja k-keskmiste klasterdamine.

Kus rakendatakse klasteranalüüsi? Turunduses on see konkurentide ja tarbijate segmenteerimine.

Juhtimises: personali jagamine erineva motivatsioonitasemega rühmadesse, tarnijate klassifitseerimine, sarnaste tootmissituatsioonide tuvastamine, milles abiellub.

Meditsiinis sümptomite klassifikatsioon, patsiendid, ravimid. Sotsioloogias vastajate jagunemine homogeenseteks rühmadeks. Tegelikult on klastrianalüüs end hästi tõestanud kõigis inimelu valdkondades.

Selle meetodi ilu seisneb selles, et see toimib ka siis, kui andmeid on vähe ning juhuslike suuruste jaotuste normaalsuse ja muude statistilise analüüsi klassikaliste meetodite nõuded ei ole täidetud.

Selgitagem klasteranalüüsi olemust ilma ranget terminoloogiat kasutamata:
Oletame, et viisite läbi töötajate küsitluse ja soovite välja selgitada, kuidas saate oma töötajaid kõige tõhusamalt juhtida.

See tähendab, et soovite jagada töötajad rühmadesse ja valida igaühe jaoks kõige tõhusamad juhthoovad. Samas peaksid rühmadevahelised erinevused olema ilmsed ning grupisiseselt vastajad võimalikult sarnased.

Probleemi lahendamiseks tehakse ettepanek kasutada hierarhilist klasteranalüüsi.

Selle tulemusena saame puu, mida vaadates peame otsustama, mitmesse klassi (klastrisse) tahame töötajaid jagada.

Oletame, et otsustame jagada töötajad kolme rühma, seejärel igasse klastrisse sattunud vastajate uurimiseks saame järgmise sisuga tahvelarvuti:

Selgitame, kuidas ülaltoodud tabel moodustatakse. Esimene veerg sisaldab klastri numbrit — rühma, mille andmed real kajastuvad.

Näiteks esimeses kobaras on 80% meessoost. 90% esimesest klastrist langeb vanuserühma 30–50 aastat ja 12% vastanutest usub, et hüvitised on väga olulised. Jne.

Proovime teha iga klastri vastajatest portreesid:

Esimesse rühma kuuluvad peamiselt küpses eas mehed, kes on juhtivatel kohtadel. Sotsiaalpakett (MED, LGOTI, AJAvaba aeg) neid ei huvita. Nad eelistavad saada head palka, mitte aidata tööandjalt.
Rühm kaks, vastupidi, eelistab sotsiaalpaketti. See koosneb peamiselt "eakatest" inimestest, kes on madalatel ametikohtadel. Palk on nende jaoks kindlasti oluline, kuid prioriteete on teisigi.
Kolmas rühm on "noorim". Erinevalt kahest eelmisest on ilmne huvi õppimise ja ametialase kasvu võimaluste vastu. Sellel töötajate kategoorial on hea võimalus peagi esimest rühma täiendada.

Seega on tõhusate personalijuhtimise meetodite juurutamise kampaaniat kavandades ilmne, et meie olukorras on võimalik teise grupi sotsiaalpaketti tõsta näiteks töötasude kahjuks.

Kui rääkida sellest, millised spetsialistid tuleks koolitusele saata, siis võib kindlasti soovitada tähelepanu pöörata ka kolmandale rühmale.

Allikas: http://www.nickart.spb.ru/analysis/cluster.php

Klasteranalüüsi tunnused

Klaster on vara hind teatud ajavahemikul, mille jooksul tehinguid tehti. Saadud ostu-müügi mahtu tähistab klastri sees number.

Iga TF-i riba sisaldab reeglina mitut klastrit. See võimaldab teil üksikasjalikult näha ostu-, müügimahtusid ja nende saldot igal üksikul ribal, iga hinnataseme kohta.

Ühe vara hinna muutus toob paratamatult kaasa ka teiste instrumentide hinnaliikumise ahela.

Tähelepanu!

Enamasti tekib trendiliikumise mõistmine juba sel hetkel, kui see kiiresti areneb ning trendi mööda turule sisenemine on tulvil paranduslainele langemist.

Edukaks tehinguks on vaja mõista hetkeolukorda ja osata ette näha tulevasi hinnaliikumisi. Seda saab õppida kobargraafikut analüüsides.

Klasteranalüüsi abil on näha turuosaliste aktiivsus ka kõige väiksema hinnariba sees. See on kõige täpsem ja detailsem analüüs, kuna näitab tehingumahtude punktjaotust iga vara hinnataseme kohta.

Turul käib pidev vastasseis müüjate ja ostjate huvide vahel. Ja iga väiksemgi hinnaliikumine (linnuke) on kompromissi – hinnatase – käik, mis sobib hetkel mõlemale poolele.

Kuid turg on dünaamiline, müüjate ja ostjate arv muutub pidevalt. Kui mingil ajahetkel domineerisid turul müüjad, siis järgmisel hetkel on tõenäoliselt ostjaid.

Ka naaberhinnatasemetel tehtud tehingute arv ei ole sama. Ja siiski, esiteks kajastub turuolukord tehingute kogumahus ja alles seejärel hinnas.

Kui näete domineerivate turuosaliste (müüjate või ostjate) tegevust, saate ennustada hinnaliikumist ennast.

Klasteranalüüsi edukaks rakendamiseks peate esmalt aru saama, mis on klaster ja delta.

Klastrit nimetatakse hinnaliikumiseks, mis jaguneb tasemeteks, millel tehti teadaolevate mahtudega tehinguid. Delta näitab erinevust igas klastris toimuva ostu ja müügi vahel.

Iga klaster või deltade rühm võimaldab teil välja selgitada, kas ostjad või müüjad domineerivad teatud ajahetkel turul.

Piisab vaid summaarse delta arvutamisest, summeerides müügid ja ostud. Kui delta on negatiivne, siis on turg üle müüdud, on üleliigseid müügitehinguid. Kui delta on positiivne, domineerivad turul selgelt ostjad.

Delta ise võib omandada normaalse või kriitilise väärtuse. Klastris olev normaalväärtusest suurem delta ruumala väärtus on punasega esile tõstetud.

Kui delta on mõõdukas, iseloomustab see turul tasast olekut. Tavalise delta väärtuse korral täheldatakse turul trendi liikumist, kuid kriitiline väärtus on alati hinna pöördumise eelkuulutaja.

Forexi kauplemine CA-ga

Maksimaalse kasumi saamiseks peate suutma määrata delta ülemineku mõõdukalt tasemelt normaalsele tasemele. Tõepoolest, sel juhul võite märgata korterist trendiliikumisele ülemineku algust ja saada kõige rohkem kasumit.

Kobardiagramm on visuaalsem, sellel näete mahtude kogunemise ja jaotumise märkimisväärset taset, tugi- ja takistustasemeid. See võimaldab kauplejal leida tehingu täpse kirje.

Delta abil saab hinnata müügi või ostude ülekaalu turul. Klasteranalüüs võimaldab teil jälgida tehinguid ja jälgida nende mahtu mis tahes TF-i riba sees.

See on eriti oluline, kui lähenete olulisele toetuse või vastupanu tasemele. Klastrite hinnangud on turu mõistmise võti.

Allikas: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Klasteranalüüsi rakendusvaldkonnad ja tunnused

Mõiste klastrianalüüs (esmakordselt kasutusele Tryon, 1939) sisaldab tegelikult mitmeid erinevaid klassifitseerimisalgoritme.

Paljude valdkondade teadlaste sage küsimus on, kuidas korraldada vaadeldavaid andmeid visuaalseteks struktuurideks, s.t. laiendada taksonoomiat.

Bioloogias aktsepteeritud kaasaegse süsteemi järgi kuulub inimene primaatide, imetajate, amnioni, selgroogsete ja loomade hulka.

Pange tähele, et selles klassifikatsioonis, mida kõrgem on liitmise tase, seda väiksem on vastava klassi liikmete sarnasus.

Inimesel on rohkem sarnasusi teiste primaatidega (st ahvidega) kui imetajate perekonna "kaugemate" liikmetega (st koertega) jne.

Pange tähele, et eelnev arutelu viitab rühmitamisalgoritmidele, kuid ei maini midagi statistilise olulisuse testimise kohta.

Tegelikult pole klastrianalüüs mitte niivõrd tavaline statistiline meetod, kuivõrd erinevate algoritmide komplekt "objektide klastritesse jaotamiseks".

On seisukoht, et erinevalt paljudest teistest statistilistest protseduuridest kasutatakse klasteranalüüsi meetodeid enamikul juhtudel, kui teil pole klasside kohta a priori hüpoteese, kuid olete alles uuringu kirjeldavas etapis.

Tähelepanu!

Tuleb mõista, et klastrianalüüs määrab "kõige mõttekama otsuse".

Seetõttu ei ole statistilise olulisuse testimine siin tegelikult rakendatav isegi juhtudel, kui p-tasemed on teada (nagu näiteks K-keskmiste meetodi puhul).

Klasterdamistehnikat kasutatakse väga erinevates valdkondades. Hartigan (1975) on andnud suurepärase ülevaate paljudest avaldatud uuringutest, mis sisaldavad klasteranalüüsi meetoditega saadud tulemusi.

Näiteks meditsiini valdkonnas viib haiguste rühmitamine, haiguste ravi või haigussümptomid laialdaselt kasutatavate taksonoomiateni.

Psühhiaatria valdkonnas on eduka ravi jaoks ülioluline sümptomite rühmituste, nagu paranoia, skisofreenia jne, õige diagnoosimine. Arheoloogias püüavad teadlased kobaranalüüsi abil paika panna kivitööriistade, matuseesemete jms taksonoomiaid.

Turundusuuringutes on klastrianalüüsil laialdasi rakendusi. Üldiselt, kui on vaja info "mägesid" edasiseks töötlemiseks sobivatesse rühmadesse liigitada, osutub klasteranalüüs väga kasulikuks ja tõhusaks.

Puude rühmitamine

Näide jaotises Primary Purpose selgitab liitumisalgoritmi (puu rühmitamise) eesmärki.

Selle algoritmi eesmärk on ühendada objektid (näiteks loomad) piisavalt suurteks klastriteks, kasutades objektide vahelist sarnasust või kaugust. Sellise rühmituse tüüpiline tulemus on hierarhiline puu.

Mõelge horisontaalsele puu diagrammile. Diagramm algab iga klassi objektiga (skeemi vasakus servas).

Kujutage nüüd ette, et järk-järgult (väga väikeste sammudega) "nõrgendate" oma kriteeriumi selle kohta, millised objektid on ainulaadsed ja millised mitte.

Teisisõnu alandate läve, mis on seotud otsusega ühendada kaks või enam objekti üheks klastriks.

Selle tulemusena seod sa järjest rohkem objekte kokku ja koondad (kombineerid) järjest rohkemate erinevate elementide klastreid.

Viimases etapis liidetakse kõik objektid kokku. Nendes diagrammides tähistavad horisontaalteljed ühendamise kaugust (vertikaalsetes dendrogrammides tähistavad vertikaalteljed ühendamise kaugust).

Seega näete graafiku iga sõlme (kus moodustub uus klaster) kohta vahemaa suurust, mille jaoks vastavad elemendid on lingitud uude üksikusse klastrisse.

Kui andmetel on selge "struktuur" üksteisega sarnaste objektide klastrite osas, siis tõenäoliselt peegeldub see struktuur hierarhilises puus erinevate harude kaupa.

Eduka liitumismeetodiga analüüsi tulemusena on võimalik tuvastada klastreid (harusid) ja neid tõlgendada.

Ühenduse või puu klastrite meetodit kasutatakse objektide vahelise erinevuse või kauguse klastrite moodustamiseks. Neid vahemaid saab määratleda ühe- või mitmemõõtmelises ruumis.

Näiteks kui peate kohvikus toiduliigid rühmitama, võite võtta arvesse selles sisalduvate kalorite arvu, hinda, subjektiivset hinnangut maitsele jne.

Kõige otsesem viis mitmemõõtmelises ruumis olevate objektide vaheliste kauguste arvutamiseks on arvutada eukleidilised kaugused.

Kui teil on 2D või 3D ruum, siis see mõõt on tegelik geomeetriline kaugus ruumis olevate objektide vahel (nagu oleks objektide vahelised kaugused mõõdetud mõõdulindiga).

Ühistamise algoritm ei "hoole" aga sellest, kas selleks "ette nähtud" kaugused on reaalsed või mõni muu tuletatud kaugusmõõt, mis on uurijale tähenduslikum; ja teadlaste väljakutse on valida konkreetsete rakenduste jaoks õige meetod.

Eukleidiline kaugus. See näib olevat kõige levinum vahemaatüüp. See on lihtsalt geomeetriline kaugus mitmemõõtmelises ruumis ja arvutatakse järgmiselt:

Pange tähele, et Eukleidiline kaugus (ja selle ruut) arvutatakse algandmete, mitte standardsete andmete põhjal.

See on tavaline selle arvutamise viis, millel on teatud eelised (näiteks kahe objekti vaheline kaugus ei muutu, kui analüüsi tuuakse uus objekt, mis võib osutuda kõrvalekaldeks).

Tähelepanu!

Vahemaid võivad aga oluliselt mõjutada erinevused telgede vahel, mille järgi kaugusi arvutatakse. Näiteks kui ühte telge mõõdetakse sentimeetrites ja seejärel teisendate selle millimeetriteks (korrutades väärtused 10-ga), siis koordinaatide põhjal arvutatud lõplik eukleidiline kaugus (või Eukleidilise kauguse ruut) järsult muutuda ning selle tulemusena võivad klasteranalüüsi tulemused eelmistest oluliselt erineda.

Eukleidilise kauguse ruut. Mõnikord võite soovida standardset eukleidilist kaugust ruudustada, et anda kaugematele objektidele rohkem kaalu.

See vahemaa arvutatakse järgmiselt:

Linnaploki kaugus (Manhattani kaugus). See kaugus on lihtsalt koordinaatide erinevuste keskmine.

Enamasti annab see kaugusmõõtmine samad tulemused kui tavalise Eukleidese vahemaa puhul.

Kuid pange tähele, et selle mõõdiku puhul väheneb üksikute suurte erinevuste (kõrvalväärtuste) mõju (kuna need ei ole ruudus). Manhattani vahemaa arvutatakse järgmise valemi abil:

Tšebõševi kaugus. See kaugus võib olla kasulik, kui soovitakse määratleda kaks objekti "erinevana", kui need erinevad mõne koordinaadi (ükskõik millise mõõtme) poolest. Tšebõševi kaugus arvutatakse järgmise valemi abil:

Võimsuskaugus. Mõnikord soovitakse järk-järgult suurendada või vähendada kaalu, mis on seotud mõõtmega, mille vastavad objektid on väga erinevad.

Seda saab saavutada võimuseaduse kauguse abil. Võimsuskaugus arvutatakse järgmise valemi abil:

kus r ja p on kasutaja määratud parameetrid. Mõned näited arvutustest võivad näidata, kuidas see meede "töötab".

Parameeter p vastutab üksikute koordinaatide erinevuste järkjärgulise kaalumise eest, parameeter r vastutab objektide vaheliste suurte vahemaade järkjärgulise kaalumise eest. Kui mõlemad parameetrid - r ja p on võrdsed kahega, siis see kaugus langeb kokku Eukleidilise kaugusega.

Lahkarvamuste protsent. Seda mõõdet kasutatakse siis, kui andmed on kategoorilised. See vahemaa arvutatakse järgmise valemiga:

Ühingu või assotsiatsiooni reeglid

Esimesel etapil, kui iga objekt on eraldi klaster, määratakse nende objektide vahelised kaugused valitud mõõdiku järgi.

Kui aga mitu objekti on omavahel seotud, tekib küsimus, kuidas määrata klastrite vahelisi kaugusi?

Teisisõnu vajate kahe klastri jaoks liitumis- või linkimisreeglit. Siin on erinevaid võimalusi: näiteks saate kaks klastrit omavahel linkida, kui mis tahes kaks objekti kahes klastris on üksteisele lähemal kui vastav lingi kaugus.

Teisisõnu kasutate klastrite vahelise kauguse määramiseks "lähima naabri reeglit"; seda meetodit nimetatakse ühe lingi meetodiks.

See reegel ehitab "kiulisi" klastreid, st. klastrid "seovad omavahel" ainult üksikud elemendid, mis on üksteisele lähemal kui teised.

Teise võimalusena võite kasutada naabreid klastrites, mis on kõigist teistest funktsioonipaaridest üksteisest kõige kaugemal. Seda meetodit nimetatakse täislingi meetodiks.

Klastritega liitumiseks on ka palju muid meetodeid, mis on sarnased käsitletutega.

Üksikühendus (lähima naabri meetod). Nagu ülalpool kirjeldatud, määrab selle meetodi puhul kahe klastri vahelise kauguse erinevates klastrites kahe lähima objekti (lähima naabri) vaheline kaugus.

See reegel peab teatud mõttes stringima objekte, et moodustada klastreid, ja saadud klastreid kipuvad esindama pikad "stringid".

Täisühendus (kõige kaugemate naabrite meetod). Selle meetodi puhul määratletakse klastrite vahelised kaugused kui suurim kaugus erinevates klastrites (st "kõige kaugemate naabrite") mis tahes kahe objekti vahel.

Kaalumata paaride keskmine. Selle meetodi puhul arvutatakse kahe erineva klastri vaheline kaugus kõigi neis olevate objektide paaride keskmise kaugusena.

Meetod on tõhus, kui objektid moodustavad tegelikult erinevaid "salusid", kuid see toimib sama hästi ka laiendatud ("ahel" tüüpi) klastrite korral.

Pange tähele, et oma raamatus Sneath ja Sokal (1973) tutvustavad lühendit UPGMA, et viidata sellele meetodile kui kaalumata paarirühma meetodile, mis kasutab aritmeetilisi keskmisi.

Kaalutud paaripõhine keskmine. Meetod on identne kaalumata paaripõhise keskmise meetodiga, välja arvatud see, et arvutustes kasutatakse kaalutegurina vastavate klastrite suurust (st neis sisalduvate objektide arvu).

Seetõttu tuleks kasutada pakutud meetodit (eelmise asemel), kui eeldatakse klastri ebavõrdseid suurusi.

Sneath ja Sokal (1973) võtavad kasutusele lühendi WPGMA, viidates sellele meetodile kui kaalutud paarirühma meetodile, kasutades aritmeetilisi keskmisi.

Kaalumata tsentroidi meetod. Selle meetodi puhul määratletakse kahe klastri vaheline kaugus nende raskuskeskmete vahelise kaugusena.

Tähelepanu!

Sneath ja Sokal (1973) kasutavad akronüümi UPGMC, et viidata sellele meetodile kui kaalumata paarirühma meetodile, kasutades tsentroidi keskmist.

Kaalutud tsentroidi meetod (mediaan). See meetod on identne eelmisega, välja arvatud see, et arvutustes kasutatakse kaalusid, et võtta arvesse klastri suuruste erinevust (st nendes olevate objektide arvu).

Seega, kui klastri suurustes on (või kahtlustatakse) olulisi erinevusi, on see meetod eelmisest eelistatum.

Sneath ja Sokal (1973) kasutasid lühendit WPGMC, et nimetada seda kaalutud paarirühma meetodiks, kasutades tsentroidi keskmist.

Ward meetod. See meetod erineb kõigist teistest meetoditest, kuna see kasutab klastrite vaheliste kauguste hindamiseks ANOVA meetodeid.

Meetod minimeerib ruutude summa (SS) mis tahes kahe (hüpoteetilise) klastri jaoks, mida saab igal etapil moodustada.

Üksikasjad leiate Wardist (1963). Üldiselt tundub meetod olevat väga tõhus, kuid see kipub looma väikeseid klastreid.

Varem arutati seda meetodit "objektide" mõistes, mis tuleks rühmitada. Kõikide muude analüüsiliikide puhul väljendatakse uurijat huvitavat küsimust tavaliselt vaatluste või muutujatena.

Selgub, et klasterdamine nii vaatluste kui ka muutujate järgi võib anda päris huvitavaid tulemusi.

Näiteks kujutage ette, et meditsiiniteadlane kogub andmeid südamehaigustega patsientide seisundite (vaatluste) erinevate tunnuste (muutujate) kohta.

Uurija võib soovida (patsientide) vaatlusi koondada, et tuvastada sarnaste sümptomitega patsientide rühmad.

Samal ajal võib teadlane soovida muutujaid rühmitada, et tuvastada muutujate klastrid, mis on seotud sarnase füüsilise olekuga.e

Pärast seda arutelu selle üle, kas rühmitada vaatlusi või muutujaid, võib küsida, miks mitte rühmitada mõlemas suunas?

Klastrianalüüsi moodul sisaldab tõhusat kahesuunalist liitumisprotseduuri just selle tegemiseks.

Kahepoolset ühendamist kasutatakse aga (suhteliselt harva) olukordades, kus eeldatakse, et nii vaatlused kui ka muutujad aitavad samaaegselt kaasa tähenduslike klastrite avastamisele.

Seega, naastes eelmise näite juurde, võime eeldada, et meditsiiniteadlane peab tuvastama patsientide rühmad, mis on sarnased teatud füüsilise seisundi tunnuste klastrite suhtes.

Saadud tulemuste tõlgendamise raskus tuleneb asjaolust, et erinevate klastrite vahelised sarnasused võivad tuleneda (või olla selle põhjuseks) muutujate alamhulkade erinevusest.

Seetõttu on saadud klastrid oma olemuselt heterogeensed. Võib-olla tundub see alguses pisut udune; Tõepoolest, võrreldes teiste kirjeldatud klasteranalüüsi meetoditega, on kahesuunaline ühendamine tõenäoliselt kõige vähem kasutatav meetod.

Mõned teadlased aga usuvad, et see pakub võimsat tööriista uurimuslikuks andmeanalüüsiks (lisateabe saamiseks vt selle meetodi Hartigani kirjeldust (Hartigan, 1975)).

K tähendab meetodit

See rühmitusmeetod erineb oluliselt aglomeratiivsetest meetoditest, nagu liit (puurühmitus) ja kahesuunaline liit. Oletame, et teil on juba hüpoteesid klastrite arvu kohta (vaatluse või muutuja järgi).

Saate anda süsteemile käsu moodustada täpselt kolm klastrit, et need oleksid võimalikult erinevad.

See on täpselt seda tüüpi probleem, mille K-Meansi algoritm lahendab. Üldiselt ehitab K-keskmise meetod täpselt K erinevat klastrit, mis on üksteisest võimalikult kaugel.

Füüsilise seisundi näite puhul võib meditsiiniteadlasel olla oma kliinilise kogemuse põhjal "aimus", et nende patsiendid jagunevad üldiselt kolme erinevasse kategooriasse.

Tähelepanu!

Kui jah, siis iga klastri füüsikaliste parameetrite erinevate mõõtmiste vahendid annaksid kvantitatiivse viisi uurija hüpoteeside esitamiseks (nt klastri 1 patsientidel on kõrge parameeter 1, madalam parameeter 2 jne).

Arvutuslikust vaatenurgast võib seda meetodit pidada "tagurpidi" dispersioonanalüüsiks. Programm alustab K juhuslikult valitud klastriga ja muudab seejärel objektide kuuluvust neisse, et:

minimeerida varieeruvust klastrite sees,
maksimeerida varieeruvust klastrite vahel.

See meetod on sarnane dispersioonanalüüsiga (ANOVA) selle poolest, et ANOVA olulisuse testis võrreldakse rühmadevahelist ja rühmasisest varieeruvust, testides hüpoteesi, et rühmade keskmised on üksteisest erinevad.

K-keskmiste klastrite puhul liigutab programm objekte (st vaatlusi) ühest rühmast (klastrist) teise, et saada dispersioonanalüüsi (ANOVA) tegemisel kõige olulisem tulemus.

Tavaliselt, kui K-keskmiste klastrite analüüsi tulemused on saadud, saab arvutada iga klastri keskmised iga dimensiooni jaoks, et hinnata, kuidas klastrid erinevad üksteisest.

Ideaalis peaksite saama enamiku, kui mitte kõigi analüüsis kasutatud mõõtmiste jaoks väga erinevaid vahendeid.

Allikas: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

Objektide klassifitseerimine nende omaduste järgi

Klasteranalüüs (klasteranalüüs) - mitmemõõtmeliste statistiliste meetodite kogum objektide klassifitseerimiseks nende omaduste järgi, objektide kogumi jagamiseks kriteeriumide määratlemise poolest lähedasteks homogeenseteks rühmadeks, teatud rühma objektide valimiseks.

Klaster on objektide rühm, mis tuvastatakse klastrianalüüsi tulemusel, mis põhineb objektide sarnasuse või erinevuse antud mõõtmisel.

Objektiks on konkreetsed õppeained, mida tuleb klassifitseerida. Klassifikatsiooni objektid on reeglina vaatlused. Näiteks toodete tarbijad, riigid või piirkonnad, tooted jne.

Kuigi muutujate kaupa on võimalik teha klasteranalüüsi. Objektide klassifitseerimine mitmemõõtmelises klasteranalüüsis toimub mitme kriteeriumi järgi korraga.

Need võivad olenevalt klasteranalüüsi meetodist olla nii kvantitatiivsed kui ka kategoorilised muutujad. Seega on klasteranalüüsi põhieesmärk leida proovist sarnaste objektide rühmad.

Klasteranalüüsi mitmemõõtmeliste statistiliste meetodite kogumi võib jagada hierarhilisteks (aglomeratiivne ja jagunev) ja mittehierarhilisteks (k-keskmiste meetod, kaheetapiline klasteranalüüs).

Siiski puudub üldiselt aktsepteeritud meetodite klassifikatsioon ja mõnikord hõlmavad klasteranalüüsi meetodid ka meetodeid otsustuspuude, närvivõrkude, diskriminantanalüüsi ja logistilise regressiooni koostamiseks.

Klasteranalüüsi ulatus on selle mitmekülgsuse tõttu väga lai. Klasteranalüüsi kasutatakse majanduses, turunduses, arheoloogias, meditsiinis, psühholoogias, keemias, bioloogias, avalikus halduses, filoloogias, antropoloogias, sotsioloogias ja muudes valdkondades.

Siin on mõned näited klastrianalüüsi rakendamisest.

meditsiin - haiguste klassifikatsioon, nende sümptomid, ravimeetodid, patsiendirühmade klassifikatsioon;
turundus - ettevõtte tootesarja optimeerimise ülesanded, turu segmenteerimine kaubagruppide või tarbijate kaupa, potentsiaalse tarbija tuvastamine;
sotsioloogia - vastajate jagunemine homogeenseteks rühmadeks;
psühhiaatria – sümptomiterühmade õige diagnoosimine on eduka ravi jaoks ülioluline;
bioloogia - organismide liigitamine rühmadesse;
majandus - Vene Föderatsiooni subjektide klassifikatsioon investeeringute atraktiivsuse järgi.

Allikas: http://www.statmethods.ru/konsalting/statistics-methody/121-klasternyj-analyz.html

Üldteave klastrianalüüsi kohta

Klasteranalüüs sisaldab erinevaid klassifitseerimisalgoritme. Paljude valdkondade teadlaste küsitav küsimus on, kuidas korraldada vaadeldavaid andmeid visuaalseteks struktuurideks.

Näiteks bioloogide eesmärk on jagada loomi erinevateks liikideks, et nendevahelisi erinevusi sisukalt kirjeldada.

Klasteranalüüsi ülesanne on jagada esialgne objektide komplekt sarnaste, lähedaste objektide rühmadeks. Neid rühmi nimetatakse klastriteks.

Teisisõnu, klasteranalüüs on üks viise objektide liigitamiseks nende tunnuste järgi. On soovitav, et klassifikatsiooni tulemustel oleks sisukas tõlgendus.

Klasteranalüüsi meetoditega saadud tulemusi kasutatakse erinevates valdkondades. Turunduses on see konkurentide ja tarbijate segmenteerimine.

Psühhiaatrias on eduka ravi jaoks ülioluline selliste sümptomite nagu paranoia, skisofreenia jne õige diagnoosimine.

Juhtimises on oluline tarnijate klassifitseerimine, sarnaste tootmissituatsioonide tuvastamine, kus abiellutakse. Sotsioloogias vastajate jagunemine homogeenseteks rühmadeks. Portfelliinvesteeringute puhul on oluline grupeerida väärtpaberid vastavalt nende sarnasusele tootlustrendis, et aktsiaturu kohta saadud info põhjal koostada optimaalne investeerimisportfell, mis võimaldab maksimeerida investeeringute tootlust antud riskiastme juures. .

Üldjuhul osutub klasteranalüüs väga kasulikuks ja tõhusaks alati, kui on vaja klassifitseerida suur hulk sedalaadi teavet ja esitada see edasiseks töötlemiseks sobival kujul.

Klasteranalüüs võimaldab arvestada üsna suure teabehulgaga ja tihendada suuri sotsiaal-majandusliku teabe massiive, muutes need kompaktseks ja visuaalseks.

Tähelepanu!

Klasteranalüüsil on suur tähtsus seoses majandusarengut iseloomustavate aegridade kogumitega (näiteks üldised majandus- ja kaubatingimused).

Siin on võimalik välja tuua perioodid, mil vastavate näitajate väärtused olid üsna lähedased, samuti määrata aegridade rühmad, mille dünaamika on kõige sarnasem.

Sotsiaalmajandusliku prognoosimise probleemides on väga perspektiivikas kombineerida klasteranalüüsi teiste kvantitatiivsete meetoditega (näiteks regressioonanalüüsiga).

Eelised ja miinused

Klasteranalüüs võimaldab objektiivselt klassifitseerida objekte, mida iseloomustavad mitmed tunnused. Sellest saab saada mitmeid eeliseid:

Saadud klastreid saab tõlgendada, st kirjeldada, millised rühmad tegelikult eksisteerivad.
Üksikuid klastreid saab praakida. See on kasulik juhtudel, kui andmekogumis tehti teatud vigu, mille tagajärjel on üksikute objektide indikaatorite väärtused järsult erinevad. Klasteranalüüsi rakendamisel jagunevad sellised objektid eraldi klastrisse.
Edasiseks analüüsiks saab valida ainult need klastrid, millel on huvipakkuvad omadused.

Nagu igal teisel meetodil, on klastrianalüüsil teatud puudused ja piirangud. Eelkõige sõltub klastrite koosseis ja arv valitud partitsioonikriteeriumidest.

Esialgse andmemassiivi taandamisel kompaktsemale kujule võivad tekkida teatud moonutused ja üksikute objektide üksikud omadused võivad kaotsi minna, kuna need asendatakse klastri parameetrite üldistatud väärtuste omadustega.

meetodid

Praegu on teada rohkem kui sada erinevat klasterdamisalgoritmi. Nende mitmekesisust ei seleta mitte ainult erinevad arvutusmeetodid, vaid ka erinevad klastrite aluseks olevad kontseptsioonid.

Statistica pakett rakendab järgmisi klasterdamismeetodeid.

Hierarhilised algoritmid – puude klasterdamine. Hierarhilised algoritmid põhinevad järjestikuse rühmitamise ideel. Esialgsel etapil käsitletakse iga objekti eraldi klastrina. Järgmises etapis ühendatakse mõned üksteisele kõige lähemal olevad klastrid eraldi klastriks.
K-tähendab meetod. Seda meetodit kasutatakse kõige sagedamini. See kuulub klasteranalüüsi nn referentsmeetodite rühma. Klastrite arvu K määrab kasutaja.
Kahesuunaline assotsiatsioon. Selle meetodi kasutamisel toimub klasterdamine samaaegselt nii muutujate (veerud) kui ka vaatlustulemuste (read) järgi.

Kahesuunaline ühendamise protseduur viiakse läbi siis, kui võib eeldada, et muutujate ja vaatluste samaaegne rühmitamine annab sisukaid tulemusi.

Protseduuri tulemused on kirjeldav statistika muutujate ja juhtumite kohta, samuti kahemõõtmeline värvitabel, millele andmeväärtused on värviliselt kodeeritud.

Värvi jaotuse abil saate aimu homogeensetest rühmadest.

Muutujate normaliseerimine

Esialgse objektide komplekti jagamine klastriteks on seotud objektide vahekauguste arvutamise ja objektide valikuga, mille vaheline kaugus on kõigist võimalikest väikseim.

Kõige sagedamini kasutatav on meile kõigile tuttav Eukleidiline (geomeetriline) kaugus. See mõõdik vastab intuitiivsetele ideedele objektide läheduse kohta ruumis (justkui mõõdetaks objektidevahelisi kaugusi mõõdulindiga).

Kuid antud mõõdiku puhul võivad skaalade (mõõtühikute) muutused tugevalt mõjutada objektide vahelist kaugust. Näiteks kui üht tunnust mõõdetakse millimeetrites ja seejärel teisendatakse selle väärtus sentimeetriteks, muutub objektide vaheline eukleidiline kaugus dramaatiliselt. See toob kaasa asjaolu, et klasteranalüüsi tulemused võivad eelmistest oluliselt erineda.

Kui muutujaid mõõdetakse erinevates mõõtühikutes, siis on vajalik nende eelnormaliseerimine ehk algandmete teisendamine, mis teisendab need dimensioonideta suurusteks.

Normaliseerimine moonutab tugevalt algse ruumi geomeetriat, mis võib muuta klastrite moodustamise tulemusi

Statistica paketis normaliseeritakse iga muutuja x järgmise valemi järgi:

Selleks tee muutuja nimel paremklõps ja vali avanevas menüüs käskude jada: Fill/ Standardize Block/ Standardize Columns. Normaliseeritud muutuja väärtused muutuvad võrdseks nulliga ja dispersioonid võrdseks ühega.

K-keskmise meetod Statisticas

K-keskmiste meetod jagab objektide komplekti etteantud arvuks K erinevatest klastritest, mis asuvad üksteisest suurimal võimalikul kaugusel.

Tavaliselt, kui K-keskmiste klastrite analüüsi tulemused on saadud, saab arvutada iga klastri iga dimensiooni keskmised, et hinnata, kuidas klastrid üksteisest erinevad.

Ideaalis peaksite saama enamiku analüüsis kasutatavate mõõtmiste jaoks väga erinevad vahendid.

Iga dimensiooni jaoks saadud F-statistika väärtused on veel üks näitaja selle kohta, kui hästi vastav dimensioon klastreid eristab.

Vaatleme näiteks ettevõtte 17 töötaja seas läbiviidud uuringu tulemusi karjäärikvaliteedi näitajatega rahulolu kohta. Tabelis on küsimustiku küsimuste vastused kümnepallisel skaalal (1 on minimaalne punktisumma, 10 on maksimaalne).

Muutujate nimed vastavad vastustele järgmistele küsimustele:

SLT - isiklike eesmärkide ja organisatsiooni eesmärkide kombinatsioon;
OSO – õiglustunne palkade osas;
TBD - maja territoriaalne lähedus;
PEW – majandusliku heaolu tunne;
CR - karjäärikasv;
ZhSR - soov töökohta vahetada;
OSB on sotsiaalse heaolu tunne.

Neid andmeid kasutades on vaja töötajad gruppidesse jagada ning igaühe jaoks valida kõige tõhusamad juhthoovad.

Samas peaksid rühmadevahelised erinevused olema ilmsed ning grupisiseselt vastajad võimalikult sarnased.

Praeguseks on enamik sotsioloogilisi uuringuid andnud vaid protsendi häältest: arvesse võetakse positiivsete vastuste põhiarvu või rahulolematute protsenti, kuid seda küsimust süstemaatiliselt ei käsitleta.

Kõige sagedamini ei näita uuring olukorra trende. Mõnel juhul tuleb arvestada mitte inimeste arvu, kes on "poolt" või "vastu", vaid kaugust või sarnasuse mõõtu, see tähendab, et määrata inimeste rühmad, kes arvavad sama.

Klasteranalüüsi protseduure saab kasutada küsitlusandmete põhjal mõne reaalselt olemasolevate tunnuste seoste tuvastamiseks ja nende põhjal nende tüpoloogia genereerimiseks.

Tähelepanu!

Sotsioloogi a priori hüpoteeside olemasolu klasteranalüüsi protseduuridega töötamisel ei ole vajalik tingimus.

Statistica programmis tehakse klasteranalüüs järgmiselt.

Klastrite arvu valimisel juhinduge järgmisest: võimalusel ei tohiks klastrite arv olla liiga suur.

Vahemaa, mille kaugusel antud klastri objektid ühendati, peaks võimaluse korral olema palju väiksem kui vahemaa, mille kaugusel miski muu selle klastriga liitub.

Klastrite arvu valikul on enamasti mitu õiget lahendust korraga.

Meid huvitab näiteks see, kuidas ankeedi küsimustele antud vastused korreleeruvad tavatöötajate ja ettevõtte juhtimisega. Seetõttu valime K=2. Edasiseks segmenteerimiseks saate suurendada klastrite arvu.

valida vaatlusi maksimaalse vahemaaga klastri keskuste vahel;
sorteerida vahemaid ja valida vaatlusi kindlate ajavahemike järel (vaikesäte);
võtke esimesed vaatluskeskused ja kinnitage neile ülejäänud objektid.

Variant 1 sobib meie eesmärkidega.

Paljud rühmitusalgoritmid "sunnivad" sageli andmetele mitteoleneva struktuuri ja segavad teadlast. Seetõttu on äärmiselt vajalik rakendada mitmeid klasteranalüüsi algoritme ja teha järeldusi algoritmide tulemuste üldhinnangu põhjal.

Analüüsi tulemusi saab vaadata ilmuvas dialoogiboksis:

Kui valite vahekaardi Keskmiste graafik, joonistatakse klastri tsentrite koordinaatide graafik:

Selle graafiku iga katkendjoon vastab ühele klastritest. Graafiku horisontaaltelje iga jaotus vastab ühele analüüsis sisalduvatest muutujatest.

Vertikaaltelg vastab igasse klastrisse kuuluvate objektide muutujate keskmistele väärtustele.

Võib märkida, et kahe inimgrupi suhtumises teenistuskarjääri on peaaegu kõigis küsimustes olulisi erinevusi. Vaid ühes küsimuses valitseb täielik üksmeel - sotsiaalse heaolu (OSB) mõttes, õigemini selle puudumises (2,5 punkti 10-st).

Võib eeldada, et klaster 1 esindab töötajaid ja klaster 2 esindab juhtkonda. Juhid on rohkem rahul karjääri arendamise (CR), isiklike eesmärkide ja organisatsiooni eesmärkide (SOL) kombinatsiooniga.

Neil on kõrgem majandusliku heaolu tunne (SEW) ja palga õigsuse tunne (SWA).

Nad on vähem mures kodu läheduse pärast kui töötajad, tõenäoliselt vähemate transpordiprobleemide tõttu. Samuti on juhtidel väiksem soov töökohta vahetada (JSR).

Hoolimata asjaolust, et töötajad jagunevad kahte kategooriasse, annavad nad enamikule küsimustele suhteliselt ühesugused vastused. Teisisõnu, kui miski ei sobi üldisele töötajate rühmale, ei sobi see ka kõrgemale juhtkonnale ja vastupidi.

Graafikute ühtlustamine võimaldab järeldada, et ühe grupi heaolu peegeldub teise grupi heaolus.

1. klaster ei ole rahul maja territoriaalse lähedusega. See grupp on põhiosa töötajatest, kes tulevad ettevõttesse peamiselt erinevatest linnaosadest.

Seetõttu on võimalik pakkuda tippjuhtkonnale suunata osa kasumist ettevõtte töötajate eluaseme ehitamiseks.

Olulisi erinevusi on näha kahe inimrühma suhtumises teenistuskarjääri. Need töötajad, kes on rahul karjäärikasvuga, kellel on suur isiklike eesmärkide ja organisatsiooni eesmärkide kokkulangevus, ei soovi töökohta vahetada ja tunnevad rahulolu oma töö tulemustega.

Seevastu töötajad, kes soovivad töökohta vahetada ja ei ole oma töö tulemustega rahul, ei ole ülaltoodud näitajatega rahul. Kõrgem juhtkond peaks hetkeolukorrale erilist tähelepanu pöörama.

Dispersioonanalüüsi tulemused iga atribuudi kohta kuvatakse, vajutades nuppu Dispersioonanalüüs.

Kuvatakse objektide klastri keskpunktidest kõrvalekallete ruutude summad (SS-i sees) ja klastri keskuste vaheliste kõrvalekallete ruutude summad (SS Between), F-statistika väärtuste ja p olulisuse tasemete summad.

Tähelepanu!

Meie näite puhul on kahe muutuja olulisuse tasemed üsna suured, mis on seletatav vaatluste väikese arvuga. Uuringu täisversioonis, mis on leitav tööst, lükatakse 0,01-st väiksemate olulisuse tasemete juures hüpoteesid klastri keskuste keskmiste võrdsuse kohta ümber.

Nupp Salvesta klassifikatsioonid ja kaugused kuvab igas klastris olevate objektide arvu ja objektide kaugused iga klastri keskpunktist.

Tabelis on näidatud juhtumite numbrid (CASE_NO), millest koosnevad klastrid koos CLUSTERi numbritega, ja kaugused iga klastri keskpunktist (DISTANCE).

Informatsiooni klastritesse kuuluvate objektide kohta saab kirjutada faili ja kasutada edasises analüüsis. Antud näites ankeetidega saadud tulemuste võrdlus näitas, et klaster 1 koosneb peamiselt tavatöötajatest ja klaster 2 - juhtidest.

Seega on näha, et küsitluse tulemuste töötlemisel osutus klasteranalüüs võimsaks meetodiks, mis võimaldab teha järeldusi, milleni ei saa teha keskmistest histogrammi koostades või arvutades erinevate näitajatega rahulolevate protsenti. tööelu kvaliteet.

Puude klasterdamine on näide hierarhilisest algoritmist, mille põhimõte on rühmitada järjestikku esmalt lähimad ja seejärel üksteisest üha kaugemad elemendid.

Enamik neist algoritmidest lähtub sarnasuse (kauguste) maatriksist ja iga üksikut elementi käsitletakse alguses eraldi klastrina.

Pärast klastri analüüsi mooduli laadimist ja valiku Liitumine (puu rühmitamine) valimist saate klastri parameetrite sisestamise aknas muuta järgmisi parameetreid:

Algandmed (sisend). Need võivad olla uuritud andmete maatriksi (Raw data) ja kauguste maatriksi kujul (Distance matrix).
Klasterdamise (Cluster) vaatlused (Cases (raw)) või muutujad (Variable (columns)), kirjeldavad objekti olekut.
Kaugusmõõdud. Siin saate valida järgmised mõõdud: Eukleidilised kaugused, Eukleidilise ruudu kaugused, Linnaploki (Manhattani) kaugus, Tšebõtševi kauguse mõõdik, Võimsus ...), lahkarvamuste protsent (lahkarvamuse protsent).
Klasterdamismeetod (ühendamise (linkage) reegel). Siin on võimalikud järgmised valikud: Single Linkage (Single Linkage), Täielik sidumine (Kaugimate naabrite meetod) (Täielik sidumine), Kaalumata paarirühma keskmine, Kaalutud paarirühma keskmine ), Kaalumata paarirühma tsentroid, Kaalutud paar -rühma tsentroid (mediaan), Wardi meetod.

Klasterdamise tulemusena ehitatakse üles horisontaalne või vertikaalne dendrogramm - graafik, millel määratakse objektide ja klastrite vahelised kaugused nende järjestikusel kombineerimisel.

Graafiku puustruktuur võimaldab defineerida klastreid sõltuvalt valitud lävest – antud klastritevahelisest kaugusest.

Lisaks kuvatakse algsete objektide vahemaade maatriks (Distance matrix); iga lähteobjekti keskmine ja standardhälve (Distiptive statistika).

Vaadeldava näite puhul viime läbi vaikeseadetega muutujate klasteranalüüsi. Saadud dendrogramm on näidatud joonisel.

Dendrogrammi vertikaaltelg kujutab objektide ning objektide ja klastrite vahelised kaugused. Seega on muutujate SEB ja OSD vaheline kaugus viiega. Need muutujad ühendatakse esimeses etapis üheks klastriks.

Dendrogrammi horisontaalsed segmendid joonistatakse tasemetel, mis vastavad antud klastrite moodustamise etapi jaoks valitud lävikaugustele.

Graafikult on näha, et küsimus “soov töökohta vahetada” (JSR) moodustab omaette klastri. Üldiselt külastab soov kuhugi maha visata kõiki võrdselt. Lisaks on eraldi klaster kodule territoriaalse läheduse (LHB) küsimus.

Olulisuselt on see teisel kohal, mis kinnitab K-keskmise meetodil tehtud uuringu tulemuste põhjal tehtud järeldust elamuehituse vajalikkuse kohta.

Majandusliku heaolu tunne (PEW) ja palgatasu (PWA) on ühendatud – see on majandusprobleemide plokk. Samuti on kombineeritud karjääri edenemine (CR) ning isiklike eesmärkide ja organisatsiooni eesmärkide kombinatsioon (COL).

Muud klasterdamismeetodid ja ka teist tüüpi kauguste valik ei too kaasa olulisi muutusi dendrogrammis.

Tulemused:

Klasteranalüüs on võimas tööriist uurimuslikuks andmeanalüüsiks ja statistiliseks uurimistööks mis tahes teemavaldkonnas.
Programm Statistica rakendab klasteranalüüsi nii hierarhilisi kui ka struktuurseid meetodeid. Selle statistikapaketi eelised tulenevad nende graafilistest võimalustest. Antakse saadud klastrite kahe- ja kolmemõõtmelised graafilised esitused uuritud muutujate ruumis ning objektide rühmitamise hierarhilise protseduuri tulemused.
Vajalik on rakendada mitmeid klasteranalüüsi algoritme ja teha järeldusi algoritmide tulemuste üldhinnangu põhjal.
Klasteranalüüsi võib lugeda edukaks, kui seda tehakse erineval viisil, võrreldakse tulemusi ja leitakse ühised mustrid ning leitakse stabiilsed klastrid olenemata klasterdamismeetodist.
Klasteranalüüs võimaldab tuvastada probleemsed olukorrad ja visandada viise nende lahendamiseks. Seetõttu võib seda mitteparameetrilise statistika meetodit pidada süsteemianalüüsi lahutamatuks osaks.