Mis on hierarhiline klasterdamisalgoritm?

Viimane uuendus: 16.01.2024

Valdkonnas andmeteadus y tehisintellektÜks mustrianalüüsi ja andmete rühmitamise põhikontseptsioone on hierarhilise klastrite moodustamise algoritm. See matemaatilistel ja statistilistel põhimõtetel põhinev meetod võimaldab vaatluste komplekti hierarhiliselt erinevatesse rühmadesse või klastritesse korraldada, pakkudes üksikasjalikku ülevaadet andmete vahelistest seostest. Selles artiklis uurime põhjalikult, mis on hierarhilise klastrite moodustamise algoritm, kuidas seda rakendatakse ning millised on selle peamised rakendused ja eelised andmeteaduse valdkonnas.

1. Sissejuhatus hierarhilisse klastrite moodustamise algoritmi

Hierarhiline klasterdamisalgoritm on klasterdamistehnika, mille eesmärk on jagada andmestik väiksemateks ja sarnasemateks rühmadeks. See algoritm põhineb klastrite hierarhia loomise ideel, kus iga klaster ühendatakse teiste sarnaste klastritega, kuni moodustub üks klaster, mis sisaldab kõiki andmeid.

Hierarhilise klastrite moodustamise peamine eelis on see, et soovitud klastrite arvu ei ole vaja eelnevalt teada, kuna algoritm loob klastrihierarhia automaatselt. See võimaldab tulemusi graafiliselt visualiseerida ja andmestruktuuri paremini mõista.

Hierarhilisel klasterdamisel on kaks peamist lähenemisviisi: aglomeratiivne ja jagav. Aglomeratiivse lähenemisviisi puhul alustatakse üksikute klastritega ja ühendatakse iteratiivselt kõige sarnasemad klastrid, kuni saadakse üks klaster, mis sisaldab kõiki andmeid. Seevastu jagava lähenemisviisi puhul alustatakse ühest klastrist, mis sisaldab kõiki andmeid, ja jagatakse see iteratiivselt väiksemateks, sarnasteks klastriteks.

Hierarhilise klasterdamise algoritmi rakendamiseks on vaja määratleda andmete sarnasuse mõõt. See mõõt võib varieeruda sõltuvalt analüüsitavate andmete tüübist. Mõned levinud mõõdud on Eukleidese kaugus, Manhattani kaugus ja korrelatsioonikaugus. Kui sarnasuse mõõt on määratletud, saab klastri hierarhia loomiseks kasutada algoritmi, näiteks Wardi algoritmi, täielikku keskmistamist või lihtsat keskmistamist.

Lühidalt öeldes on hierarhiline klastrite moodustamise algoritm võimas tööriist andmekogumite analüüsimiseks ja sarnaste struktuuride leidmiseks. Selle aglomeratiivne või jagav lähenemine ja sarnasuse mõõtmise määratlus on selle rakendamise võtmeelemendid. See algoritm on eriti kasulik siis, kui soovitud klastrite arv pole teada ja otsitakse saadud tulemuste visuaalset esitust. Siit saate teada, kuidas kasutada hierarhilist klastrite moodustamise algoritmi ja avastada, kuidas grupeerida. teie andmed tõhusalt!

2. Hierarhilise klastrite moodustamise algoritmi põhimõisted

Hierarhiline klastrite moodustamise algoritm on masinõppe tehnika, mida kasutatakse laialdaselt andmeanalüüsis. See algoritm põhineb sarnaste objektide rühmitamise ideel kategooriatesse või rühmadesse. Selle algoritmi toimimise paremaks mõistmiseks on oluline mõista mõningaid võtmekontseptsioone, mis on selle rakendamise ja mõistmise seisukohalt olulised.

Kaugus: Kaugus on hierarhilise klastrite moodustamise algoritmi põhimõiste. Seda kasutatakse kahe objekti sarnasuse või erinevuse määramiseks. Sobiva kauguse mõõtmise valimine on oluline ja võib klastrite moodustamise tulemusi mõjutada. Mõned tavaliselt kasutatavad kauguse mõõtmised on Eukleidese kaugus, Manhattani kaugus ja Jaccardi kaugus.

Lingi meetod: Seosemeetod on hierarhilise klastrite moodustamise algoritmi teine ​​oluline osa. Seda meetodit kasutatakse rühmade või klastrite vahelise kauguse arvutamise viisi otsustamiseks. Mõned levinumad seosemeetodid on lihtne seos, täielik seos ja keskmine seos. Igal meetodil on oma... eelised ja puudused, seega on oluline valida sobiv linkimismeetod, mis põhineb andmetüübil ja analüüsi eesmärkidel.

Dendrogramm: Dendrogramm on hierarhilise klasterdamisalgoritmi tulemuste graafiline esitus. See diagramm näitab, kuidas objektid on erinevatel hierarhilistel tasemetel rühmitatud ja kuidas need on omavahel seotud. Dendrogramm võib olla kasulik andmete mustrite või struktuuride tuvastamiseks ja optimaalse klastrite arvu määramiseks. See võimaldab ka klasterdamistulemusi hõlpsasti tõlgendataval viisil visualiseerida.

3. Hierarhiliste klasterdamisalgoritmide tüübid

Andmete sarnasuse põhjal klasterdamiseks on saadaval mitmesuguseid algoritme. Need algoritmid saab jagada kahte põhikategooriasse: aglomeratiivsed ja jagavad.

Aglomeratiivsed algoritmid alustavad iga andmepunkti määramisega oma klastrisse ja seejärel ühendavad klastreid järk-järgult, kuni saadakse üks klaster, mis sisaldab kõiki andmepunkte. Igal ühendamisetapil arvutatakse klastrite sarnasuse mõõt ja tehakse otsus, millised klastrid tuleks ühendada. See sarnasuse mõõt võib olla klastri tsentroidide vaheline kaugus või klastrite lähimate punktide vaheline kaugus.

Teisest küljest alustavad jagamisalgoritmid ühest klastrist, mis sisaldab kõiki andmeid, ja jagavad selle klastri seejärel väiksemateks alamklastriteks. Igal jagamise etapil valitakse olemasolev alamklaster ja eraldatakse see kaheks uueks alamklastriks. See jagamine toimub alamklastri andmepunktide sarnasuse mõõtmise alusel.

4. Hierarhilise klasterdamisalgoritmi eelised ja puudused

Hierarhiline klastrite moodustamise algoritm on laialdaselt kasutatav tehnika sarnaste andmete rühmitamiseks kategooriatesse või klastritesse. Üks selle peamisi eeliseid on see, et soovitud klastrite arvu eelnevalt ei ole vaja määrata, kuna algoritm genereerib hierarhilise struktuuri, mida saab tõlgendada erinevatel detailsuse tasemetel. See võimaldab andmestruktuurist paremini aru saada ja hõlbustab selle analüüsi.

Eksklusiivne sisu – klõpsake siin  Kuidas avada LPD-fail

Hierarhilise klasterdamisalgoritmi teine ​​oluline eelis on selle võime käsitleda erinevat tüüpi andmeid, näiteks kategoorilisi või numbrilisi muutujaid. See teeb sellest mitmekülgse tööriista, mida saab kohandada erinevate probleemide ja andmekogumite jaoks. Lisaks on algoritmi suhteliselt lihtne rakendada ega vaja ulatuslikku parameetrite häälestamist.

Teisest küljest on hierarhilise klasterdamisalgoritmi puuduseks selle suurem arvutuslik keerukus võrreldes teiste klasterdamisalgoritmidega, eriti suurte andmekogumitega töötamisel. Lisaks võib algoritmi hierarhilise olemuse tõttu mõnel juhul olla keeruline määrata optimaalset klastrite arvu või tõlgendada tulemusi. Samuti on oluline märkida, et algoritm võib olla tundlik kõrvalekallete või mürarikaste andmete suhtes, mis võivad mõjutada genereeritud klastrite kvaliteeti.

5. Hierarhilise klastrite moodustamise algoritmi rakendamise põhietapid

1. samm: Probleemi määratlemine ja sisendandmete valik. Hierarhilise klasterdamisalgoritmi rakendamise esimene samm on selgelt mõista probleemi, mida püüame lahendada. Peame kindlaks määrama, millist tüüpi andmeid kasutame, ja valima need, mis on meie probleemi jaoks asjakohased. Oluline on otsustada, milliseid andmete omadusi klasterdamisprotsessis arvesse võetakse.

2. samm: Andmete eeltöötlus. Enne hierarhilise klasterdamisalgoritmi rakendamist on vajalik teatav andmete eeltöötlus. See hõlmab andmete puhastamist, et eemaldada müra või kõrvalekalded, mis võivad mõjutada klasterdamise lõpptulemust. Samuti on tavaline andmeid skaleerida, et tagada kõigi tunnuste võrdne kaal ja vältida klasterdamisprotsessis eelarvamusi.

3. samm: Kaugusmõõdiku ja liitmismeetodi valimine. Hierarhilise klastrite moodustamise algoritmi rakendamisel peame valima sobiva kaugusmõõdiku, et mõõta meie andmestikus olevate objektide sarnasust. Saadaval on mitu valikut, näiteks Eukleidese kaugus, Manhattani kaugus või korrelatsioonikaugus. Lisaks peame valima liitmismeetodi klastrite ühendamiseks algoritmi igal etapil, näiteks täieliku seose meetodi või keskmise seose meetodi.

6. Hierarhilises klastrite moodustamise algoritmis kasutatavad kauguse mõõdikud

Hierarhiline klasterdamise algoritm on tehnika, mida kasutatakse andmete rühmitamiseks klastritesse või rühmadesse andmepunktide omaduste sarnasuse põhjal. Andmepunktide sarnasuse määramiseks kasutatakse kauguse mõõdikuid. Need mõõdikud arvutavad andmepunktide vahelise kauguse ja neid kasutatakse klastri struktuuri sarnasuse mõõtmiseks.

Neid on mitu, esile tõstetakse kõige levinumad, näiteks:

  • Eukleidiline kaugus: Arvutab kahe andmepunkti vahelise kauguse eukleidilises ruumis. See mõõdik sobib pidevate numbriliste andmete jaoks ja annab enamasti täpseid tulemusi.
  • Manhattani kaugus: Tuntud ka kui linna vaheline kaugus, arvutab see kahe andmepunkti vahelise kauguse, summeerides nende koordinaatide absoluutsed erinevused. See mõõdik sobib mittepidevate või diskreetsete andmete jaoks.
  • Korrelatsioonikaugus: Mõõdab kahe andmepunkti sarnasust statistilise korrelatsioonimõõdiku abil. See mõõdik on kasulik kategooriliste andmete või sagedustabelite kujul olevate andmetega töötamisel.

Sobiva kaugusmõõdiku valik sõltub andmete tüübist ja probleemi enda struktuurist. Oluline on valida mõõdik, mis sobib andmete omadustega ja annab lahendatava probleemi kontekstis olulisi tulemusi. Erinevate kaugusmõõdikutega katsetamine aitab teil leida oma konkreetse hierarhilise klastrite moodustamise probleemi jaoks kõige sobivama.

7. Klasterdamise kvaliteedi hindamine hierarhilistes klastrite moodustamise algoritmides

Klastrite kvaliteedi hindamine on oluline samm andmete analüüsimisel hierarhiliste klastrite moodustamise algoritmide abil. Nende algoritmide efektiivsuse kindlakstegemiseks on vaja kasutada hindamismõõdikuid, mis kvantifitseerivad, kui hästi andmed erinevatesse rühmadesse klasterduvad.

Üks levinumaid klastrite moodustamise kvaliteedi hindamise näitajaid on siluetikoefitsient. See koefitsient ühendab teabe klastritevahelise sarnasuse ja klastritevahelise erinevuse kohta, et määrata igale andmepunktile väärtus vahemikus -1 kuni 1. Väärtus, mis on lähedane 1-le, näitab head klastrite moodustamist, samas kui väärtus, mis on lähedane -1-le, näitab, et andmepunkti oleks võinud määrata ka teise klastrisse.

Teine kasulik mõõdik on Dunni indeks, mis mõõdab klastrite vahelist eraldatust ja iga klastri kompaktsust. Kõrgem Dunni indeks näitab paremat klastrite moodustamise kvaliteeti. Lisaks neile mõõdikutele on oluline visualiseerida hierarhilise klastrite moodustamise tulemusi selliste tööriistade abil nagu dendrogrammid ja hajuvusdiagrammid, et paremini mõista andmete struktuuri ja klastrite jaotust.

Eksklusiivne sisu – klõpsake siin  Millised on parimad strateegiad Flip Runneril võitmiseks?

8. Näited hierarhilise klasterdamisalgoritmi rakendamisest erinevates valdkondades

Hierarhilist klasterdamisalgoritmi kasutatakse laialdaselt erinevates valdkondades sarnaste andmete rühmitamiseks ja mustrite analüüsimiseks. Järgnevalt on esitatud: mõned näited Algoritmi praktilistest rakendustest erinevates valdkondades:

1. Meditsiin: Hierarhilist klasterdamist kasutatakse meditsiinis haiguste või häirete erinevate alatüüpide tuvastamiseks kliiniliste ja geneetiliste andmete analüüsimise kaudu. Näiteks saab see algoritm tuvastada vähihaigete alarühmi, kes reageerivad konkreetsele ravile sarnaselt, võimaldades personaalset ja paremat arstiabi.

2. Turundus: Turunduse valdkonnas kasutatakse hierarhilist klastrite moodustamist klientide jagamiseks homogeensetesse rühmadesse nende ostukäitumise, eelistuste või demograafiliste tunnuste põhjal. See võimaldab ettevõtetel kohandada oma turundusstrateegiaid ja pakkuda igale kliendisegmendile personaalseid pakkumisi, suurendades turunduskampaaniate tõhusust.

3. Bioinformaatika: Bioinformaatikas kasutatakse hierarhilist klasterdamist DNA või valgu järjestuste analüüsimiseks. See algoritm aitab tuvastada sarnaste järjestuste rühmi, pakkudes ülevaadet biomolekulide funktsioonist ja evolutsioonist. Lisaks kasutatakse hierarhilist klasterdamist ka geenide liigitamiseks ekspressiooniprofiilideks ja organismide reaktsiooni uurimiseks erinevatele stiimulitele või keskkonnatingimustele.

Lühidalt öeldes rakendatakse hierarhilist klastrite moodustamise algoritmi erinevates valdkondades, nagu meditsiin, turundus ja bioinformaatika. Selle võime rühmitada sarnaseid andmeid ja avastada mustreid on osutunud äärmiselt kasulikuks andmete analüüsimisel erinevates kontekstides. Olgu selleks siis meditsiinilise ravi täiustamine, turundusstrateegiate kohandamine või elusorganismide parem mõistmine, see algoritm pakub võimsat tööriista andmeklastrite tuvastamiseks ja analüüsimiseks.

9. Hierarhiliste klasterdamisalgoritmide ja teiste klasterdamismeetodite võrdlus

Hierarhiline klasterdamine on populaarne meetod sarnaste objektide rühmitamiseks kategooriatesse nende omaduste sarnasuse põhjal. Kuigi saadaval on ka teisi klasterdamise meetodeid, näiteks K-keskmised või DBSCAN, on hierarhilisel klasterdamisel teatud eelised ja puudused, mis eristavad seda teistest. Nende algoritmide võrdlus võimaldab meil paremini mõista, milline meetod sobib meie andmete ja lahendatava probleemi jaoks paremini.

Üks neist peamised erinevused Hierarhilise klasterdamise ja teiste klasterdamismeetodite erinevus seisneb klastrite genereerimise viisis. Kui K-keskmised või DBSCAN määravad iga objekti ühte rühma, siis hierarhiline klasterdamine võimaldab moodustada pesastatud rühmi või alamrühmi suuremate rühmade sees. See võib olla kasulik, kui meie andmed esitavad hierarhilist struktuuri või kui soovime objektidevaheliste seoste kohta üksikasjalikumat vaadet.

Teine oluline erinevus on genereeritud rühmade arv. Hierarhilises klastrite moodustamises ei ole enne algoritmi käivitamist vaja rühmade arvu määrata, kuna see genereerib täieliku hierarhia kõik objektidSeevastu sellised meetodid nagu K-keskmised nõuavad soovitud klastrite arvu eelnevat määratlemist. See võib olla probleemiks, kui me ei tea täpselt, mitu klastrit tuleks moodustada. Hierarhiline klastrite moodustamine nõuab aga rohkem käitusaega, kuna tuleb arvutada kõigi objektipaaride sarnasus.

10. Hierarhilise klastrite moodustamise algoritmi rakendamiseks saadaolevad tööriistad ja teegid

Neid on mitu, mis pakuvad teadlastele ja arendajatele laia valikut võimalusi seda tüüpi analüüsi läbiviimiseks. Allpool on toodud mõned kõige laialdasemalt kasutatavad ja hästi dokumenteeritud:

1. Scikit-learn: See Pythoni masinõppe teek on populaarne valik hierarhilise klastrite algoritmi rakendamiseks. See pakub laia valikut klastrite algoritme, sealhulgas aglomeratiivset hierarhilist klastrite loomist. Selle üksikasjalik dokumentatsioon ja aktiivne kasutajaskond muudavad selle usaldusväärseks ja hõlpsasti kasutatavaks valikuks.

2. Teadus: See Pythoni teek pakub laia valikut teaduslikke tööriistu ja algoritme, sealhulgas hierarhilist klastrite loomist. See pakub klastrite loomise funktsioone, näiteks linkation() ja dendrogram(), mis muudavad algoritmi rakendamise lihtsaks ja tõhusaks. SciPy dokumentatsioon on suurepärane ja sisaldab õpetusi. samm-sammult ja näiteid nende funktsioonide kasutamise kohta.

3. R: R on programmeerimiskeel, mida kasutatakse laialdaselt statistikas ja andmeanalüüsis. Sellel on mitu hierarhilise klastrite loomise paketti, näiteks paketid 'cluster' ja 'dendextend'. Need paketid pakuvad laia valikut funktsioone ja tööriistu algoritmi rakendamiseks, samuti põhjalikku dokumentatsiooni ja üksikasjalikke õpetusi.

11. Hierarhilise klasterdamisalgoritmi praktilised rakendused andmeanalüüsis

Hierarhilist klasterdamise algoritmi kasutatakse laialdaselt andmeanalüüsis tänu selle praktilistele rakendustele erinevates valdkondades. See algoritm võimaldab rühmitada objekte või valimeid kategooriatesse või klastritesse nende sarnasuste ja erinevuste põhjal. Seda tüüpi klasterdamine võimaldab andmestruktuuri selgemat visualiseerimist ning aitab paljastada varjatud mustreid ja seoseid.

A taotlustest Hierarhilise klastrite moodustamise algoritmi kõige levinum kasutusala on klientide segmenteerimine. Seda kasutatakse klientide rühmitamiseks erinevatesse kategooriatesse nende omaduste, käitumise või eelistuste põhjal. See annab ettevõtetele terviklikuma ülevaate oma kliendibaasist ja võimaldab neil kujundada tõhusamaid turundusstrateegiaid.

Lisaks kasutatakse hierarhilist klasterdamisalgoritmi pildianalüüsis ja genoomikas. Pildianalüüsis kasutatakse seda sarnaste piltide rühmitamiseks kategooriatesse, mis hõlbustab pildiotsingut ja klassifitseerimist. Genoomikas kasutatakse seda geenide või bioloogiliste proovide rühmitamiseks nende geneetilise ekspressiooni alusel, mis aitab tuvastada konkreetsete haiguste või seisunditega seotud mustreid.

Eksklusiivne sisu – klõpsake siin  Kuidas Wordis pilti kinnitada

12. Hierarhilise klasterdamisalgoritmi kasutamise piirangud ja kaalutlused

Hierarhiline klastrite moodustamise algoritm on andmeanalüüsis laialdaselt kasutatav tehnika rühmade või klastrite tuvastamiseks andmekogumis. Selle algoritmi kasutamisel on aga oluline meeles pidada teatud piiranguid ja kaalutlusi.

Hierarhilise klasterdamise tavaline piirang on see, et suurte andmekogumite puhul võib see olla arvutuslikult kulukas. Selle põhjuseks on asjaolu, et algoritm peab korduvalt arvutama kõigi andmekogumi punktipaaride vahelisi kaugusi. Seetõttu on soovitatav seda algoritmi kasutada väiksemate andmekogumite puhul või optimeerimistehnikaid arvutusliku efektiivsuse parandamiseks.

Teine oluline kaalutlus on hierarhilise klastrite moodustamise algoritmis kasutatava seosemeetodi valik. Seosemeetod määrab, kuidas klastrite vahelist kaugust algoritmi igal sammul arvutatakse. Saadaval on erinevad seosemeetodid, näiteks täielik seos, keskmine seos ja Wardi seos. Oluline on mõista iga meetodi omadusi ja valida andmestiku ja analüüsi eesmärgi jaoks kõige sobivam.

13. Hiljutised uuendused ja edusammud hierarhilise klastrite loomise valdkonnas

Hierarhilise klastrite loomise valdkonnas on viimastel aastatel tehtud märkimisväärseid edusamme. Need uuendused on parandanud selle andmeklastri meetodi täpsust ja tõhusust. Üks peamisi uuendusi on kiiremate ja töökindlamate algoritmide väljatöötamine, mis suudavad käsitleda suuri andmekogumeid. Need algoritmid kasutavad klastrite loomise protsessi kiirendamiseks täiustatud optimeerimis- ja paralleelsustehnikaid.

Teine oluline uuendus on keerukamate sarnasusmõõtude kaasamine objektidevaheliste kauguste arvutamisse. See on võimaldanud täpsemat klasterdamist, arvestades lisaks eukleidilisele kaugusele ka teisi mõõdikuid, näiteks koosinussarnasust või Pearsoni korrelatsiooni. Lisaks on välja pakutud meetodid sarnasusmõõtude automaatseks valimiseks, mis muudab nende rakendamise lihtsamaks ilma eriteadmisteta.

Samuti on välja töötatud lähenemisviise, mis ühendavad hierarhilise klasterdamise teiste masinõppe tehnikatega, näiteks dimensioonilisuse vähendamise või algoritmi parameetrite häälestamisega. See võimaldab erinevate andmetüüpide ja rakendusvaldkondade jaoks sobivamat klasterdamist. Lisaks on loodud tarkvaratööriistad ja teegid hierarhiliste klasterdamise algoritmide rakendamise ja hindamise hõlbustamiseks, mis on aidanud kaasa nende levitamisele ja omaksvõtmisele teadusringkondades.

14. Järeldused hierarhilise klastrite moodustamise algoritmi kohta

Lühidalt öeldes on hierarhiline klastrite moodustamise algoritm rühmitamistehnika, mille puhul sarnased objektid määratakse rühmadesse. Selles jaotises oleme seda algoritmi põhjalikult uurinud. ja selle rakendused.

Hierarhilise klasterdamisalgoritmi üks tähelepanuväärsemaid aspekte on selle võime looma hierarhiline klastristruktuur, mis võimaldab andmeid ja nende seoseid paremini mõista. See lähenemisviis pakub ka paindlikkust, võimaldades klastreid vastavalt vajadusele jagada või ühendada.

Lisaks oleme näinud, et hierarhilise klastrite moodustamise algoritmi sees on kaks peamist lähenemisviisi: aglomeratiivne klastrite moodustamine ja jagav klastrite moodustamine. Mõlemal lähenemisviisil on oma eelised ja puudused ning valik nende vahel sõltub suuresti andmetest ja analüüsi eesmärkidest.

Kokkuvõtteks võib öelda, et hierarhiline klasterdamisalgoritm on rühmitamistehnika, mis võimaldab andmekogumit korraldada hierarhilise puu kujul. Seda tüüpi algoritmi kasutatakse erinevates valdkondades, näiteks andmekaevandamises, bioinformaatikas ja tehisintellektmuuhulgas.

Hierarhilise klasterdamise protsessi käigus rühmitatakse andmed sarnasuse või kauguse järgi, luues hierarhilise struktuuri, mis võimaldab visualiseerida erinevate rühmade vahelisi seoseid. See on eriti kasulik andmete sisemise struktuuri mõistmiseks ja varjatud mustrite või kategooriate avastamiseks.

Hierarhilisel klasterdamisel on kaks peamist lähenemisviisi: aglomeratiivne ja jagav. Aglomeratiivse lähenemisviisi puhul rühmitatakse andmed alustades üksikutest objektidest ja ühendatakse need järk-järgult üheks klastriks. Jagava lähenemisviisi puhul seevastu alustatakse ühest klastrist ja jagatakse see väiksemateks klastriteks.

Oluline on märkida, et hierarhilise klasterdamise täpsete tulemuste saamiseks on ülioluline valida sidusmeetodit, mis määrab, kuidas rühmadevahelist sarnasust arvutatakse. Kõige levinumad meetodid on täielik sidusus, keskmine sidusus ja Wardi sidusus.

Lisaks on oluline arvestada objektide sarnasuse arvutamisel kasutatava kauguse mõõtmisega. Mõned kõige sagedamini kasutatavad kauguse mõõtmised on eukleidiline, Manhattani ja korrelatsioonikaugus.

Lühidalt öeldes on hierarhilised klasterdamisalgoritmid väärtuslik tööriist andmeanalüüsis. Need võimaldavad andmeid hierarhiliselt grupeerida, paljastades alusstruktuuri ning hõlbustades mustrite ja kategooriate tuvastamist. Nende kasutusala ulatub erinevatesse valdkondadesse ning õige seosemeetodi ja kauguse mõõtmise valik on täpsete ja sisukate tulemuste saamiseks hädavajalik.