N'ọhịa nke sayensị data y Amamịghe echiche, Otu n'ime isi echiche maka nyocha ụkpụrụ na nchịkọta data bụ Hierarchical Clustering algọridim. Usoro a, dabere na ụkpụrụ mgbakọ na mwepụ na ọnụ ọgụgụ, na-enye ohere ka ịhazi usoro nlele n'ime otu dị iche iche ma ọ bụ ụyọkọ n'usoro nhazi, na-enye nkọwa zuru ezu banyere mmekọrịta dị n'etiti data. N'isiokwu a, anyị ga-enyocha nke ọma ihe Hierarchical Clustering algọridim, ka esi etinye ya na ihe bụ isi ngwa na uru ya na ngalaba sayensị data.
1. Okwu mmalite nke nchịkọta nchịkọta usoro nhazi
Usoro nchịkọta usoro nhazi usoro bụ usoro nchịkọta nke na-achọ ikesa otu data n'ime ndị nta na ndị yiri ya. Algọridim a dabere n'echiche nke iwulite usoro nke ụyọkọ, ebe a na-ejikọta ụyọkọ nke ọ bụla na ụyọkọ ndị ọzọ yiri ya ruo mgbe ha na-etolite otu ụyọkọ nke nwere data niile.
Isi uru nke nchịkọta nhazi ọkwa bụ na ọ dịghị mkpa ka ị mara n'ihu ọnụ ọgụgụ ụyọkọ ị chọrọ inweta, ebe ọ bụ na algọridim na-ewulite usoro nchịkọta nke ụyọkọ na-akpaghị aka. Na mgbakwunye, ọ na-enye gị ohere ịlele nsonaazụ ya na eserese ma ghọta nke ọma nhazi data.
Enwere ụzọ abụọ isi abịarute n'ịchịkọta ndị isi: agglomerative na nkewa. Na usoro agglomerative, ị na-amalite site na ụyọkọ nke ọ bụla wee jikọta ụyọkọ ndị yiri ya ruo mgbe ị nwetara otu ụyọkọ nwere data niile. N'aka nke ọzọ, na usoro nkewa, ị na-amalite site na otu ụyọkọ nke nwere data niile wee kewaa ya n'ime obere ụyọkọ na yiri ya.
Iji mejuputa usoro nchịkọta usoro nhazi, ọ dị mkpa ịkọwapụta nha nha n'etiti data ahụ. Ntụ a nwere ike ịdị iche dabere n'ụdị data a na-enyocha. Ụfọdụ usoro a na-ahụkarị gụnyere anya Euclidean, anya Manhattan, na anya mmekọrịta. Ozugbo a kọwapụtara ihe myirịta ahụ, enwere ike iji algọridim dị ka Ward, nkezi zuru oke, ma ọ bụ nkezi dị mfe iji wuo usoro ụyọkọ.
Na nchịkọta, nchịkọta nchịkọta algorithm bụ ngwá ọrụ dị ike maka nyochaa nhazi data na ịchọta ihe ndị yiri ya. Ụzọ mkparị ya ma ọ bụ nkewa ya na nkọwa nke nha nha bụ isi ihe maka mmejuputa ya. Algọridim a bara uru karịsịa ma ọ bụrụ na amataghị ọnụ ọgụgụ a chọrọ nke ụyọkọ ma na-achọ ihe ngosi anya nke nsonaazụ enwetara. Mụta ka esi eji usoro nchịkọta algorithm wee chọpụta otu esi agbakọta data gị nke ọma!
2. Echiche ndị dị mkpa na nchịkọta nchịkọta usoro nhazi ọkwa
Usoro nchịkọta usoro nhazi usoro bụ usoro mmụta igwe a na-ejikarị na nyocha data. Algọridim a dabere n'echiche nke ịchịkọta ihe ndị yiri ya na ngalaba ma ọ bụ otu. Iji ghọta nke ọma ka algọridim a si arụ ọrụ, ọ dị mkpa ịmara ụfọdụ isi echiche ndị bụ isi na mmejuputa ya na nghọta ya.
Anya: Anya bụ echiche bụ isi na nchịkọta nchịkọta usoro nhazi ọkwa. A na-eji ya achọpụta otú ihe abụọ si yie ma ọ bụ dị iche. Ịhọrọ nha anya kwesịrị ekwesị dị mkpa ma nwee ike imetụta nsonaazụ nchịkọta. Ụfọdụ n'ime ihe ndị a na-ejikarị anya bụ anya Euclidean, anya Manhattan na anya Jaccard.
Usoro njikọ: Usoro njikọ ahụ bụ akụkụ ọzọ dị mkpa nke nchịkọta nchịkọta usoro nhazi ọkwa. A na-eji usoro a kpebie ka esi gbakọọ anya dị n'etiti otu ma ọ bụ ụyọkọ. Ụfọdụ n'ime ụzọ njikọ ndị a na-ahụkarị bụ njikọ otu, njikọ zuru oke na nkezi njikọ. Usoro ọ bụla nwere nke ya uru na ọghọm, ya mere ọ dị mkpa ịhọrọ usoro njikọ kwesịrị ekwesị dabere na ụdị data na ebumnuche nke nyocha.
Dendrogram: Dendrogram bụ ihe nleba anya eserese nke nsonaazụ nchịkọta nchịkọta usoro nhazi. Eserese a na-egosi ka esi achịkọta ihe n'ọkwa ọkwa dị iche iche yana otu ha si metụta ibe ha. Dendrogram nwere ike ịba uru iji chọpụta ụkpụrụ ma ọ bụ ihe owuwu dị na data na iji chọpụta ọnụ ọgụgụ kacha mma nke ụyọkọ. Na mgbakwunye, ọ na-enye gị ohere iji anya nke uche hụ nsonaazụ nchịkọta n'ụzọ dị mfe nghọta.
3. Ụdị nke nchịkọta nchịkọta algorithms
Enwere ndị dị iche iche dị na otu data dabere na myirịta ha. Enwere ike kewaa algọridim ndị a ụzọ abụọ bụ isi: agglomerative na nkewa.
Agglomerative algọridim na-amalite site na-ekenye ihe data ọ bụla n'ime otu nke ya wee jiri nwayọọ nwayọọ jikọta otu ahụ ruo mgbe otu otu gụnyere data niile. Na nzọụkwụ ọ bụla jikọrọ ọnụ, a na-agbakọ nha nha n'etiti otu ndị ahụ ma kpebie nke a ga-ejikọta. Ntụle nke myirịta a nwere ike ịbụ ebe dị n'etiti centroids nke otu ma ọ bụ ebe dị n'etiti ebe kacha nso nke otu.
N'aka nke ọzọ, algọridim nkewa nkewa na-amalite site na otu otu nwere data niile wee kewaa otu a n'ime obere obere obere. N'ime usoro nkewa nke ọ bụla, a na-ahọrọ obere otu dị adị ma kewapụ ya ka ọ bụrụ otu ọhụrụ abụọ. Emere nkewa a dabere na myirịta dị n'etiti isi ihe dị na obere otu.
4. Uru na ọghọm dị na nchịkọta nchịkọta usoro nhazi
Usoro nchịkọta usoro nhazi bụ usoro a na-ejikarị eme ihe maka ịchịkọta data yiri ya n'ime edemede ma ọ bụ ụyọkọ. Otu n'ime uru ya bụ na ọ dịghị mkpa ịkọwapụta n'ọdịnihu ọnụ ọgụgụ nke ụyọkọ chọrọ, ebe ọ bụ na algọridim na-emepụta nhazi nhazi nke nwere ike ịkọwa na ọkwa dị iche iche nke nkọwa. Nke a na-enye ohere maka nghọta ka mma nke nhazi data ma mee ka ọ dị mfe nyocha.
Uru ọzọ dị mkpa nke nchịkọta nchịkọta usoro nhazi bụ ikike ya ijikwa ụdị data dị iche iche, dị ka ọnụọgụgụ ma ọ bụ ọnụọgụgụ. Nke a na-eme ka ọ bụrụ ngwá ọrụ dị iche iche nke nwere ike ịmegharị na nsogbu dị iche iche na nhazi data. Ọzọkwa, algọridim dị mfe iji mejuputa ma ọ dịghị achọ ọnụọgụ dị ukwuu nke ntọala paramita.
N'aka nke ọzọ, mwepu nke usoro nchịkọta usoro nhazi bụ nnukwu mgbagwoju anya ya ma e jiri ya tụnyere usoro nchịkọta ndị ọzọ, karịsịa mgbe ọ na-arụ ọrụ na nnukwu data. Na mgbakwunye, n'ihi ọdịdị nhazi nke algọridim, ọ nwere ike isiri ike ịchọpụta ọnụọgụgụ kacha mma ma ọ bụ kọwapụta nsonaazụ n'ọnọdụ ụfọdụ. Ọ dịkwa mkpa iburu n'uche na algọridim nwere ike ịdị na-enwe mmetụta maka ndị na-apụ apụ ma ọ bụ data na-eme mkpọtụ, nke nwere ike imetụta ogo ụyọkọ ndị a na-emepụta.
5. Nzọụkwụ ndị dị mkpa na mmejuputa usoro nchịkọta usoro nhazi usoro
Nzọụkwụ 1: Nkọwa nke nsogbu na nhọrọ nke data ntinye. Nzọụkwụ mbụ n'imejuputa usoro nchịkọta nchịkọta algorithm bụ ịghọta nke ọma nsogbu anyị na-agbalị idozi. Anyị ga-achọpụta ụdị data anyị ga-eji wee họrọ ndị metụtara nsogbu anyị. Ọ dị mkpa ikpebi ụdị njirimara nke data a ga-atụle na usoro nchịkọta.
Nzọụkwụ 2: Nhazi data. Tupu itinye usoro nchịkọta usoro nhazi, ọ dị mkpa ịrụ ụfọdụ ọrụ nhazi data. Nke a na-agụnye ihicha data iji wepụ mkpọtụ ọ bụla ma ọ bụ mpụ nwere ike imetụta nsonaazụ nchịkọta ikpeazụ. Ọ bụkwa ihe a na-ahụkarị iji tụọ data ahụ iji hụ na njirimara niile nwere otu ibu ma zere mkparị na usoro nchịkọta.
Nzọụkwụ 3: Nhọrọ nke metrik anya na usoro njikọ. N'imejuputa algọridim na-achịkọta usoro, anyị ga-ahọrọ metric anya kwesịrị ekwesị iji tụọ myirịta dị n'etiti ihe dị na nhazi data anyị. Enwere ọtụtụ nhọrọ dị, dị ka anya Euclidean, anya Manhattan, ma ọ bụ anya njikọ. Na mgbakwunye, anyị kwesịrị ịhọrọ usoro njikọ iji jikọta ụyọkọ na nzọụkwụ ọ bụla nke algọridim, dị ka usoro njikọ zuru ezu ma ọ bụ nkezi njikọ.
6. Metiriki anya ejiri na nchịkọta nchịkọta usoro nhazi
Usoro nchịkọta usoro nhazi algorithm bụ usoro eji achịkọta data n'ime ụyọkọ ma ọ bụ otu dabere na myirịta nke njirimara dị n'etiti isi data. Iji chọpụta myirịta dị n'etiti isi data, ọ dị mkpa iji metrik dị anya. Metiriks ndị a na-agbakọ anya dị n'etiti isi data ma na-eji tụọ myirịta dị na nhazi nke ụyọkọ.
E nwere ọtụtụ, na-akọwapụta ndị kachasị dị ka:
- Ogologo Euclidean: Na-agbakọ anya dị n'etiti isi data abụọ na oghere Euclidean. Metiriki a dabara adaba maka data ọnụọgụ na-aga n'ihu ma na-enye nsonaazụ ziri ezi n'ọtụtụ oge.
- Ogologo Manhattan: A makwaara dị ka anya obodo, ọ na-agbakọ anya dị n'etiti isi data abụọ site n'ịgbakwunye ọdịiche zuru oke n'etiti nhazi ha. Metiriki a dabara adaba maka data anaghị aga n'ihu ma ọ bụ nke pụrụ iche.
- Ogologo njikọ: Ọ na-atụ myirịta dị n'etiti isi ihe data abụọ site na iji ọtụkọ ọnụ ọgụgụ. Metiriki a bara uru mgbe ị na-arụ ọrụ na data categorical ma ọ bụ data n'ụdị tebụl ugboro.
Ịhọrọ metric anya kwesịrị ekwesị dabere na ụdị data na nhazi nke nsogbu ahụ n'onwe ya. Ọ dị mkpa ịhọrọ metric dabara na njirimara data na nke na-ebute nsonaazụ bara uru na ọnọdụ nke nsogbu a ga-edozi. Inwe nnwale na metrik dị anya dị iche iche nwere ike inye aka ịchọta nke kacha dabara adaba maka nsogbu nchịkọta usoro nhazi.
7. Nlele ogo mkpokọta n'usoro nchịkọta usoro nhazi
Ịtụle ogo ụyọkọ bụ nzọụkwụ dị mkpa na nyocha data site na iji nchịkọta nchịkọta usoro nhazi. Iji chọpụta ịdị irè nke algọridim ndị a, ọ dị mkpa iji metrics nyocha na-akọwapụta otu esi achịkọta data ahụ n'ime ụyọkọ dị iche iche.
Otu n'ime metrik a na-ejikarị enyocha ogo mkpokọta bụ ọnụọgụ silhouette. Ọnụọgụ a na-ejikọta ozi gbasara myirịta intra-ụyọkọ na enweghị mmasị n'etiti ụyọkọ iji kenye uru n'etiti -1 na 1 na ebe data ọ bụla. Uru dị nso 1 na-egosi nchịkọta dị mma, ebe uru dị nso -1 na-egosi na ọ ga-abụ na e kenyere ebe data ahụ na ụyọkọ ọzọ.
Metiriks ọzọ bara uru bụ ntụzịaka Dunn, nke na-atụ nkewa dị n'etiti ụyọkọ na mkpokọta nke ụyọkọ ọ bụla. Ọnụ ahịa dị elu nke ndeksi Dunn na-egosi ogo ụyọkọ ka mma. Na mgbakwunye na metrics ndị a, ọ dị mkpa iji anya nke uche na-ahụ nsonaazụ nke nchịkọta nhazi ọkwa site na iji ngwá ọrụ dị ka dendrograms na ikposa ikposa iji ghọta nke ọma nhazi nke data na nkesa nke ụyọkọ.
8. Ọmụmaatụ nke itinye usoro nchịkọta usoro nhazi n'akụkụ dị iche iche
A na-eji usoro nchịkọta usoro nhazi usoro n'ọtụtụ ebe n'akụkụ dị iche iche iji chịkọta data yiri ya na nyochaa usoro. Ugbu a, ha na-eweta ụfọdụ ihe atụ Ngwa bara uru nke algọridim na mpaghara dị iche iche:
1. Ọgwụ: A na-eji ụyọkọ nke hierarchical eme ihe na nkà mmụta ọgwụ iji chọpụta ụdị dị iche iche nke ọrịa ma ọ bụ nsogbu site na nyocha nke data ụlọ ọgwụ na mkpụrụ ndụ ihe nketa. Dịka ọmụmaatụ, algọridim a nwere ike ịchọpụta otu obere ndị ọrịa cancer na-emeghachi omume n'otu aka ahụ na ọgwụgwọ ụfọdụ, na-ekwe ka nlekọta ahụike bụrụ ahaziri ma melite.
2. Ịre ahịa: N'ebe a na-ere ahịa, a na-eji nchịkọta nhazi ọkwa na-ekewa ndị ahịa n'ime otu ụdị dị iche iche dabere na omume ịzụrụ ihe, mmasị ma ọ bụ njirimara igwe mmadụ. N'ụzọ dị otú a, ụlọ ọrụ nwere ike imeghari atụmatụ ahịa ha ma nye onyinye ahaziri iche na mpaghara ndị ahịa ọ bụla, na-abawanye irè nke mgbasa ozi ahịa.
3. Bioinformatics: Na bioinformatics, a na-eji nchịkọta nhazi ọkwa maka nyocha nke DNA ma ọ bụ usoro protein. Algọridim a na-enyere aka ịmata otu dị iche iche nke usoro yiri ya, na-enye nghọta na ọrụ na mgbanwe nke biomolecules. Ọzọkwa, a na-ejikwa nchịkọta usoro nhazi iji kewaa mkpụrụ ndụ ihe nketa n'ime profaịlụ nkwupụta ma mụọ nzaghachi nke ihe nlegharị anya na mkpali dị iche iche ma ọ bụ ọnọdụ gburugburu ebe obibi.
Na nchịkọta, a na-etinye usoro nchịkọta usoro nhazi usoro n'akụkụ dị iche iche dị ka ọgwụ, ịzụ ahịa, na bioinformatics. Ikike ya ịchịkọta data yiri ya na ịchọpụta usoro egosila na ọ bara uru nke ukwuu n'ịtule data n'ọnọdụ dị iche iche. Ma iji kwalite ọgwụgwọ ahụike, imeghari usoro ịzụ ahịa, ma ọ bụ ghọta ihe dị ndụ nke ọma, algọridim a na-enye ngwá ọrụ dị ike maka ịchọpụta na nyochaa otu data.
9. Tụnyere n'etiti usoro nchịkọta nchịkọta usoro na ụzọ nchịkọta ndị ọzọ
Nchịkọta nhazi ọkwa bụ usoro ewu ewu nke a na-eji achịkọta ihe ndị yiri ya na ngalaba, dabere na myirịta nke njirimara ha. Ọ bụ ezie na e nwere ụzọ nchịkọta ndị ọzọ dị, dị ka K-means ma ọ bụ DBSCAN, nchịkọta nhazi nwere ụfọdụ uru na ọghọm na-eme ka ọ pụta ìhè. Ntụnyere n'etiti algọridim ndị a ga-eme ka anyị ghọta nke ọma nke usoro kacha adabara data anyị na nsogbu anyị chọrọ idozi.
Otu n'ime isi ihe dị iche n'etiti nchịkọta usoro nhazi na ụzọ nchịkọta ndị ọzọ bụ ụzọ e si emepụta otu. Ọ bụ ezie na K- pụtara ma ọ bụ DBSCAN ekenye ihe ọ bụla n'otu otu, nchịkọta usoro nhazi na-enye ohere ka e guzobe otu akwu ma ọ bụ obere obere n'ime otu buru ibu. Nke a nwere ike ịba uru mgbe data anyị nwere nhazi ọkwa ma ọ bụ mgbe anyị chọrọ inwe nkọwa zuru ezu banyere mmekọrịta dị n'etiti ihe.
Ihe ọzọ dị mkpa dị iche bụ ọnụ ọgụgụ nke otu ndị na-emepụta. Na nchịkọta usoro nhazi, ọ dịghị mkpa ịkọwapụta ọnụọgụgụ nke otu tupu ịmee algọridim, ebe ọ bụ na ọ na-ewepụta usoro nhazi zuru oke. ihe niile. N'aka nke ọzọ, na ụzọ ndị dị ka K-pụtara, ọ dị mkpa ịkọwapụta na mbụ ọnụ ọgụgụ nke ndị a chọrọ. Nke a nwere ike ịbụ nsogbu ma ọ bụrụ na anyị ejighị n'aka na anyị ga-enwe otu ìgwè ole ka e kwesịrị ịmepụta. Agbanyeghị, nchịkọta usoro nhazi chọrọ oge ogbugbu karịa n'ihi na a ga-agbakọrịrị myirịta dị n'etiti ụzọ abụọ ihe niile.
10. Ngwa na ọba akwụkwọ dị maka mmejuputa usoro nchịkọta usoro nhazi usoro
Enwere ọtụtụ, na-enye ohere ka ndị nchọpụta na ndị mmepe nwee ọtụtụ nhọrọ iji mepụta ụdị nyocha a. N'okpuru bụ ụfọdụ n'ime ndị kacha eji na nke edekọ nke ọma:
1. Scikit-mụta: Ọbá akwụkwọ mmụta igwe maka Python bụ nhọrọ a ma ama maka mmejuputa usoro nchịkọta usoro nhazi usoro. Na-enye ọtụtụ algọridim ngụkọ dị iche iche, gụnyere nchịkọta usoro nhazi agglomerative. Akwụkwọ nkọwa ya na obodo ndị ọrụ na-arụsi ọrụ ike na-eme ka ọ bụrụ nhọrọ a pụrụ ịdabere na ya ma dị mfe iji.
2. SciPy: Ọbá akwụkwọ Python a na-enye ọtụtụ ngwaọrụ sayensị na algọridim, gụnyere nchịkọta usoro nhazi. Ọ na-enye ọrụ nchịkọta dị ka njikọ () na dendrogram (), nke na-eme ka mmejuputa algọridim dị mfe ma dị irè. Akwụkwọ SciPy mara mma ma na-enye nkuzi nzọụkwụ site na nzọụkwụ na ọmụmaatụ otu esi eji ọrụ ndị a.
3. R: R bụ asụsụ mmemme a na-ejikarị na ọnụ ọgụgụ na nyocha data. Ọ nwere ọtụtụ ngwugwu dị maka nchịkọta nhazi ọkwa, dị ka ngwugwu 'ụyọkọ' na ngwungwu 'dendextend'. Ngwunye ndị a na-enye ọrụ dịgasị iche iche na ngwá ọrụ maka mmejuputa algọridim, yana akwụkwọ zuru ezu na nkuzi zuru ezu.
11. Ngwa bara uru nke nchịkọta nchịkọta algorithm na nyocha data
A na-eji usoro nchịkọta usoro nhazi usoro n'ọtụtụ ebe na nyocha data n'ihi ngwa ya bara uru na mpaghara dị iche iche. Site na algọridim a ọ ga-ekwe omume ịchịkọta ihe ma ọ bụ ihe nlele n'ime edemede ma ọ bụ ụyọkọ, dabere na myirịta na ọdịiche ha. Ụdị nchịkọta a na-enye ohere ịhụ anya nke ọma nke nhazi data ma na-enyere aka ikpughe ụkpụrụ na mmekọrịta ezoro ezo.
A nke ngwa ndị ahụ Ojiji a na-ejikarị usoro nchịkọta usoro nhazi usoro bụ na nkewa ndị ahịa. A na-eji ya chịkọta ndị ahịa n'ụdị dị iche iche dabere na njirimara, omume ma ọ bụ mmasị ha. Nke a na-enye ụlọ ọrụ echiche zuru oke nke ndị ahịa ha ma na-enye ha ohere ịmepụta atụmatụ ahịa dị irè karị.
Tụkwasị na nke ahụ, a na-eji nchịkọta usoro nhazi algorithm na nyocha ihe oyiyi na genomics. Na nyocha onyonyo, a na-eji ya chịkọta onyonyo ndị yiri ya na ngalaba, na-eme ka ọ dị mfe ịchọ na ịhazi onyonyo. Na genomics, a na-eji ya chịkọta mkpụrụ ndụ ihe nketa ma ọ bụ ihe nlere nke ndụ dabere na mkpụrụ ndụ ihe nketa ha, na-enyere aka ịchọpụta usoro metụtara ọrịa ma ọ bụ ọnọdụ ụfọdụ.
12. Oke na nlebara anya n'iji usoro nchịkọta usoro nhazi usoro
Usoro nchịkọta usoro nhazi algorithm bụ usoro a na-ejikarị na nyocha data iji chọpụta otu ma ọ bụ ụyọkọ dị na nhazi data. Otú ọ dị, ọ dị mkpa iburu n'uche ụfọdụ njedebe na echiche mgbe ị na-eji algọridim a.
Mmachi a na-ahụkarị nke nchịkọta usoro nhazi bụ na ọ nwere ike ịdị ọnụ ọnụ na nnukwu data data. Nke a bụ n'ihi na algọridim kwesịrị ịgbakọ ogologo oge ugboro ugboro n'etiti isi ihe abụọ dị na nhazi data. Ya mere, ọ bụ ihe amamihe dị na ya iji algọridim a na obere data setịpụ ma ọ bụ jiri usoro njikarịcha na-emeziwanye arụmọrụ mgbakọ na mwepụ.
Ihe ọzọ dị mkpa bụ nhọrọ nke usoro njikọ ejiri na nchịkọta nchịkọta usoro nhazi. Usoro njikọ ahụ na-ekpebi ka esi agbakọọ anya dị n'etiti otu na nzọụkwụ ọ bụla nke algọridim. Enwere ụzọ njikọ dị iche iche dị ka njikọ zuru oke, nkezi njikọ, na njikọ Ward, n'etiti ndị ọzọ. Ọ dị mkpa ịghọta njirimara nke usoro ọ bụla wee họrọ nke kachasị mma maka nhazi data na ebumnuche nke nyocha.
13. Ihe ọhụrụ ọhụrụ na ọganihu n'oge na-adịbeghị anya na ngalaba nchịkọta ọkwa ọkwa
N'ihe gbasara ịchịkọta ndị isi, enweela nnukwu ọganihu n'afọ ndị na-adịbeghị anya. Ihe ọhụrụ ndị a enyela anyị ohere imeziwanye nkenke na arụmọrụ nke usoro nchịkọta data a. Otu n'ime ihe ọhụrụ ọhụrụ bụ mmepe nke ngwa ngwa na nke siri ike algọridim nke nwere ike ijikwa nnukwu data data. Algọridim ndị a na-eji usoro njikarịcha elu yana usoro myirịta iji mee ka usoro nchịkọta dị ngwa.
Ihe ọhụrụ ọzọ dị mkpa bụ ntinye nke usoro myirịta ọkaibe karịa na ngụkọ nke anya n'etiti ihe. Nke a enyela anyị ohere ịnweta otu ndị ziri ezi site n'ịtụle ọ bụghị naanị anya Euclidean, kamakwa usoro ndị ọzọ dị ka myirịta cosine ma ọ bụ njikọ Pearson. Tụkwasị na nke ahụ, a na-atụpụta usoro maka nhọrọ akpaaka nke ihe ndị yiri ya, nke na-eme ka ngwa ha dị mfe na-enweghị mkpa maka ihe ọmụma pụrụ iche.
N'otu aka ahụ, e mepụtala ụzọ ndị na-ejikọta ụyọkọ usoro nhazi na usoro mmụta igwe ndị ọzọ, dị ka mbelata akụkụ ma ọ bụ ngbanwe algọridim. Nke a na-enye ohere ịnweta mkpokọta kwesịrị ekwesị maka ụdị data dị iche iche na ngalaba ngwa. Na mgbakwunye, emebela ngwa ngwanrọ na ọba akwụkwọ nke na-eme ka mmejuputa na nyocha nke ụyọkọ usoro nhazi ọkwa, nke nyere aka na mgbasa na nnabata ha na mpaghara sayensị.
14. Mkpebi na usoro nchịkọta usoro nhazi usoro
Na nkenke, nchịkọta nchịkọta usoro nhazi bụ usoro nhazi nke na-ekenye ihe ndị yiri ya n'ime otu. N'ime akụkụ a niile, anyị enyochala algọridim n'ime omimi na ngwa ya.
Otu n'ime ihe ndị a ma ama nke nchịkọta nchịkọta usoro nhazi bụ ikike ya imepụta usoro nhazi nke ụyọkọ, nke na-enye ohere nghọta nke ọma nke data na mmekọrịta ya. Ụzọ a na-enyekwa mgbanwe, na-enye ohere ka kewaa ụyọkọ ma ọ bụ jikọta dịka ọ dị mkpa.
Ọzọkwa, anyị ahụwo na e nwere isi ụzọ abụọ dị n'ime usoro nchịkọta usoro nhazi usoro: mkpokọta agglomerative na nkewa nkewa. Ụzọ abụọ a nwere uru na ọghọm nke ha, na nhọrọ n'etiti ha na-adabere n'ụzọ dị ukwuu na data na ebumnuche nke nyocha.
N'ikpeazụ, usoro nchịkọta usoro nhazi usoro bụ usoro nhazi nke na-enye ohere ịhazi data n'ụdị osisi. A na-eji ụdị algọridim a na mpaghara dị iche iche, dị ka ntinye data, bioinformatics na Amamịghe echichen'etiti ndị ọzọ.
Site na usoro nchịkọta nhazi ọkwa, a na-achịkọta data ahụ dịka myirịta ma ọ bụ anya ha si dị, na-emepụta nhazi nhazi nke na-enye ohere ka mmekọrịta dị n'etiti otu dị iche iche anya. Nke a bara uru karịsịa maka ịghọta usoro dị n'ime data na ịchọpụta usoro ma ọ bụ edemede zoro ezo.
Enwere ụzọ abụọ bụ isi na usoro nchịkọta nchịkọta usoro: agglomerative na nkewa. N'ime usoro agglomerative, a na-achịkọta data na-amalite site na ihe ndị dị n'otu n'otu ma jiri nwayọọ nwayọọ na-ejikọta ha ruo mgbe e rutere otu otu. N'aka nke ọzọ, ụzọ nkewa ahụ na-amalite site n'otu ìgwè wee kewaa ya n'ime obere ìgwè.
Ekwesiri iburu n'uche na nhọrọ nke usoro njikọ, nke na-ekpebi ka esi agbakọ myirịta dị n'etiti otu, dị oke mkpa iji nweta nsonaazụ ziri ezi na nchịkọta nhazi nhazi. Ụzọ ndị a na-ahụkarị gụnyere njikọ zuru oke, nkezi njikọ, na njikọ Ward.
Na mgbakwunye, ọ dị mkpa ịtụle nha anya ejiri mee ihe mgbe a na-agbakọ myirịta n'etiti ihe. Ụfọdụ n'ime usoro anya ndị a na-ejikarị eme ihe bụ Euclidean, Manhattan na usoro mmekọrịta.
Na nchịkọta, algọridim na-achịkọta usoro nhazi bụ ngwá ọrụ bara uru na nyocha data. Ha na-ekwe ka achịkọta data n'usoro n'usoro, na-ekpughe usoro dị n'okpuru ma na-eme ka njirimara nke ụkpụrụ na otu. Ojiji ya na-agbatị ruo mpaghara dị iche iche yana nhọrọ ziri ezi nke usoro njikọ yana nha anya dị mkpa iji nweta nsonaazụ ziri ezi na nke bara uru.
Abụ m Sebastián Vidal, onye injinia kọmpụta nwere mmasị na teknụzụ na DIY. Ọzọkwa, abụ m onye okike tecnobits.com, ebe m na-ekerịta nkuzi iji mee ka nkà na ụzụ nwetakwuo ohere na nghọta maka onye ọ bụla.