- Họrọ na nkebi: nke mbụ ngwa ngwa injinia, emesia ntughari ngwa ngwa, ma ọ bụrụ na ọ dị mkpa, nhazigharị nke ọma.
- RAG na-akwalite nzaghachi site na iweghachite semantic; ngwa ngwa ziri ezi na-egbochi ịhụ anya.
- Ogo data na ntule na-aga n'ihu dị mkpa karịa otu aghụghọ ọ bụla.
Oke n'etiti Ihe ị na-enweta site na mkpali dị mma yana ihe ị na-enweta site na imezigharị ihe nlereanya Ọ dị aghụghọ karịa ka ọ dị, mana ịghọta ya na-eme ka ọdịiche dị n'etiti nzaghachi mediocre na sistemụ bara uru n'ezie. N'ime ntuziaka a, m ga-egosi gị, na ihe atụ na ntụnyere, otu esi ahọrọ na ikpokọta usoro ọ bụla iji nweta nsonaazụ siri ike na ọrụ ụwa.
Ebumnuche abụghị ịnọrọ na tiori, kama itinye ya n'ọrụ kwa ụbọchị: mgbe injinịa ngwa ngwa ma ọ bụ nzigharị ngwa ngwa ezuru gị, Kedu mgbe ọ bara uru itinye ego na ngbanwe dị mma?, Kedu ka ihe ndị a niile si adaba na mmiri RAG, na ihe omume kachasị mma na-ebelata ụgwọ ọrụ, mee ka ọ dịkwuo ngwa ngwa, ma zere ịbanye na njedebe nwụrụ anwụ.
Kedu ihe bụ injinia ngwa ngwa, nlegharị anya ngwa ngwa, na nzigharị nke ọma?
Tupu anyị aga n'ihu, ka anyị dokwuo anya ụfọdụ echiche:
- Injinia ngwa ngwa bụ nka nke imepụta ntuziaka doro anya nwere nkọwapụta nke ọma na atụmanya. iji duzie ihe atụ a zụrụlarị. Na a nkata, dị ka ọmụmaatụ, na-akọwa ọrụ, ụda, mmepụta usoro, na ihe atụ iji belata ambiguity na melite izi ezi na-enweghị emetụ ihe nlereanya arọ.
- Ndozi nke ọma na-agbanwe parampat dị n'ime nke ụdị a zụrụ azụ yana data agbakwunyere na ngalaba. imeziwanye arụmọrụ gị na ọrụ ndị akọwapụtara. Ọ dị mma mgbe ịchọrọ nkọwa okwu pụrụ iche, mkpebi siri ike, ma ọ bụ izi ezi kachasị na mpaghara ndị nwere mmetụta (nlekọta ahụike, iwu, ego).
- Ndozi ngwa ngwa na-agbakwụnye vectors nwere ike inye ọzụzụ (mkpụrụ obi dị nro) nke ihe nlereanya ahụ na-atụgharị n'akụkụ ederede ntinyeỌ naghị azụghachi ihe nlereanya ahụ dum: ọ na-eme ka ọ dị arọ ma na-ebuli naanị ndị agbakwunyere "egwu." Ọ bụ ebe etiti na-arụ ọrụ nke ọma mgbe ịchọrọ ịmegharị omume na-enweghị ọnụ ahịa nlegharị anya zuru oke.
N'ime imewe UX/UI, injinia ngwa ngwa na-emeziwanye nghọta nke mmekọrịta mmadụ na kọmpụta (ihe m tụrụ anya ya na otu m si arịọ ya), ebe ndozigharị dị mma na-abawanye mkpa na nkwekọ nke mmepụta. Ejikọtara, nye ohere ka ndị ọzọ bara uru, ngwa ngwa na interfaces a pụrụ ịdabere na ya.
Injinia ngwa ngwa na omimi: usoro na-ebugharị agịga
Injinia ngwa ngwa abụghị maka nnwale kpuru ìsì. Enwere usoro usoro na-emeziwanye ogo na-emetụghị ihe nlereanya ahụ ma ọ bụ data ntọala gị:
- Obere-gbara vs efu-shot. na ole na ole-agba Ị na-agbakwụnye ihe atụ ole na ole ahọpụtara nke ọma ka ihe nlereanya ahụ wee jide ụkpụrụ ahụ kpọmkwem; n'ime efu-shot Ị dabere na ntuziaka doro anya na taxonomies na-enweghị atụ.
- Ngosipụta na ọnọdụ. Gosipụta usoro a tụrụ anya ya (ntinye → mmepụta) jiri obere ụzọ abụọ. Nke a na-ebelata mperi nhazi ma kwado atụmanya, ọkachasị ma ọ bụrụ na ịchọrọ mpaghara, akara, ma ọ bụ ụdị na nzaghachi.
- Ụdị na mgbanweKọwaa mkpali na ndị na-edebe ebe maka ịgbanwe data. Mkpali dị omimi bụ isi mgbe nhazi ntinye dị iche iche, dịka ọmụmaatụ, n'ụdị nhicha data ma ọ bụ nchacha ebe ndekọ ọ bụla rutere n'ụdị dị iche.
- Ndị na-ekwu okwuHa bụ "ndị ntụgharị" n'etiti oghere ederede nke ụdị na ụdị azụmahịa gị (dịka ọmụmaatụ, eserese "obi ụtọ" → "ezigbo"). Ịhọrọ ndị na-ekwu okwu nke ọma na-eme ka akara aha ziri ezi na nkwụsi ike, karịsịa na nyocha mmetụta na nhazi isiokwu.
- Eriri ngwa ngwa (yinye ngwa ngwa). Kewaa ọrụ dị mgbagwoju anya n'ime usoro: chịkọta → wepụ metrik → nyochaa mmetụta. Ịmekọ usoro ọnụ na-eme ka usoro ahụ dịkwuo njọ ma sie ike, ma na-emekarị ka mma tụnyere "ịjụ ihe niile n'otu oge."
- Omume nhazi nke ọma: akara ọrụ ("Ị bụ onye nyocha ..."), na-akọwa ụdị ("zaghachi na tebụl / JSON"), guzobe njirisi nyocha ("na-enye ntaramahụhụ, na-ekwupụta isi mmalite mgbe ha dị") ma kọwaa ihe ị ga-eme ma ọ bụrụ na ejighị n'aka (dịka, "ọ bụrụ na data na-efu, gosi 'amaghị'").
Ngwa mmezi ngwa ngwa
Na mgbakwunye na mkpali sitere n'okike, nlegharị anya ngwa ngwa na-agụnye mkpali dị nro (ihe ndị a na-azụ azụ) na-ebute ụzọ ntinye. N'oge ọzụzụ, gradient na-edozi vector ndị ahụ iji weta mmepụta nso na ebumnuche. na-enweghị emetụta ihe nlereanya nke ọzọ arọ. Ọ bara uru mgbe ịchọrọ ibugharị na ọnụ ala dị ala.
Ị na-ebugote LLM (dịka ọmụmaatụ, GPT-2 ma ọ bụ ihe yiri ya), kwado ihe atụ gị na ị na-akwado mkpali dị nro maka ntinye ọ bụlaỊ na-azụ naanị ihe mgbakwunye ndị ahụ, yabụ ihe nlereanya ahụ "na-ahụ" mmalite mmalite nke na-eduzi omume ya na ọrụ gị.
Ngwa bara uru: Na chatbot ọrụ ndị ahịa, ị nwere ike ịgụnye usoro ajụjụ a na-ahụkarị na ụda nzaghachi dị mma na mkpali dị nro. Nke a na-eme ngwa ngwa na-eme mgbanwe na-enweghị ịnọgide na-enwe alaka dị iche iche nke ụdị. ma ọ bụ iri GPU karịa.
Ndozi nlegharị anya dị omimi: mgbe, otu, yana ịkpachara anya
Ndozi nlegharị anya dị mma (akụkụ ma ọ bụ kpam kpam) ịdị arọ nke LLM nwere dataset ebumnuche. ka ọ bụrụ ọkachamara. Nke a bụ ụzọ kachasị mma mgbe ọrụ ahụ si n'ihe nlereanya ahụ hụrụ n'oge ọzụzụ ọzụzụ ma ọ bụ na-achọ okwu na mkpebi dị mma.
Ị naghị ebido na slate oghere: ụdị akparịta ụka na-ege ntị dị ka gpt-3.5-turbo Edozila ha ka ha soro ntuziaka. Nlegharị anya gị dị mma "na-aza" omume ahụ, nke nwere ike ịbụ aghụghọ na nke a na-ejighị n'aka, n'ihi ya, ọ bụ ihe dị mma ịnwale na nhazi nke usoro na ntinye.
Ụfọdụ nyiwe na-enye gị ohere ịkenye ụda dị mma n'otu nke dị. Nke a na-ewusi akara ngosi bara uru na ọnụ ala dị ala. ịmaliteghachi n'ọtọ, ma na-eme ka ntinye aka na-eduzi ugboro ugboro.
Usoro dị mma dị ka LoRA tinye matrices dị ala iji megharia ihe nlereanya na nkeji ọhụrụ ole na ole. Uru: obere oriri, agile deployments na reversibility (ị nwere ike "wepụ" mmegharị ahụ na-emetụghị isi ihe).
Ntule: ngwa ngwa n'iji ya gee ntị vs mma n'iji ya gee ntị
- ProcesoNdozi nlegharị anya dị mma na-emelite ihe ọ̀tụ̀tụ̀ dị arọ nke nwere akara dataset ebumnobi aha; ngwa ngwa n'iji ya gee ntị na-eme ka ihe nlereanya ahụ kwụsịchaa ma na-edozi naanị ihe ntinye a na-azụ azụ na-ejikọta na ntinye; injinia ngwa ngwa na-ebuli ederede nkuzi na ihe atụ a zụrụ azụ.
- Ịtọ ntọalaNa ngbanwe nke ọma, ị na-agbanwe netwọkụ; na ngbanwe ngwa ngwa, ị na-emetụ naanị "mkpụrụ obi dị nro." Na injinia ngwa ngwa, enweghị nlegharị anya parametric, naanị imewe.
- Usoro ntinyeNdozigharị nke ọma na-asọpụrụ usoro izizi; nlegharị anya ngwa ngwa na-emegharị ntinye na ntinye na ndebiri; injinia ngwa ngwa na-eme ka asụsụ okike ahaziri ahazi (ọrụ, ihe mgbochi, ọmụmaatụ).
- IheNdozi nke ọma dị oke ọnụ (mgbakọ, data, na oge); nzigharị ngwa ngwa na-arụ ọrụ nke ọma; injinia ngwa ngwa bụ nke dị ọnụ ala na nke kachasị ngwa ngwa ịmegharị ma ọ bụrụ na ikpe ahụ kwere.
- Ebumnuche na ihe egwuNdozi nke ọma na-ebuli ọrụ ahụ ozugbo, na-ewepụ ihe ize ndụ nke imebiga ihe ókè; nzigharị ngwa ngwa dabara n'ihe a mụtaworo na LLM; Injinia ngwa ngwa na-ebelata ihe nhụsianya na nhazi nhazi site na omume kachasị mma na-emetụghị ihe nlereanya ahụ aka.
Data na ngwaọrụ: mmanụ ọkụ nke arụmọrụ
- Ogo data mbụ: ọgwụgwọ, deduplication, itule, ihu ikpe mkpuchi na metadata bara ụba Ha bụ 80% nke nsonaazụ ya, ma ị na-eme nhazi nke ọma ma ọ bụ nlegharị anya ozugbo.
- Megharịa pipeline: ikpo okwu injinia data maka generative AI (dịka, ngwọta na-emepụta ngwaahịa data reusable) nyere aka ijikọ, gbanwee, nyefee na nyochaa datasets maka ọzụzụ na nyocha. Echiche dị ka "Nexsets" na-egosi otu esi etinye data dị njikere maka oriri ụdị.
- loop nzaghachi: Chịkọta akara ngosi ojiji ụwa n'ezie (ihe ịga nke ọma, njehie, ajụjụ a na-ajụkarị) wee zighachi ha na mkpali gị, mkpali dị nro, ma ọ bụ datasets gị. Ọ bụ ụzọ kacha ọsọ iji nweta izi ezi.
- reproducibility: Ntugharị ụdịdị, mkpali dị nro, data na nha ahaziri ahazi. Enweghị traceability, ọ gaghị ekwe omume ịmata ihe gbanwere arụmọrụ ma ọ bụ ịlaghachi n'ọnọdụ dị mma ma ọ bụrụ na iteration dara.
- IzugbeMgbe ị na-agbasa ọrụ ma ọ bụ asụsụ, hụ na ndị na-ekwu okwu gị, ihe atụ, na akara aha ahazibeghị nke ọma na ngalaba akọwapụtara. Ọ bụrụ na ị na-agbanwe vetikal, ọ nwere ike ịdị mkpa ka ịmee nlegharị anya nke ọma ma ọ bụ jiri mkpali dị nro ọhụrụ.
- Kedu ihe ma ọ bụrụ na m gbanwee ngwa ngwa ka emechara nke ọma? N'ozuzu, ee: ihe nlereanya kwesịrị infer ụdị na omume site na ihe ọ mụtara, ọ bụghị naanị ikwugharị tokens. Nke ahụ bụ kpọmkwem isi nke injin inference.
- Jiri metrik mechie loopE wezụga izi ezi, ọ na-atụ nhazi nhazi, mkpuchi, ngụ isi iyi na RAG, yana afọ ojuju onye ọrụ. Ihe a na-atụghị atụ anaghị eme nke ọma.
Ịhọrọ n'etiti mkpali, nlegharị anya ngwa ngwa na imezigharị nke ọma abụghị ihe gbasara nkuzi kama ọ bụ ihe gbara ya gburugburu.: ọnụ ahịa, ọnụ ọgụgụ oge, ihe egwu nke njehie, nnweta data, yana mkpa maka nka. Ọ bụrụ na ị na-akụtu ihe ndị a, teknụzụ ga-arụ ọrụ maka ọdịmma gị, ọ bụghị n'ụzọ ọzọ.
Onye nchịkọta akụkọ ọkachamara na teknụzụ na okwu ịntanetị nwere ahụmahụ karịa afọ iri na mgbasa ozi dijitalụ dị iche iche. Arụla m ọrụ dị ka onye nchịkọta akụkọ na onye na-emepụta ọdịnaya maka e-azụmahịa, nkwurịta okwu, ịzụ ahịa n'ịntanetị na ụlọ ọrụ mgbasa ozi. Edewokwa m akwụkwọ na webụsaịtị akụ na ụba, ego na ngalaba ndị ọzọ. Ọrụ m bụkwa agụụ m. Ugbu a, site na akụkọ m na Tecnobits, M na-agbalị ịchọpụta akụkọ niile na ohere ọhụrụ nke ụwa nke nkà na ụzụ na-enye anyị kwa ụbọchị iji meziwanye ndụ anyị.