- ማይክሮሶፍት Phi-4-multimodal ድምጽን፣ ምስሎችን እና ፅሁፍን በአንድ ጊዜ የሚያስኬድ AI ሞዴልን አስጀምሯል።
- በ 5.600 ቢሊዮን መለኪያዎች, በድምጽ እና በእይታ ማወቂያ ውስጥ ትላልቅ ሞዴሎችን ይበልጣል.
- በቃላት ማቀናበሪያ ተግባራት ላይ ብቻ ያተኮረ Phi-4-miniን ያካትታል።
- በ Azure AI Foundry፣ Hugging Face እና በNVDIA ላይ ይገኛል፣ በንግድ እና በትምህርት ላይ ካሉ የተለያዩ አፕሊኬሽኖች ጋር።
ማይክሮሶፍት ከመልቲ ሞዳል Phi-4 ጋር በቋንቋ ሞዴሎች ዓለም ውስጥ አንድ እርምጃ ወደፊት ወስዷልጽሑፍን፣ ምስሎችን እና ድምጽን በአንድ ጊዜ ማቀናበር የሚችል የቅርብ ጊዜ እና እጅግ የላቀ አርቴፊሻል ኢንተለጀንስ። ይህ ሞዴል ከPhi-4-mini ጋር አንድ ላይ ይወክላል ሀ በአነስተኛ ሞዴሎች አቅም ውስጥ ዝግመተ ለውጥ (SLM)፣ ከፍተኛ መጠን ያላቸውን መለኪያዎች ሳያስፈልግ ቅልጥፍናን እና ትክክለኛነትን ይሰጣል።
የPhi-4-multimodal መምጣት የማይክሮሶፍት የቴክኖሎጂ መሻሻልን ብቻ ሳይሆን ጭምር ነው። እንደ ጎግል እና አንትሮፖኒክ ካሉ ትላልቅ ሞዴሎች ጋር በቀጥታ ይወዳደራል።. የእሱ የተመቻቸ አርክቴክቸር እና የላቀ የማመዛዘን ችሎታዎች ያደርጉታል። ለብዙ መተግበሪያዎች ማራኪ አማራጭ, ከማሽን ትርጉም ወደ ምስል እና ድምጽ ማወቂያ.
Phi-4-multimodal ምንድን ነው እና እንዴት ነው የሚሰራው?

Phi-4-multimodal ጽሑፍን፣ ምስሎችን እና ድምጽን በአንድ ጊዜ ማስኬድ የሚችል በማይክሮሶፍት የተሰራ የኤአይአይ ሞዴል ነው።. ይህ አርቲፊሻል ኢንተለጀንስ በአንድ ሞዳሊቲ ከሚሰሩ ባህላዊ ሞዴሎች በተለየ መልኩ የተለያዩ የመረጃ ምንጮችን ወደ አንድ የውክልና ቦታ ያዋህዳል፣ ይህም የመማሪያ ቴክኒኮችን በመጠቀም ነው።
ሞዴሉ በሥነ-ሕንፃ ላይ የተገነባ ነው። 5.600 ቢሊዮን መለኪያዎች, የተለያዩ የውሂብ አይነቶችን ለማዋሃድ LoRAs (ዝቅተኛ ደረጃ ማስማማት) በመባል የሚታወቅ ዘዴን በመጠቀም። ይህ በቋንቋ ሂደት ውስጥ የበለጠ ትክክለኛነት እና የአውድ አገባብ ጥልቅ ትርጓሜ እንዲኖር ያስችላል።
ቁልፍ ችሎታዎች እና ጥቅሞች
Phi-4-multimodal በተለይ ከፍተኛ ደረጃ ያለው አርቴፊሻል ኢንተለጀንስ በሚጠይቁ ቁልፍ ተግባራት ላይ ውጤታማ ነው።
- የንግግር ማወቂያ በግልባጭ እና በማሽን ትርጉም ሙከራዎች እንደ WhisperV3 ያሉ ልዩ ሞዴሎችን ይበልጣል።
- ምስል ማቀናበር፡ ሰነዶችን ፣ ግራፊክስን የመተርጎም እና OCRን በከፍተኛ ትክክለኛነት የማከናወን ችሎታ አለው።
- ዝቅተኛ የመዘግየት መረጃ፡ ይህ በሞባይል እና ዝቅተኛ ኃይል ባላቸው መሳሪያዎች ላይ አፈፃፀምን ሳያጠፋ እንዲሠራ ያስችለዋል.
- በቅንጅቶች መካከል እንከን የለሽ ውህደት; ጽሑፍን፣ ንግግርንና ምስሎችን አንድ ላይ የመረዳት ችሎታቸው ዐውደ-ጽሑፉን ያሻሽላሉ።
ከሌሎች ሞዴሎች ጋር ማወዳደር

በአፈጻጸም ረገድ, Phi-4-multimodal ከትላልቅ ሞዴሎች ጋር እኩል መሆኑን አረጋግጧል. ከ Gemini-2-Flash-lite እና Claude-3.5-Sonnet ጋር ሲነጻጸር, ለተጨናነቀ ዲዛይኑ ምስጋና ይግባውና የላቀ ቅልጥፍናን ጠብቆ በ መልቲሞዳል ተግባራት ውስጥ ተመሳሳይ ውጤቶችን ያገኛል።
ሆኖም ግን, በድምጽ ላይ የተመሰረቱ ጥያቄዎች እና መልሶች ላይ የተወሰኑ ገደቦችን ያቀርባል, እንደ GPT-4o እና Gemini-2.0-Flash ያሉ ሞዴሎች ጥቅም አላቸው. ይህ በአነስተኛ ሞዴል መጠን ምክንያት ነው. የእውነታ እውቀትን ማቆየት ላይ ተጽእኖ ያሳድራል. ማይክሮሶፍት ይህንን አቅም በቀጣይ ስሪቶች ለማሻሻል እየሰራ መሆኑን አመልክቷል።
Phi-4-mini፡ የPhi-4-multimodal ታናሽ ወንድም
ከPhi-4-multimodal ጋር ማይክሮሶፍት ስራ ጀምሯል። Phi-4-ሚኒለተወሰኑ ጽሑፍ-ተኮር ተግባራት የተመቻቸ ተለዋጭ። ይህ ሞዴል ለማቅረብ የተነደፈ ነው። በተፈጥሮ ቋንቋ ሂደት ውስጥ ከፍተኛ ብቃት፣ ለቻትቦቶች ፣ ለምናባዊ ረዳቶች እና ለሌሎች ትክክለኛ ግንዛቤ እና የፅሁፍ ማመንጨት ለሚፈልጉ አፕሊኬሽኖች ምቹ ያደርገዋል።
ተገኝነት እና መተግበሪያዎች

ማይክሮሶፍት Phi-4-multimodal እና Phi-4-mini ለገንቢዎች እንዲገኝ አድርጓል Azure AI Foundry፣ Hugging Face እና የNVIDIA ኤፒአይ ካታሎግ. ይህ ማለት ማንኛውም ኩባንያ ወይም ተጠቃሚ የእነዚህ መድረኮች መዳረሻ ያለው በአምሳያው ላይ መሞከር እና በተለያዩ ሁኔታዎች ውስጥ መተግበር ይችላል ማለት ነው።
ከመልቲ ሞዳል አገባቡ አንጻር፣ Phi-4 ነው። በመሳሰሉት ዘርፎች ላይ ያነጣጠረ:
- የማሽን ትርጉም እና የእውነተኛ ጊዜ የትርጉም ጽሑፍ።
- የሰነድ እውቅና እና ትንተና ለንግድ.
- የማሰብ ችሎታ ካላቸው ረዳቶች ጋር የሞባይል መተግበሪያዎች።
- AI ላይ የተመሠረተ ትምህርትን ለማሻሻል ትምህርታዊ ሞዴሎች።
ማይክሮሶፍት ሰጥቷል በውጤታማነት እና በመጠን ላይ በማተኮር ከእነዚህ ሞዴሎች ጋር አስደሳች ማዞር. በትናንሽ ቋንቋ ሞዴሎች (SLM) መስክ ውድድር እየጨመረ በመምጣቱ Phi-4-multimodal ለትልቅ ሞዴሎች እንደ አማራጭ አማራጭ ቀርቧል, በአፈፃፀም እና በማቀነባበር አቅም መካከል ያለውን ሚዛን ያቀርባል በአነስተኛ ኃይለኛ መሳሪያዎች ላይ እንኳን ተደራሽ ነው.
የ"ጂክ" ፍላጎቱን ወደ ሙያ የቀየረ የቴክኖሎጂ አድናቂ ነኝ። በህይወቴ ከ10 አመታት በላይ አሳልፌያለሁ እጅግ በጣም ጥሩ ቴክኖሎጂን በመጠቀም እና ሁሉንም አይነት ፕሮግራሞችን ከንፁህ የማወቅ ጉጉት የተነሳ። አሁን በኮምፒዩተር ቴክኖሎጂ እና በቪዲዮ ጨዋታዎች ላይ ተምሬያለሁ። ይህ የሆነበት ምክንያት ከ5 ዓመታት በላይ በተለያዩ ድረ-ገጾች በቴክኖሎጂ እና በቪዲዮ ጌሞች ላይ በመጻፍ የምትፈልገውን መረጃ ለሁሉም ሰው ሊረዳው በሚችል ቋንቋ እየጻፍኩ መጣሁ።
ማንኛውም አይነት ጥያቄ ካሎት እውቀቴ ከዊንዶውስ ኦፐሬቲንግ ሲስተም እንዲሁም አንድሮይድ ለሞባይል ጋር ከተያያዙ ነገሮች ሁሉ ይለያያል። እና የእኔ ቁርጠኝነት ለእርስዎ ነው፣ እኔ ሁል ጊዜ ጥቂት ደቂቃዎችን ለማሳለፍ እና በዚህ የበይነመረብ አለም ውስጥ ያሉዎትን ማንኛውንም ጥያቄዎች እንዲፈቱ ለመርዳት ፈቃደኛ ነኝ።