ማይክሮሶፍት Phi-4 መልቲሞዳል፡ ድምጽን፣ ምስሎችን እና ጽሑፎችን የሚረዳ AI

የመጨረሻው ዝመና 27/02/2025

  • ማይክሮሶፍት Phi-4-multimodal ድምጽን፣ ምስሎችን እና ፅሁፍን በአንድ ጊዜ የሚያስኬድ AI ሞዴልን አስጀምሯል።
  • በ 5.600 ቢሊዮን መለኪያዎች, በድምጽ እና በእይታ ማወቂያ ውስጥ ትላልቅ ሞዴሎችን ይበልጣል.
  • በቃላት ማቀናበሪያ ተግባራት ላይ ብቻ ያተኮረ Phi-4-miniን ያካትታል።
  • በ Azure AI Foundry፣ Hugging Face እና በNVDIA ላይ ይገኛል፣ በንግድ እና በትምህርት ላይ ካሉ የተለያዩ አፕሊኬሽኖች ጋር።
Phi-4 መልቲሞዳል-0 ምንድን ነው?

ማይክሮሶፍት ከመልቲ ሞዳል Phi-4 ጋር በቋንቋ ሞዴሎች ዓለም ውስጥ አንድ እርምጃ ወደፊት ወስዷልጽሑፍን፣ ምስሎችን እና ድምጽን በአንድ ጊዜ ማቀናበር የሚችል የቅርብ ጊዜ እና እጅግ የላቀ አርቴፊሻል ኢንተለጀንስ። ይህ ሞዴል ከPhi-4-mini ጋር አንድ ላይ ይወክላል ሀ በአነስተኛ ሞዴሎች አቅም ውስጥ ዝግመተ ለውጥ (SLM)፣ ከፍተኛ መጠን ያላቸውን መለኪያዎች ሳያስፈልግ ቅልጥፍናን እና ትክክለኛነትን ይሰጣል።

የPhi-4-multimodal መምጣት የማይክሮሶፍት የቴክኖሎጂ መሻሻልን ብቻ ሳይሆን ጭምር ነው። እንደ ጎግል እና አንትሮፖኒክ ካሉ ትላልቅ ሞዴሎች ጋር በቀጥታ ይወዳደራል።. የእሱ የተመቻቸ አርክቴክቸር እና የላቀ የማመዛዘን ችሎታዎች ያደርጉታል። ለብዙ መተግበሪያዎች ማራኪ አማራጭ, ከማሽን ትርጉም ወደ ምስል እና ድምጽ ማወቂያ.

ልዩ ይዘት - እዚህ ጠቅ ያድርጉ  የ Alexa ምላሽ መልዕክቶችን እንዴት ማዋቀር ይቻላል?

Phi-4-multimodal ምንድን ነው እና እንዴት ነው የሚሰራው?

Phi-4 ማይክሮሶፍት

Phi-4-multimodal ጽሑፍን፣ ምስሎችን እና ድምጽን በአንድ ጊዜ ማስኬድ የሚችል በማይክሮሶፍት የተሰራ የኤአይአይ ሞዴል ነው።. ይህ አርቲፊሻል ኢንተለጀንስ በአንድ ሞዳሊቲ ከሚሰሩ ባህላዊ ሞዴሎች በተለየ መልኩ የተለያዩ የመረጃ ምንጮችን ወደ አንድ የውክልና ቦታ ያዋህዳል፣ ይህም የመማሪያ ቴክኒኮችን በመጠቀም ነው።

ሞዴሉ በሥነ-ሕንፃ ላይ የተገነባ ነው። 5.600 ቢሊዮን መለኪያዎች, የተለያዩ የውሂብ አይነቶችን ለማዋሃድ LoRAs (ዝቅተኛ ደረጃ ማስማማት) በመባል የሚታወቅ ዘዴን በመጠቀም። ይህ በቋንቋ ሂደት ውስጥ የበለጠ ትክክለኛነት እና የአውድ አገባብ ጥልቅ ትርጓሜ እንዲኖር ያስችላል።

ቁልፍ ችሎታዎች እና ጥቅሞች

Phi-4-multimodal በተለይ ከፍተኛ ደረጃ ያለው አርቴፊሻል ኢንተለጀንስ በሚጠይቁ ቁልፍ ተግባራት ላይ ውጤታማ ነው።

  • የንግግር ማወቂያ በግልባጭ እና በማሽን ትርጉም ሙከራዎች እንደ WhisperV3 ያሉ ልዩ ሞዴሎችን ይበልጣል።
  • ምስል ማቀናበር፡ ሰነዶችን ፣ ግራፊክስን የመተርጎም እና OCRን በከፍተኛ ትክክለኛነት የማከናወን ችሎታ አለው።
  • ዝቅተኛ የመዘግየት መረጃ፡ ይህ በሞባይል እና ዝቅተኛ ኃይል ባላቸው መሳሪያዎች ላይ አፈፃፀምን ሳያጠፋ እንዲሠራ ያስችለዋል.
  • በቅንጅቶች መካከል እንከን የለሽ ውህደት; ጽሑፍን፣ ንግግርንና ምስሎችን አንድ ላይ የመረዳት ችሎታቸው ዐውደ-ጽሑፉን ያሻሽላሉ።
ልዩ ይዘት - እዚህ ጠቅ ያድርጉ  በአንድሮይድ ላይ ከ NotebookLM ምርጡን ለማግኘት ምርጡ ዘዴዎች፡ የተሟላ መመሪያ

ከሌሎች ሞዴሎች ጋር ማወዳደር

PHI-4-ባለብዙ ሞዳል አፈጻጸም

በአፈጻጸም ረገድ, Phi-4-multimodal ከትላልቅ ሞዴሎች ጋር እኩል መሆኑን አረጋግጧል. ከ Gemini-2-Flash-lite እና Claude-3.5-Sonnet ጋር ሲነጻጸር, ለተጨናነቀ ዲዛይኑ ምስጋና ይግባውና የላቀ ቅልጥፍናን ጠብቆ በ መልቲሞዳል ተግባራት ውስጥ ተመሳሳይ ውጤቶችን ያገኛል።

ሆኖም ግን, በድምጽ ላይ የተመሰረቱ ጥያቄዎች እና መልሶች ላይ የተወሰኑ ገደቦችን ያቀርባል, እንደ GPT-4o እና Gemini-2.0-Flash ያሉ ሞዴሎች ጥቅም አላቸው. ይህ በአነስተኛ ሞዴል መጠን ምክንያት ነው. የእውነታ እውቀትን ማቆየት ላይ ተጽእኖ ያሳድራል. ማይክሮሶፍት ይህንን አቅም በቀጣይ ስሪቶች ለማሻሻል እየሰራ መሆኑን አመልክቷል።

Phi-4-mini፡ የPhi-4-multimodal ታናሽ ወንድም

ከPhi-4-multimodal ጋር ማይክሮሶፍት ስራ ጀምሯል። Phi-4-ሚኒለተወሰኑ ጽሑፍ-ተኮር ተግባራት የተመቻቸ ተለዋጭ። ይህ ሞዴል ለማቅረብ የተነደፈ ነው። በተፈጥሮ ቋንቋ ሂደት ውስጥ ከፍተኛ ብቃት፣ ለቻትቦቶች ፣ ለምናባዊ ረዳቶች እና ለሌሎች ትክክለኛ ግንዛቤ እና የፅሁፍ ማመንጨት ለሚፈልጉ አፕሊኬሽኖች ምቹ ያደርገዋል።

ተገኝነት እና መተግበሪያዎች

Phi-4 መልቲሞዳል-5 ምንድን ነው?

ማይክሮሶፍት Phi-4-multimodal እና Phi-4-mini ለገንቢዎች እንዲገኝ አድርጓል Azure AI Foundry፣ Hugging Face እና የNVIDIA ኤፒአይ ካታሎግ. ይህ ማለት ማንኛውም ኩባንያ ወይም ተጠቃሚ የእነዚህ መድረኮች መዳረሻ ያለው በአምሳያው ላይ መሞከር እና በተለያዩ ሁኔታዎች ውስጥ መተግበር ይችላል ማለት ነው።

ልዩ ይዘት - እዚህ ጠቅ ያድርጉ  Goku AI፡ ሁሉም ስለ የላቀ ቪዲዮ-ማመንጨት AI

ከመልቲ ሞዳል አገባቡ አንጻር፣ Phi-4 ነው። በመሳሰሉት ዘርፎች ላይ ያነጣጠረ:

  • የማሽን ትርጉም እና የእውነተኛ ጊዜ የትርጉም ጽሑፍ።
  • የሰነድ እውቅና እና ትንተና ለንግድ.
  • የማሰብ ችሎታ ካላቸው ረዳቶች ጋር የሞባይል መተግበሪያዎች።
  • AI ላይ የተመሠረተ ትምህርትን ለማሻሻል ትምህርታዊ ሞዴሎች።

ማይክሮሶፍት ሰጥቷል በውጤታማነት እና በመጠን ላይ በማተኮር ከእነዚህ ሞዴሎች ጋር አስደሳች ማዞር. በትናንሽ ቋንቋ ሞዴሎች (SLM) መስክ ውድድር እየጨመረ በመምጣቱ Phi-4-multimodal ለትልቅ ሞዴሎች እንደ አማራጭ አማራጭ ቀርቧል, በአፈፃፀም እና በማቀነባበር አቅም መካከል ያለውን ሚዛን ያቀርባል በአነስተኛ ኃይለኛ መሳሪያዎች ላይ እንኳን ተደራሽ ነው.