Microsoft Phi-4 බහුමාධ්‍ය: හඬ, රූප සහ පෙළ තේරුම් ගන්නා AI

අවසන් යාවත්කාලීන කිරීම: 27/02/2025

  • මයික්‍රොසොෆ්ට් විසින් හඬ, රූප සහ පෙළ එකවර සකසන AI ආකෘතියක් වන Phi-4-multimodal දියත් කරයි.
  • බිලියන 5.600 ක පරාමිතීන් සමඟින්, එය හඬ සහ දෘශ්‍ය හඳුනාගැනීමේදී විශාල මාදිලි අභිබවා යයි.
  • වචන සැකසුම් කාර්යයන් කෙරෙහි පමණක් අවධානය යොමු කරන ලද අනුවාදයක් වන Phi-4-mini ඇතුළත් වේ.
  • ව්‍යාපාර සහ අධ්‍යාපනයේ විවිධ යෙදුම් සමඟින් Azure AI Foundry, Hugging Face සහ NVIDIA වෙතින් ලබා ගත හැකිය.
Phi-4 බහුමාධ්‍ය-0 යනු කුමක්ද?

මයික්‍රොසොෆ්ට් බහුමාධ්‍ය Phi-4 සමඟින් භාෂා ආකෘති ලෝකයේ පියවරක් ඉදිරියට තබා ඇත., එහි නවතම සහ වඩාත්ම දියුණු කෘතිම බුද්ධිය, පෙළ, රූප සහ හඬ එකවර සැකසීමේ හැකියාව ඇත. මෙම ආකෘතිය, Phi-4-mini සමඟ එක්ව, නියෝජනය කරන්නේ a කුඩා ආකෘතිවල ධාරිතාවයේ පරිණාමය (SLM), විශාල පරාමිතීන් ප්‍රමාණයකින් තොරව කාර්යක්ෂමතාව සහ නිරවද්‍යතාවය ලබා දෙයි.

Phi-4-multimodal පැමිණීම මයික්‍රොසොෆ්ට් සඳහා තාක්ෂණික දියුණුවක් පමණක් නොව, එය ගූගල් සහ ඇන්ත්‍රොපික් වැනි විශාල මාදිලි සමඟ සෘජුවම තරඟ කරයි.. එහි ප්‍රශස්ත ගෘහ නිර්මාණ ශිල්පය සහ දියුණු තර්කන හැකියාවන් එය බවට පත් කරයි බහු යෙදුම් සඳහා ආකර්ශනීය විකල්පයක්, යන්ත්‍ර පරිවර්තනයේ සිට රූප සහ හඬ හඳුනාගැනීම දක්වා.

සුවිශේෂී අන්තර්ගතය - මෙහි ක්ලික් කරන්න  Gemini හි නව Material You විජට් Android වෙත පැමිණේ.

Phi-4-multimodal යනු කුමක්ද සහ එය ක්‍රියා කරන්නේ කෙසේද?

ෆයි-4 මයික්‍රොසොෆ්ට්

Phi-4-multimodal යනු මයික්‍රොසොෆ්ට් විසින් සංවර්ධනය කරන ලද AI ආකෘතියක් වන අතර එය එකවර පෙළ, රූප සහ හඬ සැකසිය හැකිය.. තනි මාදිලියක් සමඟ ක්‍රියා කරන සාම්ප්‍රදායික ආකෘති මෙන් නොව, මෙම කෘතිම බුද්ධිය හරස් ඉගෙනුම් ශිල්පීය ක්‍රම භාවිතයට ස්තූතිවන්ත වන පරිදි, විවිධ තොරතුරු මූලාශ්‍ර තනි නිරූපණ අවකාශයකට ඒකාබද්ධ කරයි.

ආකෘතිය ගොඩනගා ඇත්තේ ගෘහ නිර්මාණ ශිල්පයක් මත ය බිලියන 5.600 පරාමිති, විවිධ වර්ගයේ දත්ත ඒකාබද්ධ කිරීම සඳහා LoRAs (පහළ ශ්‍රේණියේ අනුවර්තනයන්) ලෙස හඳුන්වන තාක්ෂණයක් භාවිතා කරයි. මෙය භාෂා සැකසීමේදී වැඩි නිරවද්‍යතාවයක් සහ සන්දර්භය පිළිබඳ ගැඹුරු අර්ථකථනයක් සඳහා ඉඩ සලසයි.

ප්‍රධාන හැකියාවන් සහ ප්‍රතිලාභ

ඉහළ මට්ටමේ කෘතිම බුද්ධියක් අවශ්‍ය වන ප්‍රධාන කාර්යයන් කිහිපයකදී Phi-4-බහුමාධ්‍යය විශේෂයෙන් ඵලදායී වේ:

  • කථන හඳුනාගැනීම: පිටපත් කිරීමේ සහ යන්ත්‍ර පරිවර්තන පරීක්ෂණ වලදී එය WhisperV3 වැනි විශේෂිත මාදිලි අභිබවා යයි.
  • පින්තූර සැකසීම: එය ලේඛන, ග්‍රැෆික්ස් අර්ථ නිරූපණය කිරීමට සහ OCR ඉතා නිරවද්‍යතාවයෙන් සිදු කිරීමට හැකියාව ඇත.
  • අඩු ප්‍රමාද අනුමානය: මෙය කාර්ය සාධනය කැප නොකර ජංගම සහ අඩු බල උපාංග මත ක්‍රියාත්මක වීමට ඉඩ සලසයි.
  • ක්‍රම අතර බාධාවකින් තොරව ඒකාබද්ධ වීම: පෙළ, කථනය සහ රූප එක්ව තේරුම් ගැනීමේ හැකියාව ඔවුන්ගේ සන්දර්භීය තර්කනය වැඩි දියුණු කරයි.
සුවිශේෂී අන්තර්ගතය - මෙහි ක්ලික් කරන්න  AMD සහ Stability AI, Amuse 3.1 සමඟින් ලැප්ටොප් පරිගණකවල දේශීය AI විදැහුම්කරණයේ විප්ලවයක් ඇති කරයි.

වෙනත් මාදිලි සමඟ සංසන්දනය කිරීම

PHI-4-බහුමාධ්‍ය කාර්ය සාධනය

කාර්ය සාධනය අතින්, Phi-4-බහුමාධ්‍යය විශාල මාදිලි සමඟ සමාන බව ඔප්පු වී ඇත. Gemini-2-Flash-lite සහ Claude-3.5-Sonnet සමඟ සසඳන විට, බහුමාධ්‍ය කාර්යයන්හි සමාන ප්‍රතිඵල ලබා ගන්නා අතරම, එහි සංයුක්ත සැලසුම නිසා උසස් කාර්යක්ෂමතාවයක් පවත්වා ගනී.

කෙසේ වෙතත්, හඬ පාදක ප්‍රශ්න සහ පිළිතුරු වල යම් සීමාවන් ඉදිරිපත් කරයි, එහිදී GPT-4o සහ Gemini-2.0-Flash වැනි මාදිලිවලට වාසියක් ඇත. මෙයට හේතුව එහි කුඩා මාදිලියේ ප්‍රමාණයයි, සත්‍ය දැනුම රඳවා තබා ගැනීමට බලපාන. අනාගත අනුවාද වල මෙම හැකියාව වැඩිදියුණු කිරීමට කටයුතු කරන බව මයික්‍රොසොෆ්ට් පෙන්වා දී ඇත.

ෆයි-4-මිනි: ෆයි-4-බහුමාධ්‍යයේ බාල සහෝදරයා

Phi-4-multimodal සමඟින්, Microsoft විසින් ද දියත් කර ඇත ෆයි-4-මිනි, නිශ්චිත පෙළ-පාදක කාර්යයන් සඳහා ප්‍රශස්තිකරණය කරන ලද ප්‍රභේදයකි. මෙම ආකෘතිය ඉදිරිපත් කිරීමට නිර්මාණය කර ඇත ස්වභාවික භාෂා සැකසුම් ක්ෂේත්‍රයේ ඉහළ කාර්යක්ෂමතාවයක්, එය චැට්බෝට්, අතථ්‍ය සහායකයින් සහ නිවැරදි අවබෝධය සහ පෙළ උත්පාදනය අවශ්‍ය අනෙකුත් යෙදුම් සඳහා වඩාත් සුදුසු වේ.

ලබා ගත හැකි බව සහ යෙදුම්

Phi-4 බහුමාධ්‍ය-5 යනු කුමක්ද?

මයික්‍රොසොෆ්ට් විසින් Phi-4-multimodal සහ Phi-4-mini සංවර්ධකයින්ට ලබා දී ඇත Azure AI Foundry, Hugging Face, සහ NVIDIA API නාමාවලිය. මෙයින් අදහස් කරන්නේ මෙම වේදිකාවලට ප්‍රවේශය ඇති ඕනෑම සමාගමකට හෝ පරිශීලකයෙකුට ආකෘතිය සමඟ අත්හදා බැලීම සහ විවිධ අවස්ථා වලදී එය යෙදීම ආරම්භ කළ හැකි බවයි.

සුවිශේෂී අන්තර්ගතය - මෙහි ක්ලික් කරන්න  Gemma 3n: ඕනෑම උපාංගයකට උසස් AI ගෙන ඒම සඳහා Google හි නව ව්‍යාපාරය

එහි බහුමාධ්‍ය ප්‍රවේශය අනුව, Phi-4 යනු වැනි අංශ ඉලක්ක කර ගනිමින්:

  • යන්ත්‍ර පරිවර්තනය සහ තත්‍ය කාලීන උපසිරැසිකරණය.
  • ව්‍යාපාර සඳහා ලේඛන හඳුනාගැනීම සහ විශ්ලේෂණය.
  • බුද්ධිමත් සහායකයින් සහිත ජංගම යෙදුම්.
  • AI පාදක ඉගැන්වීම වැඩිදියුණු කිරීම සඳහා අධ්‍යාපනික ආකෘති.

මයික්‍රොසොෆ්ට් විසින් ලබා දී ඇත්තේ කාර්යක්ෂමතාව සහ පරිමාණය කෙරෙහි අවධානය යොමු කිරීමෙන් මෙම ආකෘති සමඟ සිත්ගන්නාසුලු පෙරළියක්. කුඩා භාෂා ආකෘති (SLM) ක්ෂේත්‍රයේ තරඟකාරිත්වය වැඩි වීමත් සමඟ, විශාල මාදිලි සඳහා ශක්‍ය විකල්පයක් ලෙස Phi-4-බහුමාධ්‍යය ඉදිරිපත් කෙරේ., කාර්ය සාධනය සහ සැකසුම් ධාරිතාව අතර තුලනයක් ලබා දීම අඩු බලවත් උපාංග මත පවා ප්‍රවේශ විය හැකිය.