- මයික්රොසොෆ්ට් විසින් හඬ, රූප සහ පෙළ එකවර සකසන AI ආකෘතියක් වන Phi-4-multimodal දියත් කරයි.
- බිලියන 5.600 ක පරාමිතීන් සමඟින්, එය හඬ සහ දෘශ්ය හඳුනාගැනීමේදී විශාල මාදිලි අභිබවා යයි.
- වචන සැකසුම් කාර්යයන් කෙරෙහි පමණක් අවධානය යොමු කරන ලද අනුවාදයක් වන Phi-4-mini ඇතුළත් වේ.
- ව්යාපාර සහ අධ්යාපනයේ විවිධ යෙදුම් සමඟින් Azure AI Foundry, Hugging Face සහ NVIDIA වෙතින් ලබා ගත හැකිය.
මයික්රොසොෆ්ට් බහුමාධ්ය Phi-4 සමඟින් භාෂා ආකෘති ලෝකයේ පියවරක් ඉදිරියට තබා ඇත., එහි නවතම සහ වඩාත්ම දියුණු කෘතිම බුද්ධිය, පෙළ, රූප සහ හඬ එකවර සැකසීමේ හැකියාව ඇත. මෙම ආකෘතිය, Phi-4-mini සමඟ එක්ව, නියෝජනය කරන්නේ a කුඩා ආකෘතිවල ධාරිතාවයේ පරිණාමය (SLM), විශාල පරාමිතීන් ප්රමාණයකින් තොරව කාර්යක්ෂමතාව සහ නිරවද්යතාවය ලබා දෙයි.
Phi-4-multimodal පැමිණීම මයික්රොසොෆ්ට් සඳහා තාක්ෂණික දියුණුවක් පමණක් නොව, එය ගූගල් සහ ඇන්ත්රොපික් වැනි විශාල මාදිලි සමඟ සෘජුවම තරඟ කරයි.. එහි ප්රශස්ත ගෘහ නිර්මාණ ශිල්පය සහ දියුණු තර්කන හැකියාවන් එය බවට පත් කරයි බහු යෙදුම් සඳහා ආකර්ශනීය විකල්පයක්, යන්ත්ර පරිවර්තනයේ සිට රූප සහ හඬ හඳුනාගැනීම දක්වා.
Phi-4-multimodal යනු කුමක්ද සහ එය ක්රියා කරන්නේ කෙසේද?

Phi-4-multimodal යනු මයික්රොසොෆ්ට් විසින් සංවර්ධනය කරන ලද AI ආකෘතියක් වන අතර එය එකවර පෙළ, රූප සහ හඬ සැකසිය හැකිය.. තනි මාදිලියක් සමඟ ක්රියා කරන සාම්ප්රදායික ආකෘති මෙන් නොව, මෙම කෘතිම බුද්ධිය හරස් ඉගෙනුම් ශිල්පීය ක්රම භාවිතයට ස්තූතිවන්ත වන පරිදි, විවිධ තොරතුරු මූලාශ්ර තනි නිරූපණ අවකාශයකට ඒකාබද්ධ කරයි.
ආකෘතිය ගොඩනගා ඇත්තේ ගෘහ නිර්මාණ ශිල්පයක් මත ය බිලියන 5.600 පරාමිති, විවිධ වර්ගයේ දත්ත ඒකාබද්ධ කිරීම සඳහා LoRAs (පහළ ශ්රේණියේ අනුවර්තනයන්) ලෙස හඳුන්වන තාක්ෂණයක් භාවිතා කරයි. මෙය භාෂා සැකසීමේදී වැඩි නිරවද්යතාවයක් සහ සන්දර්භය පිළිබඳ ගැඹුරු අර්ථකථනයක් සඳහා ඉඩ සලසයි.
ප්රධාන හැකියාවන් සහ ප්රතිලාභ
ඉහළ මට්ටමේ කෘතිම බුද්ධියක් අවශ්ය වන ප්රධාන කාර්යයන් කිහිපයකදී Phi-4-බහුමාධ්යය විශේෂයෙන් ඵලදායී වේ:
- කථන හඳුනාගැනීම: පිටපත් කිරීමේ සහ යන්ත්ර පරිවර්තන පරීක්ෂණ වලදී එය WhisperV3 වැනි විශේෂිත මාදිලි අභිබවා යයි.
- පින්තූර සැකසීම: එය ලේඛන, ග්රැෆික්ස් අර්ථ නිරූපණය කිරීමට සහ OCR ඉතා නිරවද්යතාවයෙන් සිදු කිරීමට හැකියාව ඇත.
- අඩු ප්රමාද අනුමානය: මෙය කාර්ය සාධනය කැප නොකර ජංගම සහ අඩු බල උපාංග මත ක්රියාත්මක වීමට ඉඩ සලසයි.
- ක්රම අතර බාධාවකින් තොරව ඒකාබද්ධ වීම: පෙළ, කථනය සහ රූප එක්ව තේරුම් ගැනීමේ හැකියාව ඔවුන්ගේ සන්දර්භීය තර්කනය වැඩි දියුණු කරයි.
වෙනත් මාදිලි සමඟ සංසන්දනය කිරීම

කාර්ය සාධනය අතින්, Phi-4-බහුමාධ්යය විශාල මාදිලි සමඟ සමාන බව ඔප්පු වී ඇත. Gemini-2-Flash-lite සහ Claude-3.5-Sonnet සමඟ සසඳන විට, බහුමාධ්ය කාර්යයන්හි සමාන ප්රතිඵල ලබා ගන්නා අතරම, එහි සංයුක්ත සැලසුම නිසා උසස් කාර්යක්ෂමතාවයක් පවත්වා ගනී.
කෙසේ වෙතත්, හඬ පාදක ප්රශ්න සහ පිළිතුරු වල යම් සීමාවන් ඉදිරිපත් කරයි, එහිදී GPT-4o සහ Gemini-2.0-Flash වැනි මාදිලිවලට වාසියක් ඇත. මෙයට හේතුව එහි කුඩා මාදිලියේ ප්රමාණයයි, සත්ය දැනුම රඳවා තබා ගැනීමට බලපාන. අනාගත අනුවාද වල මෙම හැකියාව වැඩිදියුණු කිරීමට කටයුතු කරන බව මයික්රොසොෆ්ට් පෙන්වා දී ඇත.
ෆයි-4-මිනි: ෆයි-4-බහුමාධ්යයේ බාල සහෝදරයා
Phi-4-multimodal සමඟින්, Microsoft විසින් ද දියත් කර ඇත ෆයි-4-මිනි, නිශ්චිත පෙළ-පාදක කාර්යයන් සඳහා ප්රශස්තිකරණය කරන ලද ප්රභේදයකි. මෙම ආකෘතිය ඉදිරිපත් කිරීමට නිර්මාණය කර ඇත ස්වභාවික භාෂා සැකසුම් ක්ෂේත්රයේ ඉහළ කාර්යක්ෂමතාවයක්, එය චැට්බෝට්, අතථ්ය සහායකයින් සහ නිවැරදි අවබෝධය සහ පෙළ උත්පාදනය අවශ්ය අනෙකුත් යෙදුම් සඳහා වඩාත් සුදුසු වේ.
ලබා ගත හැකි බව සහ යෙදුම්

මයික්රොසොෆ්ට් විසින් Phi-4-multimodal සහ Phi-4-mini සංවර්ධකයින්ට ලබා දී ඇත Azure AI Foundry, Hugging Face, සහ NVIDIA API නාමාවලිය. මෙයින් අදහස් කරන්නේ මෙම වේදිකාවලට ප්රවේශය ඇති ඕනෑම සමාගමකට හෝ පරිශීලකයෙකුට ආකෘතිය සමඟ අත්හදා බැලීම සහ විවිධ අවස්ථා වලදී එය යෙදීම ආරම්භ කළ හැකි බවයි.
එහි බහුමාධ්ය ප්රවේශය අනුව, Phi-4 යනු වැනි අංශ ඉලක්ක කර ගනිමින්:
- යන්ත්ර පරිවර්තනය සහ තත්ය කාලීන උපසිරැසිකරණය.
- ව්යාපාර සඳහා ලේඛන හඳුනාගැනීම සහ විශ්ලේෂණය.
- බුද්ධිමත් සහායකයින් සහිත ජංගම යෙදුම්.
- AI පාදක ඉගැන්වීම වැඩිදියුණු කිරීම සඳහා අධ්යාපනික ආකෘති.
මයික්රොසොෆ්ට් විසින් ලබා දී ඇත්තේ කාර්යක්ෂමතාව සහ පරිමාණය කෙරෙහි අවධානය යොමු කිරීමෙන් මෙම ආකෘති සමඟ සිත්ගන්නාසුලු පෙරළියක්. කුඩා භාෂා ආකෘති (SLM) ක්ෂේත්රයේ තරඟකාරිත්වය වැඩි වීමත් සමඟ, විශාල මාදිලි සඳහා ශක්ය විකල්පයක් ලෙස Phi-4-බහුමාධ්යය ඉදිරිපත් කෙරේ., කාර්ය සාධනය සහ සැකසුම් ධාරිතාව අතර තුලනයක් ලබා දීම අඩු බලවත් උපාංග මත පවා ප්රවේශ විය හැකිය.
මම ඔහුගේ "ගීක්" අවශ්යතා වෘත්තියක් බවට පත් කරගත් තාක්ෂණ ලෝලියෙකි. මම මගේ ජීවිතයේ වසර 10 කට වඩා වැඩි කාලයක් ගත කර ඇත්තේ නවීන තාක්ෂණය භාවිතා කරමින් සහ පිරිසිදු කුතුහලයෙන් සියලු වර්ගවල වැඩසටහන් සමඟ ටින්කර් කිරීමෙනි. දැන් මම පරිගණක තාක්ෂණය සහ වීඩියෝ ක්රීඩා පිළිබඳ විශේෂඥයෙක්. මක්නිසාද යත්, මම වසර 5 කට වැඩි කාලයක් තාක්ෂණය සහ වීඩියෝ ක්රීඩා පිළිබඳ විවිධ වෙබ් අඩවි සඳහා ලිවීමට කටයුතු කරමින්, ඔබට අවශ්ය තොරතුරු සෑම කෙනෙකුටම තේරුම් ගත හැකි භාෂාවකින් ලබා දීමට උත්සාහ කරන ලිපි නිර්මාණය කරමි.
ඔබට කිසියම් ප්රශ්නයක් ඇත්නම්, මගේ දැනුම වින්ඩෝස් මෙහෙයුම් පද්ධතියට මෙන්ම ජංගම දුරකථන සඳහා වන ඇන්ඩ්රොයිඩ් හා සම්බන්ධ සෑම දෙයකින්ම විහිදේ. ඒ වගේම මගේ කැපවීම ඔබටයි, මම සෑම විටම මිනිත්තු කිහිපයක් ගත කිරීමට සහ ඔබට මෙම අන්තර්ජාල ලෝකයේ ඇති ඕනෑම ප්රශ්නයක් විසඳීමට උදව් කිරීමට කැමැත්තෙමි.