- വോയ്സ്, ഇമേജുകൾ, ടെക്സ്റ്റ് എന്നിവ ഒരേസമയം പ്രോസസ്സ് ചെയ്യുന്ന ഒരു AI മോഡലായ Phi-4-മൾട്ടിമോഡൽ മൈക്രോസോഫ്റ്റ് പുറത്തിറക്കി.
- 5.600 ബില്യൺ പാരാമീറ്ററുകൾ ഉള്ളതിനാൽ, ശബ്ദ, കാഴ്ച തിരിച്ചറിയലിൽ ഇത് വലിയ മോഡലുകളെ മറികടക്കുന്നു.
- വേഡ് പ്രോസസ്സിംഗ് ജോലികളിൽ മാത്രം ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്ന ഒരു പതിപ്പായ ഫൈ-4-മിനി ഉൾപ്പെടുന്നു.
- ബിസിനസ്സിലും വിദ്യാഭ്യാസത്തിലും വൈവിധ്യമാർന്ന ആപ്ലിക്കേഷനുകളുള്ള Azure AI Foundry, Hugging Face, NVIDIA എന്നിവയിൽ ലഭ്യമാണ്.
മൾട്ടിമോഡൽ ഫൈ-4 ഉപയോഗിച്ച് ഭാഷാ മോഡലുകളുടെ ലോകത്ത് മൈക്രോസോഫ്റ്റ് ഒരു ചുവടുവയ്പ്പ് നടത്തി., അതിന്റെ ഏറ്റവും പുതിയതും ഏറ്റവും നൂതനവുമായ കൃത്രിമബുദ്ധി ഉപയോഗിച്ച് വാചകം, ചിത്രങ്ങൾ, ശബ്ദം എന്നിവ ഒരേസമയം പ്രോസസ്സ് ചെയ്യാൻ കഴിയും. ഈ മോഡലും, ഫൈ-4-മിനിയും ചേർന്ന്, ഒരു ചെറിയ മോഡലുകളുടെ ശേഷിയിലെ പരിണാമം (SLM), വലിയ അളവിലുള്ള പാരാമീറ്ററുകളുടെ ആവശ്യമില്ലാതെ തന്നെ കാര്യക്ഷമതയും കൃത്യതയും വാഗ്ദാനം ചെയ്യുന്നു.
ഫൈ-4-മൾട്ടിമോഡലിന്റെ വരവ് മൈക്രോസോഫ്റ്റിന് ഒരു സാങ്കേതിക പുരോഗതിയെ മാത്രമല്ല പ്രതിനിധീകരിക്കുന്നത്, മാത്രമല്ല ഗൂഗിള്, ആന്ത്രോപിക് തുടങ്ങിയ വലിയ മോഡലുകളുമായി ഇത് നേരിട്ട് മത്സരിക്കുന്നു.. അതിന്റെ ഒപ്റ്റിമൈസ് ചെയ്ത ആർക്കിടെക്ചറും വിപുലമായ യുക്തിസഹമായ കഴിവുകളും അതിനെ ഒന്നിലധികം ആപ്ലിക്കേഷനുകൾക്കുള്ള ആകർഷകമായ ഓപ്ഷൻ, മെഷീൻ വിവർത്തനം മുതൽ ഇമേജ്, വോയ്സ് തിരിച്ചറിയൽ വരെ.
എന്താണ് ഫൈ-4-മൾട്ടിമോഡൽ, അത് എങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത്?

ടെക്സ്റ്റ്, ഇമേജുകൾ, ശബ്ദം എന്നിവ ഒരേസമയം പ്രോസസ്സ് ചെയ്യാൻ കഴിയുന്ന മൈക്രോസോഫ്റ്റ് വികസിപ്പിച്ചെടുത്ത ഒരു AI മോഡലാണ് Phi-4-മൾട്ടിമോഡൽ.. ഒരൊറ്റ മോഡാലിറ്റിയിൽ പ്രവർത്തിക്കുന്ന പരമ്പരാഗത മോഡലുകളിൽ നിന്ന് വ്യത്യസ്തമായി, ക്രോസ്-ലേണിംഗ് ടെക്നിക്കുകളുടെ ഉപയോഗത്തിന് നന്ദി, ഈ കൃത്രിമബുദ്ധി വിവിധ വിവര സ്രോതസ്സുകളെ ഒരൊറ്റ പ്രാതിനിധ്യ ഇടത്തിലേക്ക് സംയോജിപ്പിക്കുന്നു.
ഈ മാതൃക ഒരു ആർക്കിടെക്ചറിൽ നിർമ്മിച്ചിരിക്കുന്നു 5.600 ബില്യൺ പാരാമീറ്ററുകൾവ്യത്യസ്ത തരം ഡാറ്റ ലയിപ്പിക്കുന്നതിന് LoRAs (ലോ-റാങ്ക് അഡാപ്റ്റേഷനുകൾ) എന്നറിയപ്പെടുന്ന ഒരു സാങ്കേതികത ഉപയോഗിക്കുന്നു. ഇത് ഭാഷാ സംസ്കരണത്തിൽ കൂടുതൽ കൃത്യതയ്ക്കും സന്ദർഭത്തിന്റെ ആഴത്തിലുള്ള വ്യാഖ്യാനത്തിനും അനുവദിക്കുന്നു.
പ്രധാന കഴിവുകളും നേട്ടങ്ങളും
ഉയർന്ന തലത്തിലുള്ള കൃത്രിമബുദ്ധി ആവശ്യമുള്ള നിരവധി പ്രധാന ജോലികളിൽ ഫൈ-4-മൾട്ടിമോഡൽ പ്രത്യേകിച്ചും ഫലപ്രദമാണ്:
- സംഭാഷണ തിരിച്ചറിയൽ: ട്രാൻസ്ക്രിപ്ഷൻ, മെഷീൻ ട്രാൻസ്ലേഷൻ ടെസ്റ്റുകളിൽ വിസ്പർവി3 പോലുള്ള പ്രത്യേക മോഡലുകളെ ഇത് മറികടക്കുന്നു.
- ഇമേജ് പ്രോസസ്സിംഗ്: ഇത് വളരെ കൃത്യതയോടെ രേഖകൾ, ഗ്രാഫിക്സ് എന്നിവ വ്യാഖ്യാനിക്കാനും OCR നിർവഹിക്കാനും പ്രാപ്തമാണ്.
- കുറഞ്ഞ ലേറ്റൻസി അനുമാനം: പ്രകടനം നഷ്ടപ്പെടുത്താതെ മൊബൈലിലും കുറഞ്ഞ പവർ ഉപകരണങ്ങളിലും പ്രവർത്തിക്കാൻ ഇത് അനുവദിക്കുന്നു.
- രീതികൾ തമ്മിലുള്ള തടസ്സമില്ലാത്ത സംയോജനം: വാചകം, സംസാരം, ചിത്രങ്ങൾ എന്നിവ ഒരുമിച്ച് മനസ്സിലാക്കാനുള്ള അവരുടെ കഴിവ് അവരുടെ സന്ദർഭോചിതമായ യുക്തിയെ മെച്ചപ്പെടുത്തുന്നു.
മറ്റ് മോഡലുകളുമായുള്ള താരതമ്യം

പ്രകടനത്തിന്റെ കാര്യത്തിൽ, ഫൈ-4-മൾട്ടിമോഡൽ വലിയ മോഡലുകൾക്ക് തുല്യമാണെന്ന് തെളിയിക്കപ്പെട്ടിട്ടുണ്ട്. ജെമിനി-2-ഫ്ലാഷ്-ലൈറ്റ്, ക്ലോഡ്-3.5-സോണറ്റ് എന്നിവയുമായി താരതമ്യം ചെയ്യുമ്പോൾ, മൾട്ടിമോഡൽ ജോലികളിൽ സമാനമായ ഫലങ്ങൾ കൈവരിക്കുന്നു, അതേസമയം അതിന്റെ ഒതുക്കമുള്ള രൂപകൽപ്പനയ്ക്ക് നന്ദി, മികച്ച കാര്യക്ഷമത നിലനിർത്തുന്നു.
എന്നിരുന്നാലും, ശബ്ദാധിഷ്ഠിത ചോദ്യങ്ങളിലും ഉത്തരങ്ങളിലും ചില പരിമിതികൾ അവതരിപ്പിക്കുന്നു, GPT-4o, Gemini-2.0-Flash പോലുള്ള മോഡലുകൾക്ക് ഒരു നേട്ടമുണ്ട്. ഇതിന് കാരണം അതിന്റെ ചെറിയ മോഡൽ വലിപ്പമാണ്, വസ്തുതാപരമായ അറിവ് നിലനിർത്തുന്നതിനെ ബാധിക്കുന്നത്. ഭാവി പതിപ്പുകളിൽ ഈ ശേഷി മെച്ചപ്പെടുത്തുന്നതിനായി പ്രവർത്തിക്കുന്നതായി മൈക്രോസോഫ്റ്റ് സൂചിപ്പിച്ചു.
ഫൈ-4-മിനി: ഫൈ-4-മൾട്ടിമോഡലിന്റെ ഇളയ സഹോദരൻ
ഫൈ-4-മൾട്ടിമോഡലിനൊപ്പം, മൈക്രോസോഫ്റ്റ് ഫി-4-മിനി, നിർദ്ദിഷ്ട ടെക്സ്റ്റ് അധിഷ്ഠിത ജോലികൾക്കായി ഒപ്റ്റിമൈസ് ചെയ്ത ഒരു വകഭേദം. ഈ മോഡൽ വാഗ്ദാനം ചെയ്യുന്നതിനാണ് രൂപകൽപ്പന ചെയ്തിരിക്കുന്നത് സ്വാഭാവിക ഭാഷാ സംസ്കരണത്തിൽ ഉയർന്ന കാര്യക്ഷമത, ചാറ്റ്ബോട്ടുകൾ, വെർച്വൽ അസിസ്റ്റന്റുകൾ, കൃത്യമായ ധാരണയും ടെക്സ്റ്റ് ജനറേഷനും ആവശ്യമുള്ള മറ്റ് ആപ്ലിക്കേഷനുകൾ എന്നിവയ്ക്ക് ഇത് അനുയോജ്യമാക്കുന്നു.
ലഭ്യതയും ആപ്ലിക്കേഷനുകളും

മൈക്രോസോഫ്റ്റ് ഫൈ-4-മൾട്ടിമോഡലും ഫൈ-4-മിനിയും ഡെവലപ്പർമാർക്ക് ലഭ്യമാക്കിയിട്ടുണ്ട്. അസൂർ AI ഫൗണ്ടറി, ഹഗ്ഗിംഗ് ഫെയ്സ്, NVIDIA API കാറ്റലോഗ്. ഇതിനർത്ഥം, ഈ പ്ലാറ്റ്ഫോമുകളിലേക്ക് ആക്സസ് ഉള്ള ഏതൊരു കമ്പനിക്കോ ഉപയോക്താവിനോ ഈ മോഡൽ പരീക്ഷിച്ചുനോക്കാനും വ്യത്യസ്ത സാഹചര്യങ്ങളിൽ അത് പ്രയോഗിക്കാനും കഴിയും എന്നാണ്.
അതിന്റെ മൾട്ടിമോഡൽ സമീപനം കണക്കിലെടുക്കുമ്പോൾ, ഫൈ-4 എന്നത് പോലുള്ള മേഖലകളെ ലക്ഷ്യം വച്ചുള്ളതാണ്:
- മെഷീൻ വിവർത്തനവും തത്സമയ സബ്ടൈറ്റിലിംഗും.
- ബിസിനസുകൾക്കുള്ള പ്രമാണ തിരിച്ചറിയലും വിശകലനവും.
- ബുദ്ധിമാനായ സഹായികളുള്ള മൊബൈൽ ആപ്ലിക്കേഷനുകൾ.
- AI അധിഷ്ഠിത അധ്യാപനം മെച്ചപ്പെടുത്തുന്നതിനുള്ള വിദ്യാഭ്യാസ മാതൃകകൾ.
മൈക്രോസോഫ്റ്റ് ഒരു കാര്യക്ഷമതയിലും സ്കേലബിളിറ്റിയിലും ശ്രദ്ധ കേന്ദ്രീകരിച്ചുകൊണ്ട് ഈ മോഡലുകളിൽ രസകരമായ ഒരു ട്വിസ്റ്റ്. ചെറിയ ഭാഷാ മോഡലുകളുടെ (SLM) മേഖലയിലെ മത്സരം വർദ്ധിച്ചുവരുന്ന സാഹചര്യത്തിൽ, വലിയ മോഡലുകൾക്ക് ഒരു പ്രായോഗിക ബദലായി ഫൈ-4-മൾട്ടിമോഡൽ അവതരിപ്പിക്കുന്നു., പ്രകടനത്തിനും പ്രോസസ്സിംഗ് ശേഷിക്കും ഇടയിൽ ഒരു സന്തുലിതാവസ്ഥ വാഗ്ദാനം ചെയ്യുന്നു ശക്തി കുറഞ്ഞ ഉപകരണങ്ങളിൽ പോലും ആക്സസ് ചെയ്യാവുന്നതാണ്.
അവൻ്റെ "ഗീക്ക്" താൽപ്പര്യങ്ങൾ ഒരു തൊഴിലാക്കി മാറ്റിയ ഒരു സാങ്കേതിക തത്പരനാണ് ഞാൻ. എൻ്റെ ജീവിതത്തിൻ്റെ 10 വർഷത്തിലേറെ ഞാൻ അത്യാധുനിക സാങ്കേതികവിദ്യ ഉപയോഗിച്ചും ശുദ്ധമായ ജിജ്ഞാസയിൽ നിന്ന് എല്ലാത്തരം പ്രോഗ്രാമുകളും ഉപയോഗിച്ച് ചെലവഴിച്ചു. ഇപ്പോൾ ഞാൻ കമ്പ്യൂട്ടർ സാങ്കേതികവിദ്യയിലും വീഡിയോ ഗെയിമുകളിലും സ്പെഷ്യലൈസ് ചെയ്തിട്ടുണ്ട്. കാരണം, 5 വർഷത്തിലേറെയായി ഞാൻ സാങ്കേതികവിദ്യയിലും വീഡിയോ ഗെയിമുകളിലും വിവിധ വെബ്സൈറ്റുകൾക്കായി എഴുതുന്നു, എല്ലാവർക്കും മനസ്സിലാകുന്ന ഭാഷയിൽ നിങ്ങൾക്കാവശ്യമായ വിവരങ്ങൾ നൽകാൻ ശ്രമിക്കുന്ന ലേഖനങ്ങൾ സൃഷ്ടിക്കുന്നു.
നിങ്ങൾക്ക് എന്തെങ്കിലും ചോദ്യങ്ങളുണ്ടെങ്കിൽ, എൻ്റെ അറിവ് വിൻഡോസ് ഓപ്പറേറ്റിംഗ് സിസ്റ്റവുമായി ബന്ധപ്പെട്ട എല്ലാത്തിലും മൊബൈൽ ഫോണുകൾക്കായുള്ള ആൻഡ്രോയിഡുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു. എൻ്റെ പ്രതിബദ്ധത നിങ്ങളോടാണ്, ഈ ഇൻ്റർനെറ്റ് ലോകത്ത് നിങ്ങൾക്കുണ്ടായേക്കാവുന്ന ഏത് ചോദ്യങ്ങളും പരിഹരിക്കാൻ കുറച്ച് മിനിറ്റ് ചെലവഴിക്കാനും നിങ്ങളെ സഹായിക്കാനും ഞാൻ എപ്പോഴും തയ്യാറാണ്.