മൈക്രോസോഫ്റ്റ് ഫൈ-4 മൾട്ടിമോഡൽ: ശബ്ദം, ചിത്രങ്ങൾ, വാചകം എന്നിവ മനസ്സിലാക്കുന്ന AI

അവസാന പരിഷ്കാരം: 27/02/2025

  • വോയ്‌സ്, ഇമേജുകൾ, ടെക്സ്റ്റ് എന്നിവ ഒരേസമയം പ്രോസസ്സ് ചെയ്യുന്ന ഒരു AI മോഡലായ Phi-4-മൾട്ടിമോഡൽ മൈക്രോസോഫ്റ്റ് പുറത്തിറക്കി.
  • 5.600 ബില്യൺ പാരാമീറ്ററുകൾ ഉള്ളതിനാൽ, ശബ്ദ, കാഴ്ച തിരിച്ചറിയലിൽ ഇത് വലിയ മോഡലുകളെ മറികടക്കുന്നു.
  • വേഡ് പ്രോസസ്സിംഗ് ജോലികളിൽ മാത്രം ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്ന ഒരു പതിപ്പായ ഫൈ-4-മിനി ഉൾപ്പെടുന്നു.
  • ബിസിനസ്സിലും വിദ്യാഭ്യാസത്തിലും വൈവിധ്യമാർന്ന ആപ്ലിക്കേഷനുകളുള്ള Azure AI Foundry, Hugging Face, NVIDIA എന്നിവയിൽ ലഭ്യമാണ്.
എന്താണ് Phi-4 മൾട്ടിമോഡൽ-0

മൾട്ടിമോഡൽ ഫൈ-4 ഉപയോഗിച്ച് ഭാഷാ മോഡലുകളുടെ ലോകത്ത് മൈക്രോസോഫ്റ്റ് ഒരു ചുവടുവയ്പ്പ് നടത്തി., അതിന്റെ ഏറ്റവും പുതിയതും ഏറ്റവും നൂതനവുമായ കൃത്രിമബുദ്ധി ഉപയോഗിച്ച് വാചകം, ചിത്രങ്ങൾ, ശബ്ദം എന്നിവ ഒരേസമയം പ്രോസസ്സ് ചെയ്യാൻ കഴിയും. ഈ മോഡലും, ഫൈ-4-മിനിയും ചേർന്ന്, ഒരു ചെറിയ മോഡലുകളുടെ ശേഷിയിലെ പരിണാമം (SLM), വലിയ അളവിലുള്ള പാരാമീറ്ററുകളുടെ ആവശ്യമില്ലാതെ തന്നെ കാര്യക്ഷമതയും കൃത്യതയും വാഗ്ദാനം ചെയ്യുന്നു.

ഫൈ-4-മൾട്ടിമോഡലിന്റെ വരവ് മൈക്രോസോഫ്റ്റിന് ഒരു സാങ്കേതിക പുരോഗതിയെ മാത്രമല്ല പ്രതിനിധീകരിക്കുന്നത്, മാത്രമല്ല ഗൂഗിള്‍, ആന്ത്രോപിക് തുടങ്ങിയ വലിയ മോഡലുകളുമായി ഇത് നേരിട്ട് മത്സരിക്കുന്നു.. അതിന്റെ ഒപ്റ്റിമൈസ് ചെയ്ത ആർക്കിടെക്ചറും വിപുലമായ യുക്തിസഹമായ കഴിവുകളും അതിനെ ഒന്നിലധികം ആപ്ലിക്കേഷനുകൾക്കുള്ള ആകർഷകമായ ഓപ്ഷൻ, മെഷീൻ വിവർത്തനം മുതൽ ഇമേജ്, വോയ്‌സ് തിരിച്ചറിയൽ വരെ.

എക്സ്ക്ലൂസീവ് ഉള്ളടക്കം - ഇവിടെ ക്ലിക്ക് ചെയ്യുക  ജെമിനിയുടെ പുതിയ മെറ്റീരിയൽ യു വിഡ്ജറ്റുകൾ ആൻഡ്രോയിഡിൽ എത്തുന്നു.

എന്താണ് ഫൈ-4-മൾട്ടിമോഡൽ, അത് എങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത്?

ഫൈ-4 മൈക്രോസോഫ്റ്റ്

ടെക്സ്റ്റ്, ഇമേജുകൾ, ശബ്ദം എന്നിവ ഒരേസമയം പ്രോസസ്സ് ചെയ്യാൻ കഴിയുന്ന മൈക്രോസോഫ്റ്റ് വികസിപ്പിച്ചെടുത്ത ഒരു AI മോഡലാണ് Phi-4-മൾട്ടിമോഡൽ.. ഒരൊറ്റ മോഡാലിറ്റിയിൽ പ്രവർത്തിക്കുന്ന പരമ്പരാഗത മോഡലുകളിൽ നിന്ന് വ്യത്യസ്തമായി, ക്രോസ്-ലേണിംഗ് ടെക്നിക്കുകളുടെ ഉപയോഗത്തിന് നന്ദി, ഈ കൃത്രിമബുദ്ധി വിവിധ വിവര സ്രോതസ്സുകളെ ഒരൊറ്റ പ്രാതിനിധ്യ ഇടത്തിലേക്ക് സംയോജിപ്പിക്കുന്നു.

ഈ മാതൃക ഒരു ആർക്കിടെക്ചറിൽ നിർമ്മിച്ചിരിക്കുന്നു 5.600 ബില്യൺ പാരാമീറ്ററുകൾവ്യത്യസ്ത തരം ഡാറ്റ ലയിപ്പിക്കുന്നതിന് LoRAs (ലോ-റാങ്ക് അഡാപ്റ്റേഷനുകൾ) എന്നറിയപ്പെടുന്ന ഒരു സാങ്കേതികത ഉപയോഗിക്കുന്നു. ഇത് ഭാഷാ സംസ്കരണത്തിൽ കൂടുതൽ കൃത്യതയ്ക്കും സന്ദർഭത്തിന്റെ ആഴത്തിലുള്ള വ്യാഖ്യാനത്തിനും അനുവദിക്കുന്നു.

പ്രധാന കഴിവുകളും നേട്ടങ്ങളും

ഉയർന്ന തലത്തിലുള്ള കൃത്രിമബുദ്ധി ആവശ്യമുള്ള നിരവധി പ്രധാന ജോലികളിൽ ഫൈ-4-മൾട്ടിമോഡൽ പ്രത്യേകിച്ചും ഫലപ്രദമാണ്:

  • സംഭാഷണ തിരിച്ചറിയൽ: ട്രാൻസ്ക്രിപ്ഷൻ, മെഷീൻ ട്രാൻസ്ലേഷൻ ടെസ്റ്റുകളിൽ വിസ്പർവി3 പോലുള്ള പ്രത്യേക മോഡലുകളെ ഇത് മറികടക്കുന്നു.
  • ഇമേജ് പ്രോസസ്സിംഗ്: ഇത് വളരെ കൃത്യതയോടെ രേഖകൾ, ഗ്രാഫിക്സ് എന്നിവ വ്യാഖ്യാനിക്കാനും OCR നിർവഹിക്കാനും പ്രാപ്തമാണ്.
  • കുറഞ്ഞ ലേറ്റൻസി അനുമാനം: പ്രകടനം നഷ്ടപ്പെടുത്താതെ മൊബൈലിലും കുറഞ്ഞ പവർ ഉപകരണങ്ങളിലും പ്രവർത്തിക്കാൻ ഇത് അനുവദിക്കുന്നു.
  • രീതികൾ തമ്മിലുള്ള തടസ്സമില്ലാത്ത സംയോജനം: വാചകം, സംസാരം, ചിത്രങ്ങൾ എന്നിവ ഒരുമിച്ച് മനസ്സിലാക്കാനുള്ള അവരുടെ കഴിവ് അവരുടെ സന്ദർഭോചിതമായ യുക്തിയെ മെച്ചപ്പെടുത്തുന്നു.
എക്സ്ക്ലൂസീവ് ഉള്ളടക്കം - ഇവിടെ ക്ലിക്ക് ചെയ്യുക  അമ്യൂസ് 3.1 ഉപയോഗിച്ച് ലാപ്‌ടോപ്പുകളിലെ പ്രാദേശിക AI റെൻഡറിംഗിൽ വിപ്ലവം സൃഷ്ടിക്കുകയാണ് എഎംഡിയും സ്റ്റെബിലിറ്റി AIയും.

മറ്റ് മോഡലുകളുമായുള്ള താരതമ്യം

PHI-4-മൾട്ടിമോഡൽ പ്രകടനം

പ്രകടനത്തിന്റെ കാര്യത്തിൽ, ഫൈ-4-മൾട്ടിമോഡൽ വലിയ മോഡലുകൾക്ക് തുല്യമാണെന്ന് തെളിയിക്കപ്പെട്ടിട്ടുണ്ട്. ജെമിനി-2-ഫ്ലാഷ്-ലൈറ്റ്, ക്ലോഡ്-3.5-സോണറ്റ് എന്നിവയുമായി താരതമ്യം ചെയ്യുമ്പോൾ, മൾട്ടിമോഡൽ ജോലികളിൽ സമാനമായ ഫലങ്ങൾ കൈവരിക്കുന്നു, അതേസമയം അതിന്റെ ഒതുക്കമുള്ള രൂപകൽപ്പനയ്ക്ക് നന്ദി, മികച്ച കാര്യക്ഷമത നിലനിർത്തുന്നു.

എന്നിരുന്നാലും, ശബ്ദാധിഷ്ഠിത ചോദ്യങ്ങളിലും ഉത്തരങ്ങളിലും ചില പരിമിതികൾ അവതരിപ്പിക്കുന്നു, GPT-4o, Gemini-2.0-Flash പോലുള്ള മോഡലുകൾക്ക് ഒരു നേട്ടമുണ്ട്. ഇതിന് കാരണം അതിന്റെ ചെറിയ മോഡൽ വലിപ്പമാണ്, വസ്തുതാപരമായ അറിവ് നിലനിർത്തുന്നതിനെ ബാധിക്കുന്നത്. ഭാവി പതിപ്പുകളിൽ ഈ ശേഷി മെച്ചപ്പെടുത്തുന്നതിനായി പ്രവർത്തിക്കുന്നതായി മൈക്രോസോഫ്റ്റ് സൂചിപ്പിച്ചു.

ഫൈ-4-മിനി: ഫൈ-4-മൾട്ടിമോഡലിന്റെ ഇളയ സഹോദരൻ

ഫൈ-4-മൾട്ടിമോഡലിനൊപ്പം, മൈക്രോസോഫ്റ്റ് ഫി-4-മിനി, നിർദ്ദിഷ്ട ടെക്സ്റ്റ് അധിഷ്ഠിത ജോലികൾക്കായി ഒപ്റ്റിമൈസ് ചെയ്ത ഒരു വകഭേദം. ഈ മോഡൽ വാഗ്ദാനം ചെയ്യുന്നതിനാണ് രൂപകൽപ്പന ചെയ്തിരിക്കുന്നത് സ്വാഭാവിക ഭാഷാ സംസ്കരണത്തിൽ ഉയർന്ന കാര്യക്ഷമത, ചാറ്റ്ബോട്ടുകൾ, വെർച്വൽ അസിസ്റ്റന്റുകൾ, കൃത്യമായ ധാരണയും ടെക്സ്റ്റ് ജനറേഷനും ആവശ്യമുള്ള മറ്റ് ആപ്ലിക്കേഷനുകൾ എന്നിവയ്ക്ക് ഇത് അനുയോജ്യമാക്കുന്നു.

ലഭ്യതയും ആപ്ലിക്കേഷനുകളും

എന്താണ് Phi-4 മൾട്ടിമോഡൽ-5

മൈക്രോസോഫ്റ്റ് ഫൈ-4-മൾട്ടിമോഡലും ഫൈ-4-മിനിയും ഡെവലപ്പർമാർക്ക് ലഭ്യമാക്കിയിട്ടുണ്ട്. അസൂർ AI ഫൗണ്ടറി, ഹഗ്ഗിംഗ് ഫെയ്സ്, NVIDIA API കാറ്റലോഗ്. ഇതിനർത്ഥം, ഈ പ്ലാറ്റ്‌ഫോമുകളിലേക്ക് ആക്‌സസ് ഉള്ള ഏതൊരു കമ്പനിക്കോ ഉപയോക്താവിനോ ഈ മോഡൽ പരീക്ഷിച്ചുനോക്കാനും വ്യത്യസ്ത സാഹചര്യങ്ങളിൽ അത് പ്രയോഗിക്കാനും കഴിയും എന്നാണ്.

എക്സ്ക്ലൂസീവ് ഉള്ളടക്കം - ഇവിടെ ക്ലിക്ക് ചെയ്യുക  ജെമ്മ 3n: ഏതൊരു ഉപകരണത്തിലും നൂതന AI കൊണ്ടുവരാനുള്ള ഗൂഗിളിന്റെ പുതിയ സംരംഭം.

അതിന്റെ മൾട്ടിമോഡൽ സമീപനം കണക്കിലെടുക്കുമ്പോൾ, ഫൈ-4 എന്നത് പോലുള്ള മേഖലകളെ ലക്ഷ്യം വച്ചുള്ളതാണ്:

  • മെഷീൻ വിവർത്തനവും തത്സമയ സബ്ടൈറ്റിലിംഗും.
  • ബിസിനസുകൾക്കുള്ള പ്രമാണ തിരിച്ചറിയലും വിശകലനവും.
  • ബുദ്ധിമാനായ സഹായികളുള്ള മൊബൈൽ ആപ്ലിക്കേഷനുകൾ.
  • AI അധിഷ്ഠിത അധ്യാപനം മെച്ചപ്പെടുത്തുന്നതിനുള്ള വിദ്യാഭ്യാസ മാതൃകകൾ.

മൈക്രോസോഫ്റ്റ് ഒരു കാര്യക്ഷമതയിലും സ്കേലബിളിറ്റിയിലും ശ്രദ്ധ കേന്ദ്രീകരിച്ചുകൊണ്ട് ഈ മോഡലുകളിൽ രസകരമായ ഒരു ട്വിസ്റ്റ്. ചെറിയ ഭാഷാ മോഡലുകളുടെ (SLM) മേഖലയിലെ മത്സരം വർദ്ധിച്ചുവരുന്ന സാഹചര്യത്തിൽ, വലിയ മോഡലുകൾക്ക് ഒരു പ്രായോഗിക ബദലായി ഫൈ-4-മൾട്ടിമോഡൽ അവതരിപ്പിക്കുന്നു., പ്രകടനത്തിനും പ്രോസസ്സിംഗ് ശേഷിക്കും ഇടയിൽ ഒരു സന്തുലിതാവസ്ഥ വാഗ്ദാനം ചെയ്യുന്നു ശക്തി കുറഞ്ഞ ഉപകരണങ്ങളിൽ പോലും ആക്‌സസ് ചെയ്യാവുന്നതാണ്.