- माइक्रोसफ्टले फाइ-४-मल्टिमोडल लन्च गर्यो, एउटा एआई मोडेल जसले आवाज, छवि र पाठ एकैसाथ प्रशोधन गर्छ।
- ५.६ अर्ब प्यारामिटरहरूको साथ, यसले आवाज र दृष्टि पहिचानमा ठूला मोडेलहरूलाई पछाडि पार्छ।
- Phi-4-mini समावेश छ, जुन विशेष रूपमा शब्द प्रशोधन कार्यहरूमा केन्द्रित संस्करण हो।
- व्यवसाय र शिक्षामा विविध अनुप्रयोगहरू सहित, Azure AI फाउन्ड्री, Hugging Face, र NVIDIA मा उपलब्ध छ।
माइक्रोसफ्टले मल्टिमोडल Phi-4 को साथ भाषा मोडेलको संसारमा एक कदम अगाडि बढाएको छ।, यसको नवीनतम र सबैभन्दा उन्नत कृत्रिम बुद्धिमत्ता जसले पाठ, छवि र आवाज एकै साथ प्रशोधन गर्न सक्षम छ। यो मोडेल, Phi-4-mini सँगसँगै, a को प्रतिनिधित्व गर्दछ साना मोडेलहरूको क्षमतामा विकास (SLM), ठूलो मात्रामा प्यारामिटरहरूको आवश्यकता बिना दक्षता र शुद्धता प्रदान गर्दै।
Phi-4-मल्टिमोडलको आगमनले माइक्रोसफ्टको लागि प्राविधिक सुधार मात्र होइन, तर यसले गुगल र एन्थ्रोपिक जस्ता ठूला मोडेलहरूसँग प्रत्यक्ष प्रतिस्पर्धा गर्छ।। यसको अनुकूलित वास्तुकला र उन्नत तर्क क्षमताहरूले यसलाई बनाउँछ धेरै अनुप्रयोगहरूको लागि एक आकर्षक विकल्प, मेसिन अनुवाद देखि छवि र आवाज पहिचान सम्म।
Phi-4-मल्टिमोडल के हो र यसले कसरी काम गर्छ?

Phi-4-मल्टिमोडल माइक्रोसफ्टद्वारा विकसित एक एआई मोडेल हो जसले एकै साथ पाठ, छवि र आवाज प्रशोधन गर्न सक्छ।। एउटै मोडालिटीमा काम गर्ने परम्परागत मोडेलहरूको विपरीत, यो कृत्रिम बुद्धिमत्ताले क्रस-लर्निङ प्रविधिहरूको प्रयोगको लागि धन्यवाद, जानकारीका विभिन्न स्रोतहरूलाई एउटै प्रतिनिधित्व ठाउँमा एकीकृत गर्दछ।
यो मोडेल वास्तुकलामा निर्मित छ 5.600 बिलियन प्यारामिटरहरू, विभिन्न प्रकारका डेटा मर्ज गर्न LoRAs (लो-रैंक अनुकूलन) भनेर चिनिने प्रविधि प्रयोग गर्दै। यसले भाषा प्रशोधनमा अझ बढी परिशुद्धता र सन्दर्भको गहिरो व्याख्याको लागि अनुमति दिन्छ।
प्रमुख क्षमताहरू र फाइदाहरू
Phi-4-मल्टिमोडल उच्च स्तरको कृत्रिम बुद्धिमत्ता आवश्यक पर्ने धेरै प्रमुख कार्यहरूमा विशेष गरी प्रभावकारी छ:
- बोली मान्यता: यसले ट्रान्सक्रिप्शन र मेसिन अनुवाद परीक्षणहरूमा WhisperV3 जस्ता विशेष मोडेलहरूलाई पछाडि पार्छ।
- छवि प्रशोधन: यो कागजातहरू, ग्राफिक्सहरू व्याख्या गर्न र ठूलो शुद्धताका साथ OCR प्रदर्शन गर्न सक्षम छ।
- कम विलम्बता अनुमान: यसले यसलाई प्रदर्शनमा कुनै कमी नल्याएर मोबाइल र कम-शक्ति भएका उपकरणहरूमा चलाउन अनुमति दिन्छ।
- मोडालिटीहरू बीच निर्बाध एकीकरण: पाठ, बोली र छविहरू एकसाथ बुझ्ने उनीहरूको क्षमताले उनीहरूको प्रासंगिक तर्कलाई सुधार गर्छ।
अन्य मोडेल संग तुलना

कार्यसम्पादनको हिसाबले, Phi-4-मल्टिमोडल ठूला मोडेलहरूसँग बराबर साबित भएको छ। जेमिनी-२-फ्ल्याश-लाइट र क्लाउड-३.५-सनेटको तुलनामा, यसको कम्प्याक्ट डिजाइनको कारणले गर्दा उच्च दक्षता कायम राख्दै, बहु-मोडल कार्यहरूमा समान परिणामहरू प्राप्त गर्दछ।
यद्यपि, आवाजमा आधारित प्रश्न र उत्तरहरूमा केही सीमितताहरू प्रस्तुत गर्दछ, जहाँ GPT-4o र Gemini-2.0-Flash जस्ता मोडेलहरूको फाइदा छ। यो यसको सानो मोडेल आकारको कारणले हो, जसले तथ्यात्मक ज्ञानको अवधारणलाई असर गर्छ। माइक्रोसफ्टले भविष्यका संस्करणहरूमा यो क्षमता सुधार गर्न काम गरिरहेको संकेत गरेको छ।
फि-४-मिनी: फि-४-मल्टिमोडलको सानो भाइ
Phi-4-मल्टिमोडलसँगै, माइक्रोसफ्टले पनि सुरु गरेको छ Phi-4-mini, विशिष्ट पाठ-आधारित कार्यहरूको लागि अनुकूलित संस्करण। यो मोडेल प्रस्ताव गर्न डिजाइन गरिएको हो प्राकृतिक भाषा प्रशोधनमा उच्च दक्षता, यसलाई च्याटबटहरू, भर्चुअल सहायकहरू, र अन्य अनुप्रयोगहरूको लागि आदर्श बनाउँछ जसलाई सही बुझाइ र पाठको उत्पादन आवश्यक पर्दछ।
उपलब्धता र अनुप्रयोगहरू

माइक्रोसफ्टले Phi-4-मल्टिमोडल र Phi-4-मिनी विकासकर्ताहरूलाई उपलब्ध गराएको छ Azure AI फाउन्ड्री, हगिङ फेस, र NVIDIA API क्याटलग। यसको अर्थ यी प्लेटफर्महरूमा पहुँच भएको कुनै पनि कम्पनी वा प्रयोगकर्ताले मोडेलको प्रयोग गर्न र विभिन्न परिदृश्यहरूमा यसलाई लागू गर्न सुरु गर्न सक्छन्।
यसको बहुआयामिक दृष्टिकोणलाई ध्यानमा राख्दै, Phi-4 हो जस्ता क्षेत्रहरूलाई लक्षित गरी:
- मेसिन अनुवाद र वास्तविक-समय उपशीर्षक।
- व्यवसायहरूको लागि कागजात पहिचान र विश्लेषण।
- बुद्धिमान सहायकहरू सहितको मोबाइल अनुप्रयोगहरू।
- एआई-आधारित शिक्षण सुधार गर्न शैक्षिक मोडेलहरू।
माइक्रोसफ्टले दिएको छ दक्षता र स्केलेबिलिटीमा ध्यान केन्द्रित गरेर यी मोडेलहरूमा रोचक मोड़। साना भाषा मोडेल (SLM) को क्षेत्रमा बढ्दो प्रतिस्पर्धासँगै, Phi-4-मल्टिमोडललाई ठूला मोडेलहरूको व्यवहार्य विकल्पको रूपमा प्रस्तुत गरिएको छ।, प्रदर्शन र प्रशोधन क्षमता बीच सन्तुलन प्रदान गर्दै कम शक्तिशाली उपकरणहरूमा पनि पहुँचयोग्य.
म एक टेक्नोलोजी उत्साही हुँ जसले आफ्नो "गीक" रुचिहरूलाई पेशामा परिणत गरेको छ। मैले मेरो जीवनको 10 भन्दा बढी वर्ष अत्याधुनिक प्रविधिको प्रयोग गरेर र शुद्ध जिज्ञासाका सबै प्रकारका कार्यक्रमहरूसँग टिंकरिङ गर्दै बिताएको छु। अब मैले कम्प्युटर प्रविधि र भिडियो गेमहरूमा विशेषज्ञता हासिल गरेको छु। यो किनभने 5 वर्ष भन्दा बढी समय देखि मैले टेक्नोलोजी र भिडियो गेमहरूमा विभिन्न वेबसाइटहरूको लागि लेख्दै आएको छु, सबैले बुझ्न सक्ने भाषामा तपाईंलाई आवश्यक जानकारी दिन खोज्ने लेखहरू सिर्जना गर्दैछु।
यदि तपाइँसँग कुनै प्रश्नहरू छन् भने, मेरो ज्ञान विन्डोज अपरेटिङ सिस्टम र मोबाइल फोनहरूको लागि एन्ड्रोइडसँग सम्बन्धित सबै कुराबाट दायरा हो। र मेरो प्रतिबद्धता तपाईंप्रति छ, म सधैं केही मिनेटहरू खर्च गर्न र तपाईंलाई यस इन्टरनेट संसारमा हुन सक्ने कुनै पनि प्रश्नहरूको समाधान गर्न मद्दत गर्न तयार छु।