- ਮਾਈਕ੍ਰੋਸਾਫਟ ਨੇ ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਲਾਂਚ ਕੀਤਾ, ਇੱਕ ਏਆਈ ਮਾਡਲ ਜੋ ਇੱਕੋ ਸਮੇਂ ਆਵਾਜ਼, ਤਸਵੀਰਾਂ ਅਤੇ ਟੈਕਸਟ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਦਾ ਹੈ।
- 5.600 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਦੇ ਨਾਲ, ਇਹ ਆਵਾਜ਼ ਅਤੇ ਦ੍ਰਿਸ਼ਟੀ ਪਛਾਣ ਵਿੱਚ ਵੱਡੇ ਮਾਡਲਾਂ ਨੂੰ ਪਛਾੜਦਾ ਹੈ।
- ਫਾਈ-4-ਮਿਨੀ ਸ਼ਾਮਲ ਹੈ, ਇੱਕ ਸੰਸਕਰਣ ਜੋ ਵਿਸ਼ੇਸ਼ ਤੌਰ 'ਤੇ ਵਰਡ ਪ੍ਰੋਸੈਸਿੰਗ ਕਾਰਜਾਂ 'ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ।
- Azure AI ਫਾਊਂਡਰੀ, ਹੱਗਿੰਗ ਫੇਸ, ਅਤੇ NVIDIA 'ਤੇ ਉਪਲਬਧ, ਕਾਰੋਬਾਰ ਅਤੇ ਸਿੱਖਿਆ ਵਿੱਚ ਵਿਭਿੰਨ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੇ ਨਾਲ।
ਮਾਈਕ੍ਰੋਸਾਫਟ ਨੇ ਮਲਟੀਮੋਡਲ ਫਾਈ-4 ਨਾਲ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੀ ਦੁਨੀਆ ਵਿੱਚ ਇੱਕ ਕਦਮ ਅੱਗੇ ਵਧਾਇਆ ਹੈ।, ਇਸਦੀ ਨਵੀਨਤਮ ਅਤੇ ਸਭ ਤੋਂ ਉੱਨਤ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਜੋ ਇੱਕੋ ਸਮੇਂ ਟੈਕਸਟ, ਚਿੱਤਰਾਂ ਅਤੇ ਆਵਾਜ਼ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹੈ। ਇਹ ਮਾਡਲ, ਫਾਈ-4-ਮਿਨੀ ਦੇ ਨਾਲ, ਇੱਕ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਛੋਟੇ ਮਾਡਲਾਂ ਦੀ ਸਮਰੱਥਾ ਵਿੱਚ ਵਿਕਾਸ (SLM), ਜੋ ਕਿ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਕੁਸ਼ਲਤਾ ਅਤੇ ਸ਼ੁੱਧਤਾ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ।
ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਦਾ ਆਉਣਾ ਨਾ ਸਿਰਫ਼ ਮਾਈਕ੍ਰੋਸਾਫਟ ਲਈ ਇੱਕ ਤਕਨੀਕੀ ਸੁਧਾਰ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਸਗੋਂ ਇਹ ਗੂਗਲ ਅਤੇ ਐਂਥ੍ਰੋਪਿਕ ਵਰਗੇ ਵੱਡੇ ਮਾਡਲਾਂ ਨਾਲ ਸਿੱਧਾ ਮੁਕਾਬਲਾ ਕਰਦਾ ਹੈ।. ਇਸਦੀ ਅਨੁਕੂਲਿਤ ਆਰਕੀਟੈਕਚਰ ਅਤੇ ਉੱਨਤ ਤਰਕ ਸਮਰੱਥਾਵਾਂ ਇਸਨੂੰ ਬਣਾਉਂਦੀਆਂ ਹਨ ਕਈ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਇੱਕ ਆਕਰਸ਼ਕ ਵਿਕਲਪ, ਮਸ਼ੀਨ ਅਨੁਵਾਦ ਤੋਂ ਲੈ ਕੇ ਚਿੱਤਰ ਅਤੇ ਆਵਾਜ਼ ਦੀ ਪਛਾਣ ਤੱਕ।
ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਕੀ ਹੈ ਅਤੇ ਇਹ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ?

ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਮਾਈਕ੍ਰੋਸਾਫਟ ਦੁਆਰਾ ਵਿਕਸਤ ਇੱਕ ਏਆਈ ਮਾਡਲ ਹੈ ਜੋ ਇੱਕੋ ਸਮੇਂ ਟੈਕਸਟ, ਚਿੱਤਰਾਂ ਅਤੇ ਆਵਾਜ਼ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰ ਸਕਦਾ ਹੈ।. ਰਵਾਇਤੀ ਮਾਡਲਾਂ ਦੇ ਉਲਟ ਜੋ ਇੱਕ ਸਿੰਗਲ ਮੋਡੈਲਿਟੀ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਨ, ਇਹ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਜਾਣਕਾਰੀ ਦੇ ਵੱਖ-ਵੱਖ ਸਰੋਤਾਂ ਨੂੰ ਇੱਕ ਸਿੰਗਲ ਪ੍ਰਤੀਨਿਧਤਾ ਸਪੇਸ ਵਿੱਚ ਜੋੜਦੀ ਹੈ, ਕਰਾਸ-ਲਰਨਿੰਗ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ।
ਇਹ ਮਾਡਲ ਇੱਕ ਆਰਕੀਟੈਕਚਰ 'ਤੇ ਬਣਾਇਆ ਗਿਆ ਹੈ 5.600 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ, ਵੱਖ-ਵੱਖ ਕਿਸਮਾਂ ਦੇ ਡੇਟਾ ਨੂੰ ਮਿਲਾਉਣ ਲਈ LoRAs (ਲੋ-ਰੈਂਕ ਅਡੈਪਟੇਸ਼ਨ) ਵਜੋਂ ਜਾਣੀ ਜਾਂਦੀ ਤਕਨੀਕ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ। ਇਹ ਭਾਸ਼ਾ ਦੀ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਵਧੇਰੇ ਸ਼ੁੱਧਤਾ ਅਤੇ ਸੰਦਰਭ ਦੀ ਡੂੰਘੀ ਵਿਆਖਿਆ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।
ਮੁੱਖ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਲਾਭ
ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਕਈ ਮੁੱਖ ਕੰਮਾਂ ਵਿੱਚ ਖਾਸ ਤੌਰ 'ਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ ਜਿਨ੍ਹਾਂ ਲਈ ਉੱਚ ਪੱਧਰੀ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ:
- ਆਵਾਜ਼ ਪਛਾਣ: ਇਹ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਅਤੇ ਮਸ਼ੀਨ ਅਨੁਵਾਦ ਟੈਸਟਾਂ ਵਿੱਚ WhisperV3 ਵਰਗੇ ਵਿਸ਼ੇਸ਼ ਮਾਡਲਾਂ ਨੂੰ ਪਛਾੜਦਾ ਹੈ।
- ਚਿੱਤਰ ਪ੍ਰੋਸੈਸਿੰਗ: ਇਹ ਦਸਤਾਵੇਜ਼ਾਂ, ਗ੍ਰਾਫਿਕਸ ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਅਤੇ ਬਹੁਤ ਸ਼ੁੱਧਤਾ ਨਾਲ OCR ਕਰਨ ਦੇ ਸਮਰੱਥ ਹੈ।
- ਘੱਟ ਲੇਟੈਂਸੀ ਅਨੁਮਾਨ: ਇਹ ਇਸਨੂੰ ਮੋਬਾਈਲ ਅਤੇ ਘੱਟ-ਪਾਵਰ ਵਾਲੇ ਡਿਵਾਈਸਾਂ 'ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਨੁਕਸਾਨ ਪਹੁੰਚਾਏ ਬਿਨਾਂ ਚਲਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।
- ਰੂਪ-ਰੇਖਾਵਾਂ ਵਿਚਕਾਰ ਸਹਿਜ ਏਕੀਕਰਨ: ਟੈਕਸਟ, ਬੋਲੀ ਅਤੇ ਚਿੱਤਰਾਂ ਨੂੰ ਇਕੱਠੇ ਸਮਝਣ ਦੀ ਉਨ੍ਹਾਂ ਦੀ ਯੋਗਤਾ ਉਨ੍ਹਾਂ ਦੇ ਪ੍ਰਸੰਗਿਕ ਤਰਕ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਂਦੀ ਹੈ।
ਹੋਰ ਮਾਡਲ ਨਾਲ ਤੁਲਨਾ

ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਮਾਮਲੇ ਵਿੱਚ, ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਵੱਡੇ ਮਾਡਲਾਂ ਦੇ ਬਰਾਬਰ ਸਾਬਤ ਹੋਇਆ ਹੈ। ਜੈਮਿਨੀ-2-ਫਲੈਸ਼-ਲਾਈਟ ਅਤੇ ਕਲਾਉਡ-3.5-ਸੌਨੇਟ ਦੇ ਮੁਕਾਬਲੇ, ਮਲਟੀਮੋਡਲ ਕੰਮਾਂ ਵਿੱਚ ਸਮਾਨ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, ਜਦੋਂ ਕਿ ਇਸਦੇ ਸੰਖੇਪ ਡਿਜ਼ਾਈਨ ਦੇ ਕਾਰਨ ਉੱਚ ਕੁਸ਼ਲਤਾ ਨੂੰ ਬਣਾਈ ਰੱਖਦਾ ਹੈ।
ਹਾਲਾਂਕਿ, ਆਵਾਜ਼-ਅਧਾਰਿਤ ਸਵਾਲਾਂ ਅਤੇ ਜਵਾਬਾਂ ਵਿੱਚ ਕੁਝ ਸੀਮਾਵਾਂ ਪੇਸ਼ ਕਰਦਾ ਹੈ, ਜਿੱਥੇ GPT-4o ਅਤੇ Gemini-2.0-Flash ਵਰਗੇ ਮਾਡਲਾਂ ਦਾ ਇੱਕ ਫਾਇਦਾ ਹੈ। ਇਹ ਇਸਦੇ ਛੋਟੇ ਮਾਡਲ ਆਕਾਰ ਦੇ ਕਾਰਨ ਹੈ, ਜੋ ਤੱਥਾਂ ਦੇ ਗਿਆਨ ਦੀ ਧਾਰਨਾ ਨੂੰ ਪ੍ਰਭਾਵਤ ਕਰਦਾ ਹੈ. ਮਾਈਕ੍ਰੋਸਾਫਟ ਨੇ ਸੰਕੇਤ ਦਿੱਤਾ ਹੈ ਕਿ ਉਹ ਭਵਿੱਖ ਦੇ ਸੰਸਕਰਣਾਂ ਵਿੱਚ ਇਸ ਸਮਰੱਥਾ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਕੰਮ ਕਰ ਰਿਹਾ ਹੈ।
ਫਾਈ-4-ਮਿਨੀ: ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਦਾ ਛੋਟਾ ਭਰਾ
ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਦੇ ਨਾਲ, ਮਾਈਕ੍ਰੋਸਾਫਟ ਨੇ ਇਹ ਵੀ ਲਾਂਚ ਕੀਤਾ ਹੈ ਫਾਈ-4-ਮਿਨੀ, ਖਾਸ ਟੈਕਸਟ-ਅਧਾਰਿਤ ਕਾਰਜਾਂ ਲਈ ਅਨੁਕੂਲਿਤ ਇੱਕ ਰੂਪ। ਇਹ ਮਾਡਲ ਪੇਸ਼ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਵਿੱਚ ਉੱਚ ਕੁਸ਼ਲਤਾ, ਇਸਨੂੰ ਚੈਟਬੋਟਸ, ਵਰਚੁਅਲ ਅਸਿਸਟੈਂਟਸ, ਅਤੇ ਹੋਰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਆਦਰਸ਼ ਬਣਾਉਂਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਸਹੀ ਸਮਝ ਅਤੇ ਟੈਕਸਟ ਬਣਾਉਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
ਉਪਲਬਧਤਾ ਅਤੇ ਐਪਲੀਕੇਸ਼ਨ

ਮਾਈਕ੍ਰੋਸਾਫਟ ਨੇ ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਅਤੇ ਫਾਈ-4-ਮਿਨੀ ਨੂੰ ਡਿਵੈਲਪਰਾਂ ਲਈ ਉਪਲਬਧ ਕਰਵਾਇਆ ਹੈ Azure AI ਫਾਊਂਡਰੀ, ਹੱਗਿੰਗ ਫੇਸ, ਅਤੇ NVIDIA API ਕੈਟਾਲਾਗ. ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਇਹਨਾਂ ਪਲੇਟਫਾਰਮਾਂ ਤੱਕ ਪਹੁੰਚ ਵਾਲੀ ਕੋਈ ਵੀ ਕੰਪਨੀ ਜਾਂ ਉਪਭੋਗਤਾ ਮਾਡਲ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਇਸਨੂੰ ਵੱਖ-ਵੱਖ ਸਥਿਤੀਆਂ ਵਿੱਚ ਲਾਗੂ ਕਰ ਸਕਦਾ ਹੈ।
ਇਸਦੇ ਮਲਟੀਮੋਡਲ ਪਹੁੰਚ ਨੂੰ ਦੇਖਦੇ ਹੋਏ, ਫਾਈ-4 ਹੈ ਵਰਗੇ ਖੇਤਰਾਂ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਇਆ ਗਿਆ ਹੈ:
- ਮਸ਼ੀਨ ਅਨੁਵਾਦ ਅਤੇ ਰੀਅਲ-ਟਾਈਮ ਉਪਸਿਰਲੇਖ।
- ਕਾਰੋਬਾਰਾਂ ਲਈ ਦਸਤਾਵੇਜ਼ ਪਛਾਣ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ।
- ਬੁੱਧੀਮਾਨ ਸਹਾਇਕਾਂ ਵਾਲੇ ਮੋਬਾਈਲ ਐਪਲੀਕੇਸ਼ਨ।
- ਏਆਈ-ਅਧਾਰਤ ਸਿੱਖਿਆ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਵਿਦਿਅਕ ਮਾਡਲ।
ਮਾਈਕ੍ਰੋਸਾਫਟ ਨੇ ਇੱਕ ਕੁਸ਼ਲਤਾ ਅਤੇ ਸਕੇਲੇਬਿਲਟੀ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਤ ਕਰਕੇ ਇਹਨਾਂ ਮਾਡਲਾਂ ਵਿੱਚ ਦਿਲਚਸਪ ਮੋੜ. ਛੋਟੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (SLM) ਦੇ ਖੇਤਰ ਵਿੱਚ ਵਧਦੀ ਮੁਕਾਬਲੇਬਾਜ਼ੀ ਦੇ ਨਾਲ, ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਨੂੰ ਵੱਡੇ ਮਾਡਲਾਂ ਦੇ ਇੱਕ ਵਿਹਾਰਕ ਵਿਕਲਪ ਵਜੋਂ ਪੇਸ਼ ਕੀਤਾ ਗਿਆ ਹੈ।, ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਪ੍ਰੋਸੈਸਿੰਗ ਸਮਰੱਥਾ ਵਿਚਕਾਰ ਸੰਤੁਲਨ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ ਘੱਟ ਸ਼ਕਤੀਸ਼ਾਲੀ ਡਿਵਾਈਸਾਂ 'ਤੇ ਵੀ ਪਹੁੰਚਯੋਗ.
ਮੈਂ ਇੱਕ ਤਕਨਾਲੋਜੀ ਉਤਸ਼ਾਹੀ ਹਾਂ ਜਿਸਨੇ ਆਪਣੀਆਂ "ਗੀਕ" ਰੁਚੀਆਂ ਨੂੰ ਇੱਕ ਪੇਸ਼ੇ ਵਿੱਚ ਬਦਲ ਦਿੱਤਾ ਹੈ। ਮੈਂ ਆਪਣੀ ਜ਼ਿੰਦਗੀ ਦੇ 10 ਤੋਂ ਵੱਧ ਸਾਲ ਅਤਿ-ਆਧੁਨਿਕ ਤਕਨਾਲੋਜੀ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਅਤੇ ਸ਼ੁੱਧ ਉਤਸੁਕਤਾ ਨਾਲ ਹਰ ਕਿਸਮ ਦੇ ਪ੍ਰੋਗਰਾਮਾਂ ਨਾਲ ਟਿੰਕਰਿੰਗ ਵਿੱਚ ਬਿਤਾਏ ਹਨ। ਹੁਣ ਮੈਂ ਕੰਪਿਊਟਰ ਤਕਨਾਲੋਜੀ ਅਤੇ ਵੀਡੀਓ ਗੇਮਾਂ ਵਿੱਚ ਮੁਹਾਰਤ ਹਾਸਲ ਕਰ ਲਈ ਹੈ। ਇਹ ਇਸ ਲਈ ਹੈ ਕਿਉਂਕਿ ਮੈਂ 5 ਸਾਲਾਂ ਤੋਂ ਵੱਧ ਸਮੇਂ ਤੋਂ ਟੈਕਨਾਲੋਜੀ ਅਤੇ ਵੀਡੀਓ ਗੇਮਾਂ 'ਤੇ ਵੱਖ-ਵੱਖ ਵੈੱਬਸਾਈਟਾਂ ਲਈ ਲਿਖ ਰਿਹਾ ਹਾਂ, ਲੇਖ ਤਿਆਰ ਕਰ ਰਿਹਾ ਹਾਂ ਜੋ ਤੁਹਾਨੂੰ ਅਜਿਹੀ ਭਾਸ਼ਾ ਵਿੱਚ ਲੋੜੀਂਦੀ ਜਾਣਕਾਰੀ ਦੇਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ ਜੋ ਹਰ ਕੋਈ ਸਮਝ ਸਕਦਾ ਹੈ।
ਜੇਕਰ ਤੁਹਾਡੇ ਕੋਈ ਸਵਾਲ ਹਨ, ਤਾਂ ਮੇਰਾ ਗਿਆਨ ਵਿੰਡੋਜ਼ ਓਪਰੇਟਿੰਗ ਸਿਸਟਮ ਦੇ ਨਾਲ-ਨਾਲ ਮੋਬਾਈਲ ਫੋਨਾਂ ਲਈ ਐਂਡਰਾਇਡ ਨਾਲ ਸਬੰਧਤ ਹਰ ਚੀਜ਼ ਤੋਂ ਹੈ। ਅਤੇ ਮੇਰੀ ਵਚਨਬੱਧਤਾ ਤੁਹਾਡੇ ਪ੍ਰਤੀ ਹੈ, ਮੈਂ ਹਮੇਸ਼ਾ ਕੁਝ ਮਿੰਟ ਬਿਤਾਉਣ ਅਤੇ ਇਸ ਇੰਟਰਨੈਟ ਦੀ ਦੁਨੀਆ ਵਿੱਚ ਤੁਹਾਡੇ ਕਿਸੇ ਵੀ ਪ੍ਰਸ਼ਨ ਨੂੰ ਹੱਲ ਕਰਨ ਵਿੱਚ ਤੁਹਾਡੀ ਮਦਦ ਕਰਨ ਲਈ ਤਿਆਰ ਹਾਂ।