ਮਾਈਕ੍ਰੋਸਾਫਟ ਫਾਈ-4 ਮਲਟੀਮੋਡਲ: ਏਆਈ ਜੋ ਆਵਾਜ਼, ਚਿੱਤਰਾਂ ਅਤੇ ਟੈਕਸਟ ਨੂੰ ਸਮਝਦਾ ਹੈ

ਆਖਰੀ ਅੱਪਡੇਟ: 27/02/2025

  • ਮਾਈਕ੍ਰੋਸਾਫਟ ਨੇ ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਲਾਂਚ ਕੀਤਾ, ਇੱਕ ਏਆਈ ਮਾਡਲ ਜੋ ਇੱਕੋ ਸਮੇਂ ਆਵਾਜ਼, ਤਸਵੀਰਾਂ ਅਤੇ ਟੈਕਸਟ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਦਾ ਹੈ।
  • 5.600 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਦੇ ਨਾਲ, ਇਹ ਆਵਾਜ਼ ਅਤੇ ਦ੍ਰਿਸ਼ਟੀ ਪਛਾਣ ਵਿੱਚ ਵੱਡੇ ਮਾਡਲਾਂ ਨੂੰ ਪਛਾੜਦਾ ਹੈ।
  • ਫਾਈ-4-ਮਿਨੀ ਸ਼ਾਮਲ ਹੈ, ਇੱਕ ਸੰਸਕਰਣ ਜੋ ਵਿਸ਼ੇਸ਼ ਤੌਰ 'ਤੇ ਵਰਡ ਪ੍ਰੋਸੈਸਿੰਗ ਕਾਰਜਾਂ 'ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ।
  • Azure AI ਫਾਊਂਡਰੀ, ਹੱਗਿੰਗ ਫੇਸ, ਅਤੇ NVIDIA 'ਤੇ ਉਪਲਬਧ, ਕਾਰੋਬਾਰ ਅਤੇ ਸਿੱਖਿਆ ਵਿੱਚ ਵਿਭਿੰਨ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੇ ਨਾਲ।
ਫਾਈ-4 ਮਲਟੀਮੋਡਲ-0 ਕੀ ਹੈ?

ਮਾਈਕ੍ਰੋਸਾਫਟ ਨੇ ਮਲਟੀਮੋਡਲ ਫਾਈ-4 ਨਾਲ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੀ ਦੁਨੀਆ ਵਿੱਚ ਇੱਕ ਕਦਮ ਅੱਗੇ ਵਧਾਇਆ ਹੈ।, ਇਸਦੀ ਨਵੀਨਤਮ ਅਤੇ ਸਭ ਤੋਂ ਉੱਨਤ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਜੋ ਇੱਕੋ ਸਮੇਂ ਟੈਕਸਟ, ਚਿੱਤਰਾਂ ਅਤੇ ਆਵਾਜ਼ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹੈ। ਇਹ ਮਾਡਲ, ਫਾਈ-4-ਮਿਨੀ ਦੇ ਨਾਲ, ਇੱਕ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਛੋਟੇ ਮਾਡਲਾਂ ਦੀ ਸਮਰੱਥਾ ਵਿੱਚ ਵਿਕਾਸ (SLM), ਜੋ ਕਿ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਲੋੜ ਤੋਂ ਬਿਨਾਂ ਕੁਸ਼ਲਤਾ ਅਤੇ ਸ਼ੁੱਧਤਾ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ।

ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਦਾ ਆਉਣਾ ਨਾ ਸਿਰਫ਼ ਮਾਈਕ੍ਰੋਸਾਫਟ ਲਈ ਇੱਕ ਤਕਨੀਕੀ ਸੁਧਾਰ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਸਗੋਂ ਇਹ ਗੂਗਲ ਅਤੇ ਐਂਥ੍ਰੋਪਿਕ ਵਰਗੇ ਵੱਡੇ ਮਾਡਲਾਂ ਨਾਲ ਸਿੱਧਾ ਮੁਕਾਬਲਾ ਕਰਦਾ ਹੈ।. ਇਸਦੀ ਅਨੁਕੂਲਿਤ ਆਰਕੀਟੈਕਚਰ ਅਤੇ ਉੱਨਤ ਤਰਕ ਸਮਰੱਥਾਵਾਂ ਇਸਨੂੰ ਬਣਾਉਂਦੀਆਂ ਹਨ ਕਈ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਇੱਕ ਆਕਰਸ਼ਕ ਵਿਕਲਪ, ਮਸ਼ੀਨ ਅਨੁਵਾਦ ਤੋਂ ਲੈ ਕੇ ਚਿੱਤਰ ਅਤੇ ਆਵਾਜ਼ ਦੀ ਪਛਾਣ ਤੱਕ।

ਵਿਸ਼ੇਸ਼ ਸਮੱਗਰੀ - ਇੱਥੇ ਕਲਿੱਕ ਕਰੋ  ਗੂਗਲ ਅਸਿਸਟੈਂਟ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ?

ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਕੀ ਹੈ ਅਤੇ ਇਹ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ?

ਮਾਈਕ੍ਰੋਸਾਫਟ ਫਾਈ-4

ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਮਾਈਕ੍ਰੋਸਾਫਟ ਦੁਆਰਾ ਵਿਕਸਤ ਇੱਕ ਏਆਈ ਮਾਡਲ ਹੈ ਜੋ ਇੱਕੋ ਸਮੇਂ ਟੈਕਸਟ, ਚਿੱਤਰਾਂ ਅਤੇ ਆਵਾਜ਼ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰ ਸਕਦਾ ਹੈ।. ਰਵਾਇਤੀ ਮਾਡਲਾਂ ਦੇ ਉਲਟ ਜੋ ਇੱਕ ਸਿੰਗਲ ਮੋਡੈਲਿਟੀ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਨ, ਇਹ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਜਾਣਕਾਰੀ ਦੇ ਵੱਖ-ਵੱਖ ਸਰੋਤਾਂ ਨੂੰ ਇੱਕ ਸਿੰਗਲ ਪ੍ਰਤੀਨਿਧਤਾ ਸਪੇਸ ਵਿੱਚ ਜੋੜਦੀ ਹੈ, ਕਰਾਸ-ਲਰਨਿੰਗ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ।

ਇਹ ਮਾਡਲ ਇੱਕ ਆਰਕੀਟੈਕਚਰ 'ਤੇ ਬਣਾਇਆ ਗਿਆ ਹੈ 5.600 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ, ਵੱਖ-ਵੱਖ ਕਿਸਮਾਂ ਦੇ ਡੇਟਾ ਨੂੰ ਮਿਲਾਉਣ ਲਈ LoRAs (ਲੋ-ਰੈਂਕ ਅਡੈਪਟੇਸ਼ਨ) ਵਜੋਂ ਜਾਣੀ ਜਾਂਦੀ ਤਕਨੀਕ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ। ਇਹ ਭਾਸ਼ਾ ਦੀ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਵਧੇਰੇ ਸ਼ੁੱਧਤਾ ਅਤੇ ਸੰਦਰਭ ਦੀ ਡੂੰਘੀ ਵਿਆਖਿਆ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।

ਮੁੱਖ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਲਾਭ

ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਕਈ ਮੁੱਖ ਕੰਮਾਂ ਵਿੱਚ ਖਾਸ ਤੌਰ 'ਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ ਜਿਨ੍ਹਾਂ ਲਈ ਉੱਚ ਪੱਧਰੀ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ:

  • ਆਵਾਜ਼ ਪਛਾਣ: ਇਹ ਟ੍ਰਾਂਸਕ੍ਰਿਪਸ਼ਨ ਅਤੇ ਮਸ਼ੀਨ ਅਨੁਵਾਦ ਟੈਸਟਾਂ ਵਿੱਚ WhisperV3 ਵਰਗੇ ਵਿਸ਼ੇਸ਼ ਮਾਡਲਾਂ ਨੂੰ ਪਛਾੜਦਾ ਹੈ।
  • ਚਿੱਤਰ ਪ੍ਰੋਸੈਸਿੰਗ: ਇਹ ਦਸਤਾਵੇਜ਼ਾਂ, ਗ੍ਰਾਫਿਕਸ ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਅਤੇ ਬਹੁਤ ਸ਼ੁੱਧਤਾ ਨਾਲ OCR ਕਰਨ ਦੇ ਸਮਰੱਥ ਹੈ।
  • ਘੱਟ ਲੇਟੈਂਸੀ ਅਨੁਮਾਨ: ਇਹ ਇਸਨੂੰ ਮੋਬਾਈਲ ਅਤੇ ਘੱਟ-ਪਾਵਰ ਵਾਲੇ ਡਿਵਾਈਸਾਂ 'ਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਨੁਕਸਾਨ ਪਹੁੰਚਾਏ ਬਿਨਾਂ ਚਲਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।
  • ਰੂਪ-ਰੇਖਾਵਾਂ ਵਿਚਕਾਰ ਸਹਿਜ ਏਕੀਕਰਨ: ਟੈਕਸਟ, ਬੋਲੀ ਅਤੇ ਚਿੱਤਰਾਂ ਨੂੰ ਇਕੱਠੇ ਸਮਝਣ ਦੀ ਉਨ੍ਹਾਂ ਦੀ ਯੋਗਤਾ ਉਨ੍ਹਾਂ ਦੇ ਪ੍ਰਸੰਗਿਕ ਤਰਕ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਂਦੀ ਹੈ।
ਵਿਸ਼ੇਸ਼ ਸਮੱਗਰੀ - ਇੱਥੇ ਕਲਿੱਕ ਕਰੋ  ਪ੍ਰੋਜੈਕਟ AVA ਹੋਲੋਗ੍ਰਾਮ: ਇਹ Razer ਦਾ ਨਵਾਂ AI ਸਾਥੀ ਹੈ

ਹੋਰ ਮਾਡਲ ਨਾਲ ਤੁਲਨਾ

PHI-4-ਮਲਟੀਮੋਡਲ ਪ੍ਰਦਰਸ਼ਨ

ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਮਾਮਲੇ ਵਿੱਚ, ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਵੱਡੇ ਮਾਡਲਾਂ ਦੇ ਬਰਾਬਰ ਸਾਬਤ ਹੋਇਆ ਹੈ। ਜੈਮਿਨੀ-2-ਫਲੈਸ਼-ਲਾਈਟ ਅਤੇ ਕਲਾਉਡ-3.5-ਸੌਨੇਟ ਦੇ ਮੁਕਾਬਲੇ, ਮਲਟੀਮੋਡਲ ਕੰਮਾਂ ਵਿੱਚ ਸਮਾਨ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, ਜਦੋਂ ਕਿ ਇਸਦੇ ਸੰਖੇਪ ਡਿਜ਼ਾਈਨ ਦੇ ਕਾਰਨ ਉੱਚ ਕੁਸ਼ਲਤਾ ਨੂੰ ਬਣਾਈ ਰੱਖਦਾ ਹੈ।

ਹਾਲਾਂਕਿ, ਆਵਾਜ਼-ਅਧਾਰਿਤ ਸਵਾਲਾਂ ਅਤੇ ਜਵਾਬਾਂ ਵਿੱਚ ਕੁਝ ਸੀਮਾਵਾਂ ਪੇਸ਼ ਕਰਦਾ ਹੈ, ਜਿੱਥੇ GPT-4o ਅਤੇ Gemini-2.0-Flash ਵਰਗੇ ਮਾਡਲਾਂ ਦਾ ਇੱਕ ਫਾਇਦਾ ਹੈ। ਇਹ ਇਸਦੇ ਛੋਟੇ ਮਾਡਲ ਆਕਾਰ ਦੇ ਕਾਰਨ ਹੈ, ਜੋ ਤੱਥਾਂ ਦੇ ਗਿਆਨ ਦੀ ਧਾਰਨਾ ਨੂੰ ਪ੍ਰਭਾਵਤ ਕਰਦਾ ਹੈ. ਮਾਈਕ੍ਰੋਸਾਫਟ ਨੇ ਸੰਕੇਤ ਦਿੱਤਾ ਹੈ ਕਿ ਉਹ ਭਵਿੱਖ ਦੇ ਸੰਸਕਰਣਾਂ ਵਿੱਚ ਇਸ ਸਮਰੱਥਾ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਕੰਮ ਕਰ ਰਿਹਾ ਹੈ।

ਫਾਈ-4-ਮਿਨੀ: ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਦਾ ਛੋਟਾ ਭਰਾ

ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਦੇ ਨਾਲ, ਮਾਈਕ੍ਰੋਸਾਫਟ ਨੇ ਇਹ ਵੀ ਲਾਂਚ ਕੀਤਾ ਹੈ ਫਾਈ-4-ਮਿਨੀ, ਖਾਸ ਟੈਕਸਟ-ਅਧਾਰਿਤ ਕਾਰਜਾਂ ਲਈ ਅਨੁਕੂਲਿਤ ਇੱਕ ਰੂਪ। ਇਹ ਮਾਡਲ ਪੇਸ਼ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਵਿੱਚ ਉੱਚ ਕੁਸ਼ਲਤਾ, ਇਸਨੂੰ ਚੈਟਬੋਟਸ, ਵਰਚੁਅਲ ਅਸਿਸਟੈਂਟਸ, ਅਤੇ ਹੋਰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਆਦਰਸ਼ ਬਣਾਉਂਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਸਹੀ ਸਮਝ ਅਤੇ ਟੈਕਸਟ ਬਣਾਉਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਉਪਲਬਧਤਾ ਅਤੇ ਐਪਲੀਕੇਸ਼ਨ

ਫਾਈ-4 ਮਲਟੀਮੋਡਲ-5 ਕੀ ਹੈ?

ਮਾਈਕ੍ਰੋਸਾਫਟ ਨੇ ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਅਤੇ ਫਾਈ-4-ਮਿਨੀ ਨੂੰ ਡਿਵੈਲਪਰਾਂ ਲਈ ਉਪਲਬਧ ਕਰਵਾਇਆ ਹੈ Azure AI ਫਾਊਂਡਰੀ, ਹੱਗਿੰਗ ਫੇਸ, ਅਤੇ NVIDIA API ਕੈਟਾਲਾਗ. ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਇਹਨਾਂ ਪਲੇਟਫਾਰਮਾਂ ਤੱਕ ਪਹੁੰਚ ਵਾਲੀ ਕੋਈ ਵੀ ਕੰਪਨੀ ਜਾਂ ਉਪਭੋਗਤਾ ਮਾਡਲ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਇਸਨੂੰ ਵੱਖ-ਵੱਖ ਸਥਿਤੀਆਂ ਵਿੱਚ ਲਾਗੂ ਕਰ ਸਕਦਾ ਹੈ।

ਵਿਸ਼ੇਸ਼ ਸਮੱਗਰੀ - ਇੱਥੇ ਕਲਿੱਕ ਕਰੋ  GPT ਚਿੱਤਰ 1.5: ਇਸ ਤਰ੍ਹਾਂ OpenAI ChatGPT ਨੂੰ ਇੱਕ ਰਚਨਾਤਮਕ ਚਿੱਤਰ ਸਟੂਡੀਓ ਵਿੱਚ ਬਦਲਣਾ ਚਾਹੁੰਦਾ ਹੈ

ਇਸਦੇ ਮਲਟੀਮੋਡਲ ਪਹੁੰਚ ਨੂੰ ਦੇਖਦੇ ਹੋਏ, ਫਾਈ-4 ਹੈ ਵਰਗੇ ਖੇਤਰਾਂ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਇਆ ਗਿਆ ਹੈ:

  • ਮਸ਼ੀਨ ਅਨੁਵਾਦ ਅਤੇ ਰੀਅਲ-ਟਾਈਮ ਉਪਸਿਰਲੇਖ।
  • ਕਾਰੋਬਾਰਾਂ ਲਈ ਦਸਤਾਵੇਜ਼ ਪਛਾਣ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ।
  • ਬੁੱਧੀਮਾਨ ਸਹਾਇਕਾਂ ਵਾਲੇ ਮੋਬਾਈਲ ਐਪਲੀਕੇਸ਼ਨ।
  • ਏਆਈ-ਅਧਾਰਤ ਸਿੱਖਿਆ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਵਿਦਿਅਕ ਮਾਡਲ।

ਮਾਈਕ੍ਰੋਸਾਫਟ ਨੇ ਇੱਕ ਕੁਸ਼ਲਤਾ ਅਤੇ ਸਕੇਲੇਬਿਲਟੀ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਤ ਕਰਕੇ ਇਹਨਾਂ ਮਾਡਲਾਂ ਵਿੱਚ ਦਿਲਚਸਪ ਮੋੜ. ਛੋਟੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (SLM) ਦੇ ਖੇਤਰ ਵਿੱਚ ਵਧਦੀ ਮੁਕਾਬਲੇਬਾਜ਼ੀ ਦੇ ਨਾਲ, ਫਾਈ-4-ਮਲਟੀਮੋਡਲ ਨੂੰ ਵੱਡੇ ਮਾਡਲਾਂ ਦੇ ਇੱਕ ਵਿਹਾਰਕ ਵਿਕਲਪ ਵਜੋਂ ਪੇਸ਼ ਕੀਤਾ ਗਿਆ ਹੈ।, ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਪ੍ਰੋਸੈਸਿੰਗ ਸਮਰੱਥਾ ਵਿਚਕਾਰ ਸੰਤੁਲਨ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ ਘੱਟ ਸ਼ਕਤੀਸ਼ਾਲੀ ਡਿਵਾਈਸਾਂ 'ਤੇ ਵੀ ਪਹੁੰਚਯੋਗ.