Mistral 3: nowa fala otwartych modeli dla rozproszonej sztucznej inteligencji

Ostatnia aktualizacja: 20.09.2023

  • Mistral 3 to seria dziesięciu otwartych modeli, od multimodalnego modelu granicznego po kompaktową serię Ministral 3.
  • Architektura Mixture of Experts umożliwia wysoką dokładność przy niższym zużyciu energii i efektywnych wdrożeniach brzegowych.
  • Mniejsze modele mogą działać w trybie offline na pojedynczym procesorze GPU lub urządzeniach o niskich zasobach, wzmacniając cyfrową suwerenność.
  • Europa zyskuje coraz większą popularność w dziedzinie sztucznej inteligencji dzięki otwartemu podejściu firmy Mistral i jej partnerstwom z instytucjami publicznymi i firmami.
Mistrala 3

Francuski startup Mistral AI Umiejscowiła się w centrum debaty na temat sztucznej inteligencji w Europie, Start Mistrala 3Nowa rodzina otwartych modeli zaprojektowana do pracy zarówno w dużych centrach danych, jak i w urządzeniach o bardzo ograniczonych zasobach. Firma, daleka od ślepego wyścigu o rozmiar modelu, Popiera rozproszoną inteligencję, którą można wdrożyć wszędzie tam, gdzie jest to potrzebne.:w chmurze, na krawędzi, a nawet bez połączenia z internetem.

Ta strategia umieszcza Mistral jako jedna z niewielu europejskich alternatyw, która może konkurować z takimi gigantami jak OpenAI, Google czy Anthropici oferują alternatywy dla ChatGPTAle z innej perspektywy: modele o otwartej wadze na podstawie licencji zezwalającejdostosowywać się do potrzeb firm i administracji publicznej, a także kłaść nacisk na języki europejskie i suwerenne wdrożenia na kontynencie.

Czym jest Mistral 3 i dlaczego jest istotny?

Rodzina modeli Mistral 3

Rodzina Mistrala 3 Jest utworzony przez dziesięć modeli o otwartej wadze wydano na licencji Apache License 2.0Pozwala to na jego komercyjne wykorzystanie praktycznie bez żadnych ograniczeń. W ofercie znajduje się flagowy model typu Frontier. Mistral Duży 3i linię kompaktowych modeli pod marką Ministerialny 3które występują w trzech przybliżonych rozmiarach (14 000, 8 000 i 3 000 milionów parametrów) i kilku wariantach w zależności od rodzaju zadania.

Kluczową innowacją jest to, że duży model nie ogranicza się do tekstu: Mistral Large 3 jest multimodalny i wielojęzycznyPotrafi pracować z tekstem i obrazami w ramach tej samej architektury i oferuje solidne wsparcie dla języków europejskich. W przeciwieństwie do innych podejść, które łączą modele języka i obrazu oddzielnie, to opiera się na jednym zintegrowanym systemie, który może analizować duże dokumenty, rozumieć obrazy i działać jako zaawansowany asystent w złożonych zadaniach.

W tym samym czasie seria Ministerialny 3 Został zaprojektowany do pracy w scenariuszach, w których dostęp do chmury jest ograniczony lub nie istnieje. Modele te mogą działać na urządzeniach z zaledwie 4 GB pamięci lub na pojedynczym procesorze graficznym, co otwiera drzwi do jego wykorzystania w laptopy, telefony komórkowe, roboty, drony lub systemy wbudowane bez konieczności stałego połączenia internetowego lub korzystania z usług zewnętrznych dostawców.

Dla ekosystemu europejskiego, w którym toczy się dyskusja na temat suwerenność cyfrowa i kontrola danych To połączenie otwartego modelu granicznego i lekkich modeli wdrażanych lokalnie jest bardzo powszechne i szczególnie istotne zarówno dla firm prywatnych, jak i administracji publicznej poszukujących alternatyw dla dużych platform amerykańskich i chińskich.

Architektura, mieszanka ekspertów i podejście techniczne

Możliwości Mistrala 3

Techniczne serce Mistral Duży 3 jest architekturą Mieszanka ekspertów (MoE), projekt, w którym model W firmie pracuje wielu wewnętrznych „ekspertów”., Ale aktywuje tylko część z nich w celu przetworzenia każdego tokenaW praktyce system obsługuje 41.000 miliardów aktywnych parametrów z całkowitej liczby 675.000 miliardówUmożliwia to połączenie wysokiej wydajności rozumowania z bardziej kontrolowanym zużyciem energii i mocy obliczeniowej niż w przypadku analogicznego gęstego modelu.

Ekskluzywna zawartość — kliknij tutaj  Wysoka cena agentów AI firmy OpenAI, którzy mają zastąpić inżynierów oprogramowania

Ta architektura w połączeniu z okno kontekstowe do 256 000 tokenówDzięki temu Mistral Large 3 może przetwarzać bardzo duże ilości informacji, takie jak długie kontrakty, dokumentacja techniczna czy duże korporacyjne bazy wiedzy. Model ten jest ukierunkowany na takie przypadki użycia, jak: analiza dokumentów, pomoc w programowaniu, tworzenie treści, agenci AI i automatyzacja przepływu pracy.

Równolegle modele Ministerialny 3 Oferowane są w trzech głównych wariantach: Opierać (ogólny, wstępnie wytrenowany model), Polecić (zoptymalizowany pod kątem zadań konwersacyjnych i asystenta) i Rozumowanie (Dostosowane do logicznego rozumowania i głębszej analizy). Wszystkie wersje obsługują wizja i obsługują szerokie konteksty — od 128 tys. do 256 tys. tokenów — zachowując jednocześnie kompatybilność z wieloma językami.

Jak wyjaśnił współzałożyciel i główny naukowiec Guillaume Lample, podstawowa koncepcja polega na tym, że w „ponad 90%” przypadków użycia w przedsiębiorstwach Wystarczy mały, dobrze dostrojony model. i co więcej, bardziej wydajne. Dzięki takim technikom jak wykorzystanie dane syntetyczne dla określonych zadańFirma twierdzi, że modele te mogą dorównywać, a nawet przewyższać większe, zamknięte opcje w bardzo specyficznych zastosowaniach, jednocześnie redukując koszty, opóźnienia i zagrożenia dla prywatności.

Cały ten ekosystem jest zintegrowany z szerszą gamą produktów firmy: od Interfejs API agentów Mistralz łącznikami do wykonywania kodu, wyszukiwania w sieci lub generowania obrazów, do Kod Mistrala W celu uzyskania pomocy programistom, model wnioskowania Mistrzowski i platformę Studio AI do wdrażania aplikacji, zarządzania analizami i prowadzenia dzienników użytkowania.

Współpraca z firmą NVIDIA i wdrażanie w superkomputerach i obliczeniach brzegowych

Mistral AI i NVIDIA

Najważniejszym punktem premiery jest sojusz pomiędzy Mistral AI i NVIDIA, co pozycjonuje Mistral 3 jako rodzinę modeli dopracowanych do potrzeb systemów superkomputerowych i platform brzegowych amerykańskiego producenta. Mistral Duży 3w połączeniu z infrastrukturą taką jak NVIDIA GB200 NVL72, według firmy NVIDIA nawet dziesięciokrotna poprawa wydajności w porównaniu do poprzedniej generacji opartej na procesorach graficznych H200, wykorzystującej zaawansowany paralelizm, pamięć współdzieloną przez NVLink i zoptymalizowane formaty numeryczne, takie jak NVFP4.

Współpraca nie kończy się na sprzęcie najwyższej klasy. Seria Ministerialny 3 Został zoptymalizowany do szybkiego działania w środowiskach takich jak: Komputery stacjonarne i laptopy z kartami graficznymi RTX, urządzenia Jetson i platformy brzegoweUłatwianie wnioskowania lokalnego w scenariuszach przemysłowych, robotyki lub konsumenckich. Popularne frameworki, takie jak Llama.cpp i Ollama Zostały one dostosowane do wykorzystania zalet tych modeli, co ułatwia ich wdrażanie przez programistów i zespoły IT.

Ponadto integracja z ekosystemem NVIDIA NeMo —w tym narzędzia takie jak Data Designer, Guardrails i Agent Toolkit — umożliwiają firmom wykonywanie dostrajanie, kontrola bezpieczeństwa, koordynacja agentów i projektowanie danych na podstawie Mistral 3. Jednocześnie silniki wnioskowania, takie jak TensorRT-LLM, SGLang i vLLM aby obniżyć koszt pojedynczego tokena i poprawić efektywność energetyczną.

Modele Mistral 3 są już dostępne u największych sprzedawców detalicznych dostawcy chmury i otwarte repozytoriai przybędą również w formie Mikrousługi NIM w katalogu firmy NVIDIA, co jest szczególnie interesujące dla europejskich firm, które już korzystają ze stosów rozwiązań tego producenta i chcą wdrożyć sztuczną inteligencję generyczną, zapewniając większą kontrolę nad wdrażaniem.

Wszystkie te ramy umożliwiają Mistral 3 funkcjonowanie zarówno w dużych centrach danych, jak i na urządzeniach brzegowych, wzmacniając jego narrację naprawdę wszechobecna i rozproszona sztuczna inteligencja, mniej zależne od usług zdalnych i bardziej dostosowane do konkretnych potrzeb każdego klienta.

Ekskluzywna zawartość — kliknij tutaj  Jaki jest limit miejsca na dane dla aplikacji Zdjęcia Microsoft OneDrive?

Małe modele, wdrażanie offline i przypadki użycia brzegowego

Modele sztucznej inteligencji Mistral 3

Jednym z filarów dyskursu Mistrala jest to, że Większość rzeczywistych zastosowań nie wymaga największego możliwego modelu.ale taki, który dobrze pasuje do konkretnego przypadku użycia i można go precyzyjnie dostroić za pomocą konkretnych danych. Właśnie tu pojawia się dziewięć modeli z tej serii. Ministerialny 3gęste, wydajne i dostępne w różnych rozmiarach i wariantach, aby spełnić wymagania dotyczące kosztów, prędkości i pojemności.

Modele te są zaprojektowane do pracy w pojedynczy procesor graficzny lub nawet na skromnym sprzęcieUmożliwia to lokalne wdrożenia na serwerach wewnętrznych, laptopach, robotach przemysłowych lub urządzeniach działających w środowiskach zdalnych. Dla firm przetwarzających poufne informacje – od producentów po instytucje finansowe i agencje rządowe – możliwość uruchomienia sztucznej inteligencji w ramach własnej infrastruktury, bez przesyłania danych do chmury, stanowi znaczącą zaletę.

Firma podaje przykłady takie jak: Roboty fabryczne analizujące dane z czujników w czasie rzeczywistym bez połączenia z internetem, drony wykorzystywane w sytuacjach awaryjnych i akcjach ratunkowych, pojazdy z w pełni funkcjonalnymi asystentami AI w obszarach bez zasięgu lub narzędzia edukacyjne oferujące uczniom pomoc offline. Przetwarzając dane bezpośrednio na urządzeniu, prywatność i kontrola informacji użytkowników.

Lample podkreśla, że ​​dostępność jest centralnym elementem misji Mistral: Miliardy ludzi posiadających telefony komórkowe lub laptopy, ale bez niezawodnego dostępu do Internetuktóre mogłyby skorzystać z modeli zdolnych do działania lokalnego. W ten sposób firma stara się obalić pogląd, że zaawansowana sztuczna inteligencja musi być zawsze powiązana z dużymi centrami danych kontrolowanymi przez niewielką grupę firm.

Równolegle Mistral rozpoczął współpracę z partnerami międzynarodowymi w obszarze tzw. Sztuczna inteligencja fizycznaWśród wspomnianych współprac znalazły się singapurska agencja naukowo-technologiczna HTX zajmująca się robotyką, cyberbezpieczeństwem i systemami ochrony przeciwpożarowej oraz niemiecka Helsing, skoncentrowany na obronie, z modelami wizji-języka-działania dla dronów; i producenci samochodów poszukujący Asystenci AI w kabinie bardziej wydajne i kontrolowalne.

Wpływ na Europę: suwerenność cyfrowa i ekosystem publiczno-prywatny

Oprócz aspektów technicznych Mistral stał się punktem odniesienia w debacie na temat Suwerenność cyfrowa w EuropieMimo że firma określa siebie jako „współpracę transatlantycką” — z zespołami i modelami szkoleń rozproszonymi pomiędzy Europą i Stanami Zjednoczonymi — jej zaangażowanie w otwarte modele ze znacznym wsparciem dla języków europejskich zostało dobrze przyjęte przez instytucje publiczne na kontynencie.

Firma zawarła umowy z armia francuska, francuska agencja zatrudnienia publicznego, rząd Luksemburga i inne organizacje europejskie zainteresowane wdrażaniem sztucznej inteligencji w ramach rygorystycznych ram regulacyjnych i utrzymaniem kontroli nad danymi w UE. Równocześnie Komisja Europejska przedstawiła strategia wzmocnienia europejskich narzędzi AI wzmacniające konkurencyjność przemysłu bez poświęcania bezpieczeństwa i odporności.

Kontekst geopolityczny również zmusza region do reakcji. Uznaje się, że Europa pozostała w tyle za Stanami Zjednoczonymi i Chinami W wyścigu o modele nowej generacji, podczas gdy w krajach takich jak Chiny pojawiają się otwarte alternatywy, takie jak DeepSeek, Alibaba i Kimi, które zaczynają konkurować z rozwiązaniami takimi jak ChatGPT w niektórych zadaniach, Mistral stara się wypełnić część tej luki otwartymi, wszechstronnymi modelami zgodnymi z europejskimi wymogami regulacyjnymi.

Ekskluzywna zawartość — kliknij tutaj  Starlink w Iranie: łączność satelitarna nie daje sobie rady z przerwami w dostępie do Internetu po atakach Izraela

Startup pozyskał środki finansowe w wysokości około 2.700 milionów dolarów i poruszał się w obrębie wycen bliskich 14.000 miliardówTe liczby są znacznie niższe niż w przypadku gigantów takich jak OpenAI czy Anthropic, ale znaczące dla europejskiego ekosystemu. Duża część modelu biznesowego polega na oferowaniu, poza otwartymi wagami, usługi dostosowywania, narzędzia wdrożeniowe i produkty dla przedsiębiorstw takie jak Mistral Agents API lub pakiet Le Chat z integracjami korporacyjnymi.

Pozycjonowanie jest jasne: być dostawca otwartej i elastycznej infrastruktury AI co pozwala europejskim (i innym regionalnym) firmom na innowacje bez konieczności całkowitego uzależnienia od platform amerykańskich, przy jednoczesnym zachowaniu pewnej kontroli nad tym, gdzie i w jaki sposób modele są uruchamiane, a także ułatwianiu integracji z narzędziami już wdrożonymi w ich systemach.

Debata na temat prawdziwej otwartości i nadchodzących wyzwań

Pomimo entuzjazmu, jaki Mistral 3 wzbudza w części społeczności technologicznej, nie brakuje głosów krytycznych, które kwestionują w jakim stopniu te modele można naprawdę uznać „oprogramowanie typu open source”Firma zdecydowała się na podejście otwarta wagaUdostępnia wagi do wykorzystania i adaptacji, ale niekoniecznie wszystkie szczegóły dotyczące danych szkoleniowych i procesów wewnętrznych potrzebnych do odtworzenia modelu od podstaw.

Badacze tacy jak Andreas Liesenfeld, współzałożyciel Europejskiego Indeksu Otwartego Oprogramowania Sztucznej Inteligencji, Podkreślają, że głównym wąskim gardłem dla sztucznej inteligencji w Europie nie jest tylko dostęp do modeli, ale dane szkoleniowe na dużą skalęZ tej perspektywy Mistral 3 przyczynia się do poprawić zakres użytecznych modeliNie rozwiązuje to jednak w pełni podstawowego problemu europejskiego ekosystemu, który w dalszym ciągu ma trudności z generowaniem i udostępnianiem wysokiej jakości ogromnych zbiorów danych.

Sama firma Mistral przyznaje, że jej modele z otwartym planem „nieco ustępują” bardziej zaawansowanym rozwiązaniom zamkniętym, ale Twierdzi, że różnica ta szybko się zmniejsza. i że kluczową kwestią jest stosunek kosztów do korzyściJeśli można wdrożyć nieco mniej wydajny model przy niskich kosztach, dostosować go do konkretnego zadania i uruchomić blisko użytkownika, Dla wielu firm może to być bardziej interesujące niż topowy model do którego dostęp jest możliwy wyłącznie poprzez zdalne API.

Mimo to wyzwania pozostają: od zacięta międzynarodowa konkurencja Dotyczy to również konieczności zagwarantowania bezpieczeństwa, identyfikowalności i zgodności z przepisami w takich sektorach jak opieka zdrowotna, finanse i administracja publiczna. Równowaga między otwartością, kontrolą i odpowiedzialnością będzie nadal stanowić podstawę działań Mistral i innych europejskich graczy w nadchodzących latach.

Wypuszczenie na rynek Mistrala 3 Wzmacnia to przekonanie, że najnowocześniejsza sztuczna inteligencja nie musi być ograniczona do gigantycznych, zamkniętych modeli.i oferuje Europie — oraz każdej organizacji ceniącej suwerenność technologiczną — paletę otwartych narzędzi, które łączą multimodalny model graniczny z szeregiem lekkich modeli zdolnych do pracy na krawędzi, w trybie offline i z poziomem personalizacji trudnym do osiągnięcia przez platformy w pełni zastrzeżone.

Jak używać komputera jako lokalnego centrum sztucznej inteligencji
Powiązany artykuł:
Jak używać komputera jako lokalnego centrum sztucznej inteligencji: praktyczny i porównawczy przewodnik