مدل زبانی «کوچک» جدید مایکروسافت، تصاویر را درک میکند
![](https://silverkey.ir/wp-content/uploads/2024/05/d985d8afd984-d8b2d8a8d8a7d986db8c-daa9d988da86daa9-d8acd8afdb8cd8af-d985d8a7db8cdaa9d8b1d988d8b3d8a7d981d8aad88c-d8aad8b5d8a7_664ce16964116-555x370.jpeg)
مایکروسافت در کنفرانس بیلد ۲۰۲۴ نسخهی جدیدی از مدل زبانی کوچک خود به نام Phi-3-vision را معرفی کرد که میتواند تصاویر را بررسی کند و به شما بگوید چه چیزهایی در آنها وجود دارد.
Phi-3-vision مدل زبانی چندحالته است. این یعنی میتواند هم متن و هم تصاویر را درک کند. مایکروسافت میگوید Phi-3-vision که درحالحاضر بهصورت آزمایشی دردسترس است، مدلی با ۴٫۲ میلیارد پارامتر محسوب میشود و میتواند استدلال بصری در هنگام مطرحکردن سؤال دربارهی نمودارها یا تصاویر را انجام دهد.
Phi-3-vision بهمراتب کوچکتر از سایر مدلهای هوش مصنوعی متمرکز بر تصویر مانند DALL-E یا Stable Diffusion است. برخلاف آن مدلها، Phi-3-vision تصویر تولید نمیکند؛ اما میتواند آنچه در تصویر وجود دارد، بفهمد و آن را برای کاربر تجزیهوتحلیل کند.
با افزایش تقاضا برای استفاده از خدمات هوش مصنوعی مقرونبهصرفهتر، توسعهدهندگان مدلهای هوش مصنوعی کوچک و سبک مانند Phi-3 را ارائه میدهند. مدلهای کوچک میتوانند برای اجرای قابلیتهای هوش مصنوعی روی دستگاههایی مانند گوشی و لپتاپ بدون نیاز به اشغال فضای رم، استفاده شوند.
منبع :زومیت
برای دیدن اخبار روز ایران اینجا بزنید