مدل زبانی «کوچک» جدید مایکروسافت، تصاویر را درک می‌کند

مایکروسافت در کنفرانس بیلد ۲۰۲۴ نسخه‌ی جدیدی از مدل زبانی کوچک خود به نام Phi-3-vision را معرفی کرد که می‌تواند تصاویر را بررسی کند و به شما بگوید چه چیزهایی در آن‌ها وجود دارد.

Phi-3-vision مدل زبانی چندحالته است. این یعنی می‌تواند هم متن و هم تصاویر را درک کند. مایکروسافت می‌گوید Phi-3-vision که در‌حال‌حاضر به‌صورت آزمایشی دردسترس است، مدلی با ۴٫۲ میلیارد پارامتر محسوب می‌شود و می‌تواند استدلال بصری در هنگام مطرح‌کردن سؤال درباره‌ی نمودارها یا تصاویر را انجام دهد.

Phi-3-vision به‌مراتب کوچک‌تر از سایر مدل‌های هوش مصنوعی متمرکز بر تصویر مانند DALL-E یا Stable Diffusion است. برخلاف آن مدل‌ها، Phi-3-vision تصویر تولید نمی‌کند؛ اما می‌تواند آنچه در تصویر وجود دارد، بفهمد و آن را برای کاربر تجزیه‌و‌تحلیل کند.

مقاله‌ی مرتبط

با افزایش تقاضا برای استفاده از خدمات هوش مصنوعی مقرون‌به‌صرفه‌تر، توسعه‌دهندگان مدل‌های هوش مصنوعی کوچک و سبک‌ مانند Phi-3 را ارائه می‌دهند. مدل‌های کوچک می‌توانند برای اجرای قابلیت‌های هوش مصنوعی روی دستگاه‌هایی مانند گوشی و لپ‌تاپ بدون نیاز به اشغال فضای رم، استفاده شوند.

منبع :زومیت

برای دیدن اخبار روز ایران اینجا بزنید

به اشتراک بگذارید

دیدگاه ارسال کنید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *