مدل هوش مصنوعی Aya Vision: پیشرو در فناوری چندوجهی و چندزبانه

مدل هوش مصنوعی Aya Vision: پیشرو در فناوری چندوجهی و چندزبانه
به گزارش سیلاد، این مدل تواناییهایی مانند نوشتن توضیحات تصاویر، پاسخ به سوالات درباره عکسها، ترجمه متن و خلاصهسازی در ۲۳ زبان اصلی را دارد و به صورت رایگان از طریق واتساپ در دسترس قرار گرفته است.
ویژگیهای برجسته Aya Vision
Aya Vision در دو نسخه ارائه شده است: Aya Vision 32B و Aya Vision 8B. نسخه پیشرفتهتر 32B عملکردی برتر نسبت به مدلهایی با دو برابر اندازه خود، مانند Llama-3.2 90B Vision متا، دارد. نسخه کوچکتر 8B نیز در برخی ارزیابیها از مدلهایی با ۱۰ برابر اندازه خود بهتر عمل میکند. هر دو مدل تحت مجوز Creative Commons 4.0 برای استفاده غیرتجاری در پلتفرم Hugging Face موجود هستند.
این مدل با استفاده از دادههای متنوع انگلیسی و حاشیهنویسیهای مصنوعی (annotations) آموزش داده شده است. این حاشیهنویسیها که توسط هوش مصنوعی تولید میشوند، به مدل کمک میکنند تا دادهها را بهتر تفسیر کند. استفاده از این روش باعث کاهش مصرف منابع و دستیابی به عملکرد رقابتی شده است.
کاربردهای Aya Vision
Aya Vision قابلیتهای گستردهای دارد که شامل موارد زیر میشود:
• آموزش و یادگیری زبان: ترجمه و توضیح تصاویر به زبانهای مختلف
• حفاظت از فرهنگ: توصیف آثار هنری، بناهای تاریخی و اشیای فرهنگی
• ابزارهای دسترسی: کمک به کاربران نابینا با ارائه توضیحات دقیق تصاویر
• ارتباطات جهانی: ترجمه همزمان چندوجهی برای تسهیل ارتباطات بینالمللی
معیارهای ارزیابی جدید
Cohere همچنین مجموعهای از معیارهای ارزیابی جدید به نام AyaVisionBench معرفی کرده است که مهارتهای مدل را در وظایف “متن-تصویر” مانند شناسایی تفاوت بین دو تصویر یا تبدیل اسکرینشاتها به کد بررسی میکند. این معیارها برای ارزیابی جامعتر عملکرد چندزبانه و چندوجهی طراحی شدهاند.
Aya Vision گامی بزرگ در جهت دسترسی گستردهتر پژوهشگران به فناوری پیشرفته هوش مصنوعی است و توانایی رقابت با مدلهای بزرگتر و بسته را دارد. Cohere با این اقدام مرزهای جدیدی را در ارتباطات چندزبانه مبتنی بر هوش مصنوعی باز کرده است.