Gemini 2.0، جدیدترین پرچمدار هوش مصنوعی گوگل، می تواند متن، تصویر و گفتار تولید کند

مدل اصلی بعدی هوش مصنوعی گوگل برای مبارزه با مجموعه ای از پیشنهادات جدید از OpenAI وارد شده است.

روز چهارشنبه، گوگل Gemini 2.0 Flash را معرفی کرد که به گفته این شرکت می تواند علاوه بر متن، تصاویر و صدا را به صورت بومی تولید کند. 2.0 Flash همچنین می‌تواند از برنامه‌ها و سرویس‌های شخص ثالث استفاده کند و به آن اجازه می‌دهد به جستجوی Google ضربه بزند، کد را اجرا کند و موارد دیگر.

نسخه آزمایشی 2.0 Flash از امروز از طریق Gemini API و پلتفرم های توسعه دهنده هوش مصنوعی گوگل، AI Studio و Vertex AI در دسترس خواهد بود. با این حال، قابلیت‌های تولید صدا و تصویر فقط برای «شریک‌های دسترسی زودهنگام» پیش از عرضه گسترده در ژانویه راه‌اندازی می‌شود.

در ماه‌های آینده، گوگل می‌گوید که فلش ۲.۰ را در طیف وسیعی از طعم‌ها به محصولاتی مانند Android Studio، Chrome DevTools، Firebase، Gemini Code Assist و غیره می‌آورد.

فلش، ارتقا یافته است
فلش نسل اول، 1.5 فلش، فقط می‌توانست متن تولید کند، و برای بارهای کاری سخت طراحی نشده بود. گوگل می گوید این مدل جدید همه کاره تر است، تا حدی به این دلیل که می تواند ابزارهایی مانند جستجو را فراخوانی کند و با API های خارجی تعامل داشته باشد.

Tulsee Doshi، رئیس محصول مدل Gemini در گوگل، طی یک جلسه توجیهی در روز سه شنبه گفت: «ما می دانیم که Flash به دلیل … تعادل سرعت و عملکردش بین توسعه دهندگان بسیار محبوب است. و با 2.0 Flash، مثل همیشه سریع است، اما اکنون حتی قدرتمندتر شده است.

گوگل ادعا می کند که 2.0 Flash، که در برخی از معیارها، دو برابر سریعتر از مدل Gemini 1.5 Pro شرکت است، بر اساس آزمایش خود گوگل، در زمینه هایی مانند کدنویسی و تجزیه و تحلیل تصویر به طور قابل توجهی بهبود یافته است. در واقع، این شرکت می‌گوید، 2.0 Flash به لطف مهارت‌های ریاضی برتر و «واقعیت»، جایگزین 1.5 Pro به عنوان مدل پرچم‌دار Gemini می‌شود.

همانطور که قبلا اشاره شد، 2.0 Flash می تواند تصاویر را در کنار متن ایجاد کند – و آن را تغییر دهد. این مدل همچنین می‌تواند عکس‌ها و فیلم‌ها و همچنین ضبط‌های صوتی را برای پاسخ دادن به سؤالات مربوط به آنها (مثلاً «او چه گفت؟») مصرف کند.

تولید صدا یکی دیگر از ویژگی های کلیدی فلش 2.0 است و دوشی آن را “قابل هدایت” و “قابل تنظیم” توصیف کرد. برای مثال، مدل می‌تواند متن را با استفاده از یکی از هشت صدای «بهینه‌شده» برای لهجه‌ها و زبان‌های مختلف روایت کند.

او افزود: «می‌توانید از آن بخواهید که آهسته‌تر صحبت کند، می‌توانید از او بخواهید که سریع‌تر صحبت کند، یا حتی می‌توانید از او بخواهید چیزی شبیه دزد دریایی بگوید».

اکنون، من به عنوان یک روزنامه‌نگار موظفم توجه داشته باشم که Google تصاویر یا نمونه‌های صوتی را از Flash 2.0 ارائه نکرده است. ما هیچ راهی برای آگاهی از مقایسه کیفیت با خروجی های مدل های دیگر نداریم، حداقل در زمان نگارش.

گوگل می گوید از فناوری SynthID خود برای واترمارک کردن تمام صداها و تصاویر تولید شده توسط Flash 2.0 استفاده می کند. در نرم‌افزارها و پلتفرم‌هایی که از SynthID پشتیبانی می‌کنند – یعنی محصولات Google را انتخاب کنید – خروجی‌های مدل به‌عنوان مصنوعی پرچم‌گذاری می‌شوند.

این برای کاهش ترس از سوء استفاده است. در واقع، دیپ فیک یک تهدید رو به رشد است. بر اساس سرویس تأیید هویت سام ساب، از سال 2023 تا 2024 تعداد دیپ فیک های شناسایی شده در سراسر جهان 4 برابر افزایش داشته است.

API چند وجهی
نسخه تولیدی 2.0 Flash در ماه ژانویه عرضه خواهد شد. اما در این بین، گوگل یک API به نام Multimodal Live API را منتشر می‌کند تا به توسعه‌دهندگان کمک کند تا برنامه‌هایی با قابلیت پخش صدا و ویدیوی بلادرنگ بسازند.

گوگل می‌گوید با استفاده از Multimodal Live API، توسعه‌دهندگان می‌توانند اپلیکیشن‌های چندوجهی را در زمان واقعی با ورودی‌های صوتی و تصویری از دوربین‌ها یا صفحه‌نمایش ایجاد کنند. API از یکپارچه‌سازی ابزارها برای انجام وظایف پشتیبانی می‌کند و می‌تواند «الگوهای مکالمه طبیعی» مانند وقفه‌ها را مدیریت کند – در راستای خطوط Realtime API OpenAI.

منبع:techcrunch

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *