مدل اصلی بعدی هوش مصنوعی گوگل برای مبارزه با مجموعه ای از پیشنهادات جدید از OpenAI وارد شده است.
روز چهارشنبه، گوگل Gemini 2.0 Flash را معرفی کرد که به گفته این شرکت می تواند علاوه بر متن، تصاویر و صدا را به صورت بومی تولید کند. 2.0 Flash همچنین میتواند از برنامهها و سرویسهای شخص ثالث استفاده کند و به آن اجازه میدهد به جستجوی Google ضربه بزند، کد را اجرا کند و موارد دیگر.
نسخه آزمایشی 2.0 Flash از امروز از طریق Gemini API و پلتفرم های توسعه دهنده هوش مصنوعی گوگل، AI Studio و Vertex AI در دسترس خواهد بود. با این حال، قابلیتهای تولید صدا و تصویر فقط برای «شریکهای دسترسی زودهنگام» پیش از عرضه گسترده در ژانویه راهاندازی میشود.
در ماههای آینده، گوگل میگوید که فلش ۲.۰ را در طیف وسیعی از طعمها به محصولاتی مانند Android Studio، Chrome DevTools، Firebase، Gemini Code Assist و غیره میآورد.
فلش، ارتقا یافته است
فلش نسل اول، 1.5 فلش، فقط میتوانست متن تولید کند، و برای بارهای کاری سخت طراحی نشده بود. گوگل می گوید این مدل جدید همه کاره تر است، تا حدی به این دلیل که می تواند ابزارهایی مانند جستجو را فراخوانی کند و با API های خارجی تعامل داشته باشد.
Tulsee Doshi، رئیس محصول مدل Gemini در گوگل، طی یک جلسه توجیهی در روز سه شنبه گفت: «ما می دانیم که Flash به دلیل … تعادل سرعت و عملکردش بین توسعه دهندگان بسیار محبوب است. و با 2.0 Flash، مثل همیشه سریع است، اما اکنون حتی قدرتمندتر شده است.
گوگل ادعا می کند که 2.0 Flash، که در برخی از معیارها، دو برابر سریعتر از مدل Gemini 1.5 Pro شرکت است، بر اساس آزمایش خود گوگل، در زمینه هایی مانند کدنویسی و تجزیه و تحلیل تصویر به طور قابل توجهی بهبود یافته است. در واقع، این شرکت میگوید، 2.0 Flash به لطف مهارتهای ریاضی برتر و «واقعیت»، جایگزین 1.5 Pro به عنوان مدل پرچمدار Gemini میشود.
همانطور که قبلا اشاره شد، 2.0 Flash می تواند تصاویر را در کنار متن ایجاد کند – و آن را تغییر دهد. این مدل همچنین میتواند عکسها و فیلمها و همچنین ضبطهای صوتی را برای پاسخ دادن به سؤالات مربوط به آنها (مثلاً «او چه گفت؟») مصرف کند.
تولید صدا یکی دیگر از ویژگی های کلیدی فلش 2.0 است و دوشی آن را “قابل هدایت” و “قابل تنظیم” توصیف کرد. برای مثال، مدل میتواند متن را با استفاده از یکی از هشت صدای «بهینهشده» برای لهجهها و زبانهای مختلف روایت کند.
او افزود: «میتوانید از آن بخواهید که آهستهتر صحبت کند، میتوانید از او بخواهید که سریعتر صحبت کند، یا حتی میتوانید از او بخواهید چیزی شبیه دزد دریایی بگوید».
اکنون، من به عنوان یک روزنامهنگار موظفم توجه داشته باشم که Google تصاویر یا نمونههای صوتی را از Flash 2.0 ارائه نکرده است. ما هیچ راهی برای آگاهی از مقایسه کیفیت با خروجی های مدل های دیگر نداریم، حداقل در زمان نگارش.
گوگل می گوید از فناوری SynthID خود برای واترمارک کردن تمام صداها و تصاویر تولید شده توسط Flash 2.0 استفاده می کند. در نرمافزارها و پلتفرمهایی که از SynthID پشتیبانی میکنند – یعنی محصولات Google را انتخاب کنید – خروجیهای مدل بهعنوان مصنوعی پرچمگذاری میشوند.
این برای کاهش ترس از سوء استفاده است. در واقع، دیپ فیک یک تهدید رو به رشد است. بر اساس سرویس تأیید هویت سام ساب، از سال 2023 تا 2024 تعداد دیپ فیک های شناسایی شده در سراسر جهان 4 برابر افزایش داشته است.
API چند وجهی
نسخه تولیدی 2.0 Flash در ماه ژانویه عرضه خواهد شد. اما در این بین، گوگل یک API به نام Multimodal Live API را منتشر میکند تا به توسعهدهندگان کمک کند تا برنامههایی با قابلیت پخش صدا و ویدیوی بلادرنگ بسازند.
گوگل میگوید با استفاده از Multimodal Live API، توسعهدهندگان میتوانند اپلیکیشنهای چندوجهی را در زمان واقعی با ورودیهای صوتی و تصویری از دوربینها یا صفحهنمایش ایجاد کنند. API از یکپارچهسازی ابزارها برای انجام وظایف پشتیبانی میکند و میتواند «الگوهای مکالمه طبیعی» مانند وقفهها را مدیریت کند – در راستای خطوط Realtime API OpenAI.
منبع:techcrunch
