گوگل روز چهارشنبه از اولین عامل هوش مصنوعی خود که می تواند اقداماتی را در وب انجام دهد، رونمایی کرد، یک نمونه اولیه تحقیقاتی از بخش DeepMind این شرکت به نام Project Mariner. عامل Gemini کنترل مرورگر کروم شما را در دست می گیرد، مکان نما را روی صفحه شما حرکت می دهد، دکمه ها را کلیک می کند و فرم ها را پر می کند و به آن اجازه می دهد تا مانند یک انسان از وب سایت ها استفاده کند و در آن حرکت کند.
به گفته گوگل، این شرکت کار خود را با انتشار عامل هوش مصنوعی در روز چهارشنبه برای گروه کوچکی از آزمایش کنندگان از پیش انتخاب شده آغاز می کند.
گوگل به آزمایش روشهای جدید برای جمینی برای خواندن، خلاصهنویسی و اکنون استفاده از وبسایتها ادامه میدهد. یکی از مدیران گوگل به TechCrunch می گوید که این بخشی از «تغییر پارادایم اساساً جدید UX» است: دور کردن کاربران از تعامل مستقیم با وب سایت ها و در عوض تعامل با یک سیستم هوش مصنوعی مولد که این کار را برای شما انجام می دهد.
این تغییرات میتواند میلیونها کسبوکار را تحت تأثیر قرار دهد – از ناشران مانند TechCrunch تا خردهفروشانی مانند Walmart – که در طول تاریخ به Google برای فرستادن افراد واقعی برای بازدید و استفاده از وبسایتهایشان متکی بودهاند.
در نمایشی با TechCrunch، Jaclyn Konzelmann، مدیر آزمایشگاههای Google نشان داد که Project Mariner چگونه کار میکند.
پس از تنظیم عامل هوش مصنوعی با یک برنامه افزودنی در کروم، یک پنجره چت در سمت راست مرورگر شما ظاهر می شود. میتوانید به نماینده دستور دهید کارهایی مانند «ایجاد سبد خرید از یک فروشگاه مواد غذایی بر اساس این فهرست» را انجام دهد.
از آنجا، عامل هوش مصنوعی به وب سایت یک فروشگاه مواد غذایی – در این مورد Safeway – رفت و سپس اقلامی را جستجو کرد و به یک سبد خرید مجازی اضافه کرد. چیزی که بلافاصله مشخص است این است که سرعت عامل چقدر است: بین هر حرکت مکان نما حدود 5 ثانیه تاخیر وجود داشت. گاهی اوقات، نماینده کار خود را متوقف می کند و به پنجره چت برمی گردد و در مورد موارد خاص (تعداد هویج و غیره) توضیح می خواهد.
نماینده Google نمی تواند تسویه حساب کند، زیرا قرار نیست شماره کارت اعتباری یا اطلاعات صورتحساب را پر کند. Project Mariner همچنین کوکیها را برای کاربران نمیپذیرد یا شرایط خدمات را امضا نمیکند. گوگل می گوید که به طور هدفمند به نماینده اجازه انجام این کارها را نمی دهد تا به کاربران کنترل بیشتری بدهد.
در پشت صحنه، نماینده Google در حال گرفتن اسکرین شات از پنجره مرورگر شما است، چیزی که کاربران باید در شرایط خدمات با آن موافقت کنند و آنها را برای پردازش به Gemini در فضای ابری ارسال می کند. سپس Gemini دستورالعملهایی را برای پیمایش در صفحه وب به رایانه شما ارسال میکند.
Project Mariner همچنین میتواند برای یافتن پروازها و هتلها، خرید اقلام خانگی، یافتن دستور العملها و سایر کارهایی که در حال حاضر کاربران را ملزم به کلیک بر روی وب میکند، استفاده شود.
یکی از اخطارهای مهم این است که Project Mariner فقط در اصلی ترین برگه فعال مرورگر کروم کار می کند، به این معنی که شما نمی توانید از رایانه خود برای چیزهای دیگر استفاده کنید در حالی که عامل در پس زمینه کار می کند – باید تماشا کنید Gemini به آرامی در اطراف کلیک می کند. مدیر ارشد فناوری Google DeepMind، Koray Kavukcuoglu، میگوید این تصمیم بسیار عمدی بوده است تا کاربران بدانند عامل هوش مصنوعی گوگل چه میکند.
Kavukcuoglu در مصاحبه ای با TechCrunch گفت: «از آنجایی که [Gemini] اکنون از طرف یک کاربر اقداماتی را انجام می دهد، مهم است که این کار را گام به گام انجام دهیم. “این مکمل است. شما بهعنوان یک فرد میتوانید از وبسایتها استفاده کنید، و اکنون نماینده شما میتواند هر کاری که شما در یک وبسایت انجام میدهید نیز انجام دهد.»
صاحبان وبسایتها ممکن است از شنیدن اینکه عامل هوش مصنوعی Google روی صفحه رایانه شما کار میکند، راحت شوند، زیرا این بدان معناست که ناشران و خردهفروشها همچنان چشم شما را در صفحات خود میبینند. با این حال، عامل هوش مصنوعی گوگل میتواند به این معنا باشد که کاربران کمتر با وبسایتهایی که بازدید میکنند درگیر میشوند و ممکن است روزی به هیچ وجه کاربران را ملزم به استفاده از این وبسایتها نکند.
Konzelmann به TechCrunch گفت: «[Project Mariner] یک تغییر پارادایم UX اساساً جدید است که در حال حاضر شاهد آن هستیم. “ما باید بفهمیم که راه درست برای همه اینها برای تغییر نحوه تعامل کاربران با وب و روشی که ناشران می توانند برای کاربران و همچنین برای نمایندگان در آینده تجربه ایجاد کنند، چیست.”
علاوه بر پروژه مارینر، گوگل روز چهارشنبه از چندین عامل هوش مصنوعی دیگر نیز برای کارهای خاص تر رونمایی کرد.
هدف یکی از عوامل هوش مصنوعی، Deep Research، کمک به کاربران برای کشف موضوعات پیچیده با ایجاد طرحهای تحقیقاتی چند مرحلهای است. به نظر می رسد که با O1 OpenAI رقابت می کند، که می تواند استدلال چند مرحله ای را نیز انجام دهد. با این حال، یکی از سخنگویان گوگل خاطرنشان می کند که این نماینده برای حل مسائل ریاضی و استدلال منطقی، نوشتن کد یا انجام تجزیه و تحلیل داده ها طراحی نشده است. عامل هوش مصنوعی امروز در Gemini Advanced منتشر می شود و در سال 2025 به برنامه Gemini خواهد آمد.
هنگامی که یک سوال دشوار یا بزرگ از شما خواسته می شود، Deep Research یک برنامه اقدام چند مرحله ای برای پاسخ به آن ایجاد می کند. پس از اینکه کاربر طرح را تأیید کرد، Deep Research چند دقیقه طول می کشد تا به سؤال پاسخ دهد و در وب جستجو کند و سپس یک گزارش طولانی از یافته های خود ایجاد کند.
یکی دیگر از عوامل هوش مصنوعی جدید گوگل، جولز، قصد دارد به توسعه دهندگان در انجام وظایف کدنویسی کمک کند. این به طور مستقیم در گردشهای کاری GitHub ادغام میشود و به جول اجازه میدهد کارهای موجود شما را مشاهده کند و تغییرات را مستقیماً در GitHub ایجاد کند. جولز امروز برای گروه منتخبی از آزمایشکنندگان بتا عرضه میشود و بعداً در ۲ سال آینده در دسترس خواهد بود.
منبع:techcrunch
