مدل هوش مصنوعی جدید شرکت آنتروپیک (Anthropic) می‌تواند رایانه شما را کنترل کند.

Alireza اکتبر 24, 2024

1 789 زمان تقریبی مطالعه 6 دقیقه

در یک ارائه به سرمایه‌گذاران در بهار گذشته، شرکت Anthropic اعلام کرد که قصد دارد هوش مصنوعی‌ای بسازد که بتواند دستیارهای مجازی را تأمین کند که قادر به انجام تحقیقات، پاسخ به ایمیل‌ها، و مدیریت دیگر کارهای دفتری به‌طور مستقل باشند. این شرکت به این مدل به‌عنوان یک «الگوریتم نسل جدید برای خودآموزی هوش مصنوعی» اشاره کرد، الگوریتمی که بر این باور بود در صورتی که همه چیز طبق برنامه پیش برود، می‌تواند روزی بخش‌های بزرگی از اقتصاد را خودکار کند.

ساخت این هوش مصنوعی کمی زمان برد، اما اکنون در حال ورود به بازار است.

Anthropic روز سه‌شنبه نسخه به‌روزشده‌ای از مدل Claude 3.5 Sonnet خود را منتشر کرد که می‌تواند هر اپلیکیشن دسکتاپی را درک کرده و با آن تعامل داشته باشد. از طریق API جدیدی به نام «استفاده از کامپیوتر» که اکنون در نسخه بتای باز است، این مدل می‌تواند ضربات صفحه‌کلید، کلیک‌های دکمه و حرکات ماوس را تقلید کند، به‌طوری‌که اساساً مانند یک فردی که پشت یک رایانه نشسته باشد، رفتار کند.

در یک پست وبلاگی که Anthropic با TechCrunch به اشتراک گذاشته، این شرکت نوشت: «ما Claude را آموزش دادیم تا ببیند چه چیزی روی صفحه‌نمایش در حال رخ دادن است و سپس از ابزارهای نرم‌افزاری موجود برای انجام وظایف استفاده کند.» هنگامی که یک توسعه‌دهنده Claude را به استفاده از یک نرم‌افزار رایانه‌ای هدایت می‌کند و دسترسی‌های لازم را به آن می‌دهد، Claude از تصاویر صفحه‌نمایش کاربر استفاده می‌کند و سپس محاسبه می‌کند که باید چند پیکسل به‌صورت عمودی یا افقی حرکت کند تا بتواند در مکان صحیح کلیک کند.

توسعه‌دهندگان می‌توانند از طریق API Anthropic، Amazon Bedrock و پلتفرم Vertex AI گوگل کلود از قابلیت استفاده از کامپیوتر استفاده کنند. نسخه جدید 3.5 Sonnet بدون استفاده از قابلیت «استفاده از کامپیوتر» در حال عرضه به اپلیکیشن‌های Claude است و بهبودهای عملکردی مختلفی نسبت به مدل 3.5 Sonnet قبلی دارد.

فهرست مطالب

خودکارسازی اپلیکیشن‌ها

ابزاری که بتواند وظایف را روی یک رایانه خودکار کند، ایده جدیدی نیست. شرکت‌های بی‌شماری چنین ابزارهایی را ارائه می‌دهند، از فروشندگان قدیمی RPA گرفته تا استارت‌آپ‌های جدیدتری مانند Relay، Induced AI و Automat.

در مسابقه برای توسعه‌ی اصطلاحاً «عامل‌های هوش مصنوعی»، این حوزه به‌شدت رقابتی‌تر شده است. عامل‌های هوش مصنوعی هنوز به‌طور دقیق تعریف نشده‌اند، اما به‌طور کلی به هوش مصنوعی‌ای اشاره دارد که بتواند نرم‌افزارها را خودکار کند.

برخی تحلیل‌گران می‌گویند که عامل‌های هوش مصنوعی می‌توانند مسیری آسان‌تر برای شرکت‌ها فراهم کنند تا میلیاردها دلاری که در هوش مصنوعی سرمایه‌گذاری کرده‌اند را به سود تبدیل کنند. به نظر می‌رسد شرکت‌ها با این نظر موافق هستند: طبق یک نظرسنجی اخیر از Capgemini، ۱۰٪ از سازمان‌ها در حال حاضر از عامل‌های هوش مصنوعی استفاده می‌کنند و ۸۲٪ از آن‌ها طی سه سال آینده این فناوری را ادغام خواهند کرد.

Salesforce در تابستان امسال اعلامیه‌های مهمی درباره فناوری عامل هوش مصنوعی خود داشت، در حالی که مایکروسافت روز گذشته ابزارهای جدیدی را برای ساخت عامل‌های هوش مصنوعی معرفی کرد. OpenAI که برند خاص خود از عامل‌های هوش مصنوعی را برنامه‌ریزی کرده است، این فناوری را به‌عنوان یک گام به‌سوی هوش مصنوعی فوق‌العاده هوشمند می‌بیند.

Anthropic مفهوم خود از عامل هوش مصنوعی را به‌عنوان «لایه اجرای اقدام» معرفی می‌کند که به مدل جدید 3.5 Sonnet امکان می‌دهد دستورات سطح دسکتاپ را اجرا کند. به لطف قابلیت مرور وب (که اولین بار برای مدل‌های هوش مصنوعی نیست، اما برای Anthropic اولین است)، مدل 3.5 Sonnet می‌تواند از هر وب‌سایت و هر اپلیکیشنی استفاده کند.

مدل جدید Claude 3.5 Sonnet از Anthropic قادر است اپلیکیشن‌ها را روی یک رایانه کنترل کند. (تصویر با اعتبار: Anthropic)

یک سخنگوی Anthropic گفت: «انسان‌ها همچنان با ارائه پرسش‌های مشخصی که اقدامات Claude را هدایت می‌کند، مانند ‘از داده‌های موجود در کامپیوتر و آنلاین استفاده کن تا این فرم را پر کنی’، در کنترل باقی می‌مانند. مردم به میزان نیاز دسترسی را فعال و محدود می‌کنند. Claude پرسش‌های کاربر را به دستورات کامپیوتری (مثل حرکت دادن نشانگر، کلیک کردن، تایپ کردن) تبدیل می‌کند تا آن وظیفه خاص را انجام دهد.»

پلتفرم توسعه نرم‌افزار Replit از نسخه اولیه مدل جدید 3.5 Sonnet برای ایجاد یک «بررسی‌کننده خودکار» استفاده کرده که می‌تواند اپلیکیشن‌ها را در هنگام ساخت آن‌ها ارزیابی کند. Canva نیز اعلام کرده که در حال بررسی راه‌هایی است که این مدل جدید ممکن است بتواند فرآیند طراحی و ویرایش را پشتیبانی کند.

اما این فناوری چه تفاوتی با دیگر عامل‌های هوش مصنوعی موجود دارد؟ این یک سوال منطقی است. استارتاپ گجت‌های مصرفی Rabbit در حال ساخت یک عامل وب است که می‌تواند کارهایی مانند خرید بلیت فیلم به‌صورت آنلاین انجام دهد. Adept، که اخیراً توسط Amazon جذب شده است، مدل‌هایی را برای مرور وب‌سایت‌ها و استفاده از نرم‌افزارها آموزش می‌دهد و Twin Labs از مدل‌های آماده مانند GPT-4 OpenAI برای خودکارسازی فرآیندهای دسکتاپ استفاده می‌کند.

Anthropic ادعا می‌کند که مدل جدید 3.5 Sonnet به‌سادگی یک مدل قوی‌تر و پایدارتر است که می‌تواند وظایف کدنویسی را بهتر از حتی مدل پرچمدار OpenAI، یعنی o1، طبق شاخص SWE-bench Verified انجام دهد. این مدل حتی بدون آموزش صریح برای انجام چنین وظایفی، توانایی اصلاح خود و تلاش مجدد هنگام مواجهه با موانع را دارد و می‌تواند به سمت اهدافی که به ده‌ها یا صدها مرحله نیاز دارند، پیش برود.

شرکت Anthropic

اما هنوز لازم نیست منشی خود را اخراج کنید.

در یک ارزیابی که برای سنجش توانایی عامل هوش مصنوعی در کمک به کارهایی مانند رزرو بلیت هواپیما انجام شد، مدل جدید 3.5 Sonnet توانست کمتر از نیمی از وظایف را با موفقیت انجام دهد. در یک آزمایش جداگانه که شامل وظایفی مانند شروع فرایند بازگشت کالا بود، مدل 3.5 Sonnet تقریباً یک‌سوم مواقع شکست خورد.

Anthropic اعتراف می‌کند که نسخه به‌روز شده 3.5 Sonnet در انجام کارهای پایه‌ای مانند اسکرول کردن و زوم کردن مشکل دارد و ممکن است برخی از اقدامات و اعلان‌های کوتاه‌مدت را به دلیل نحوه‌ی گرفتن اسکرین‌شات و ترکیب آن‌ها از دست بدهد.

Anthropic در پست وبلاگی خود نوشته است: «استفاده از کامپیوتر توسط Claude همچنان کند است و اغلب با خطا همراه است. ما به توسعه‌دهندگان توصیه می‌کنیم که اکتشاف خود را با وظایف کم‌خطر آغاز کنند.»

اما آیا مدل جدید 3.5 Sonnet به‌اندازه کافی پیشرفته است که خطرناک باشد؟ شاید.

یک مطالعه‌ی اخیر نشان داد که مدل‌هایی که قابلیت استفاده از اپلیکیشن‌های دسکتاپ را ندارند، مانند GPT-4o از OpenAI، زمانی که تحت حملات موسوم به «جیل‌بریکینگ» قرار می‌گیرند، تمایل دارند به رفتارهای مضر چندمرحله‌ای مانند سفارش دادن گذرنامه جعلی از طریق وب تاریک بپردازند. طبق گزارش محققان، این حملات در انجام وظایف مضر حتی برای مدل‌هایی که با فیلترها و محافظت‌هایی همراه هستند، موفقیت بالایی داشتند.

می‌توان تصور کرد که یک مدل با دسترسی به دسکتاپ ممکن است خسارات بیشتری وارد کند — به‌عنوان مثال با سوءاستفاده از آسیب‌پذیری‌های اپلیکیشن‌ها برای به خطر انداختن اطلاعات شخصی (یا ذخیره چت‌ها به‌صورت متن ساده). علاوه بر ابزارهای نرم‌افزاری در دسترس، اتصالات آنلاین و اپلیکیشنی مدل می‌تواند مسیرهایی را برای سوءاستفاده‌گران باز کند.

Anthropic منکر وجود خطر در انتشار مدل جدید 3.5 Sonnet نیست. اما این شرکت معتقد است که مزایای مشاهده‌ی نحوه‌ی استفاده از مدل در شرایط واقعی در نهایت بر این خطر غلبه می‌کند.

این شرکت نوشته است: «ما فکر می‌کنیم که بهتر است دسترسی به کامپیوترها را به مدل‌های امروزی که محدودتر و نسبتاً ایمن‌تر هستند، بدهیم. این به ما امکان می‌دهد تا از هر مشکلی که در این سطح پایین‌تر به وجود می‌آید، یاد بگیریم و همزمان اقدامات ایمنی را به تدریج و به‌طور همزمان توسعه دهیم.»

Anthropic همچنین گفته است که گام‌هایی برای جلوگیری از سوءاستفاده برداشته، مانند آموزش ندادن مدل جدید 3.5 Sonnet با استفاده از اسکرین‌شات‌ها و پرسش‌های کاربران و جلوگیری از دسترسی مدل به وب در طول آموزش. این شرکت اعلام کرده که از طبقه‌بندی‌کننده‌هایی استفاده کرده که مدل 3.5 Sonnet را از انجام اقداماتی که به‌عنوان پرخطر تلقی می‌شوند، مانند پست کردن در شبکه‌های اجتماعی، ایجاد حساب کاربری، و تعامل با وب‌سایت‌های دولتی، منحرف می‌کند.

با نزدیک شدن به انتخابات عمومی ایالات متحده، Anthropic می‌گوید که تمرکز خود را بر کاهش سوءاستفاده‌های مرتبط با انتخابات از مدل‌های خود گذاشته است. موسسه ایمنی هوش مصنوعی ایالات متحده و موسسه ایمنی بریتانیا، دو نهاد دولتی جداگانه اما متحد که به ارزیابی خطرات مدل‌های هوش مصنوعی اختصاص دارند، مدل جدید 3.5 Sonnet را قبل از انتشار آزمایش کرده‌اند.

Anthropic به TechCrunch اعلام کرد که در صورت لزوم، قادر است دسترسی به وب‌سایت‌ها و ویژگی‌های اضافی را برای محافظت در برابر اسپم، تقلب و اطلاعات نادرست محدود کند. به‌عنوان یک اقدام ایمنی، این شرکت اسکرین‌شات‌هایی که توسط «استفاده از کامپیوتر» گرفته شده‌اند را حداقل به مدت ۳۰ روز نگه می‌دارد — دوره‌ای که ممکن است برخی توسعه‌دهندگان را نگران کند.

ما از Anthropic پرسیدیم که تحت چه شرایطی، اگر وجود داشته باشد، اسکرین‌شات‌ها را به یک طرف ثالث (مانند اجرای قانون) تحویل خواهد داد. یک سخنگوی شرکت گفت که این شرکت «در پاسخ به فرایند قانونی معتبر، درخواست‌های داده را رعایت خواهد کرد.»

Anthropic گفت: «روش‌های صددرصد بی‌نقص وجود ندارد و ما به‌طور مستمر تدابیر ایمنی خود را ارزیابی و به‌روزرسانی خواهیم کرد تا توانمندی‌های Claude را با استفاده مسئولانه متعادل کنیم. کسانی که از نسخه استفاده از کامپیوتر Claude استفاده می‌کنند باید اقدامات احتیاطی لازم را برای کاهش این‌گونه خطرات انجام دهند، از جمله جداسازی Claude از داده‌های حساس خاص در رایانه خود.»

امیدواریم که این اقدامات برای جلوگیری از بدترین سناریوها کافی باشد.

منبع