سرتیتر خبرها

غریب آبادی: مردم ایران هرگز تسلیم تهدیدات و تجاوزات نخواهند شد و متحد و منسجم در مقابل متجاوز خواهند ایستاد

1 ماه پیش

واکنش ایران به حمله خشونت آمیز در سیدنی استرالیا

1 ماه پیش

مصر: همه گزینه‌ها از جمله راه‌حل نظامی را درمورد سد النهضه بررسی می‌کنیم

1 ماه پیش

واکنش آمریکا به تیراندازی مرگبار در سیدنی

1 ماه پیش

رضا نصری: علی‌اکبر صالحی شایسته‌ترین گزینه نه برای مدیریت یک سفارتخانه، بلکه برای عهده‌دار شدن سمت پیشنهادی «نماینده ویژه ایران در جهان عرب» است

1 ماه پیش

ادعای اوکراین درباره حملات نظامی دقیق به عمق خاک روسیه

1 ماه پیش

شرکت‌های هوش مصنوعی مشغول جمع‌آوری غیرمجاز اطلاعات از سایت‌ها هستند

زمان انتشار: 27 ژوئن 2024 ساعت 19:00

دسته بندی: فناوری اطلاعات

شناسه خبر: 2783475

زمان مطالعه: 4 دقیقه

شرکت‌های هوش مصنوعی مشغول جمع‌آوری غیرمجاز اطلاعات از سایت‌ها هستند

شرکت پرپلیکسیتی (Perplexity)، که محصول خود را به عنوان یک «موتور جستجوی رایگان هوش مصنوعی» توصیف کرده است، طی چند روز گذشته تحت انتقادات شدیدی قرار گرفته است.

به گزارش سیلاد و به نقل از انگجت، اندکی پس از آنکه فوربس این شرکت را به سرقت خبرش و بازنشر آن در پلتفرم‌های مختلف متهم کرد، وایرد گزارش داد که پرپلیکسیتی «پروتکل عدم‌شمول روبات‌ها»، یا Robots.txt، را نادیده گرفته است و به جمع‌آوری غیرمجاز اطلاعات (اسکرپینگ) از وب‌سایت آن و سایر رسانه‌های شرکت Condé Nast پرداخته است. وب‌سایت فناوری The Shortcut نیز این شرکت را متهم کرد که به طور غیرمجاز از مطالب آن اطلاعات جمع‌آوری کرده است.

اکنون، رویترز گزارش داده است که پرپلیکسیتی تنها شرکت هوش مصنوعی نیست که در حال دور زدن فایل‌های Robots.txt است و به اسکرپینگ وب‌سایت‌ها برای دریافت محتوا برای آموزش فناوری‌هایش می‌پردازد.

شایان ذکر است که فایل robots.txt حاوی دستورالعمل‌هایی برای خزنده‌های وب است که بدانند مجازند به چه صفحه‌هایی دسترسی پیدا کنند و به چه صفحه‌هایی نه. این پروتکل از سال 1994 برای استفاده توسعه‌دهندگان وب موجود بوده است، اما پیروی از آن کاملاً داوطلبانه است.

وبسایت Business Insider می‌گوید که متوجه شده است که Openai و Anthropic – به عنوان سازنده‌های، به ترتیب، چت‌بات‌هایChatGPT و Claude – نیز در حال دور زدن سیگنال‌های robots.txt هستند. هر دو شرکت پیش از این اعلام بودند که آنها به دستورالعمل‌های “do not crawl” که وبسایت‌ها در فایل‌های Robots.txt خود قرار داده‌اند احترام می‌گذارند.

وبسایت Wired، در طی تحقیقاتش، کشف کرد که یک ماشین در یک سرور آمازون «که مطمئناً توسط پرپلکسیتی اداره می‌شود» در حال دور زدن دستورالعمل‌های Robots.txt وب‌سایتش است. برای چک کردن اینکه آیا پرپلکسیتی در حال اسکریپینگ محتوایش است یا نه، وایرد با عناوینی از مقالات یا مطالب کوتاهش که اخبارش را توصیف می‌کردند در دسترس ابزار این شرکت قرار داد. این ابزار به نتایجی رسید که مطالب وایرد را «با حداقل انتساب» بازنویسی کرده بود.

مجله خبری سیلاد