Devs open source melawan crawler ai dengan kepintaran dan pembalasan

AI Web-Crawling Bots adalah kecoak internet, banyak pengembang perangkat lunak percaya. Beberapa dev telah mulai melawan dengan cara yang cerdik, seringkali lucu.

Sementara situs web apa pun mungkin ditargetkan oleh perilaku crawler yang buruk – kadang -kadang menurunkan situs – pengembang open source “terpengaruh secara tidak proporsional”, tulis Niccolò Venerandi, pengembang desktop Linux yang dikenal sebagai plasma dan pemilik blog pustakawan.

Pada dasarnya, situs -situs yang menampung proyek -proyek bebas dan open source (FOSS) berbagi lebih banyak infrastruktur mereka di depan umum, dan mereka juga cenderung memiliki sumber daya yang lebih sedikit daripada produk komersial.

Masalahnya adalah bahwa banyak bot AI tidak menghormati file robot robot.txt robot robot, alat yang memberi tahu bot apa yang tidak dirayapi, yang awalnya dibuat untuk bot mesin pencari.

Dalam posting blog “Cry For Help” pada bulan Januari, pengembang FOSS XE IASO menggambarkan bagaimana AmazonBot tanpa henti ditumbuk di situs web server git ke titik menyebabkan pemadaman DDOS. Server Git menampung proyek FOSS sehingga siapa pun yang ingin dapat mengunduh kode atau berkontribusi padanya.

Tapi bot ini mengabaikan robot.txt IASO, bersembunyi di balik alamat IP lainnya, dan berpura -pura menjadi pengguna lain, kata IASO.

“Sia -sia untuk memblokir bot crawler AI karena mereka berbohong, mengubah agen pengguna mereka, menggunakan alamat IP perumahan sebagai proxy, dan banyak lagi,” keluh IASO.

“Mereka akan mengikis situs Anda sampai jatuh, dan kemudian mereka akan mengikisnya lagi. Mereka akan mengklik setiap tautan pada setiap tautan di setiap tautan, melihat halaman yang sama berulang -ulang. Beberapa dari mereka bahkan akan mengklik tautan yang sama beberapa kali dalam detik yang sama,” tulis pengembang di pos.

Masukkan Dewa Graves

Jadi IASO melawan dengan kepintaran, membangun alat bernama Anubis.

Anubis adalah pembuktian proxy terbalik pemeriksaan yang harus diteruskan sebelum permintaan diizinkan untuk mencapai server git. Ini menghalangi bot tetapi memungkinkan melalui browser yang dioperasikan oleh manusia.

Bagian yang lucu: Anubis adalah nama dewa dalam mitologi Mesir yang menuntun orang mati untuk menghakimi.

“Anubis menimbang jiwamu (hati) dan jika itu lebih berat dari bulu, hatimu dimakan dan kamu, seperti, Mega mati,” kata Iaso kepada TechCrunch. Jika permintaan web memberikan tantangan dan bertekad untuk menjadi manusia, gambar anime yang lucu mengumumkan keberhasilan. Gambarnya adalah “pendapat saya tentang anubis antropomorfisasi,” kata IASO. Jika itu bot, permintaan ditolak.

Proyek bernama masak telah menyebar seperti angin di antara komunitas Foss. IASO membagikannya di GitHub pada 19 Maret, dan hanya dalam beberapa hari, ia mengumpulkan 2.000 bintang, 20 kontributor, dan 39 garpu.

Pembalasan sebagai Pertahanan

Popularitas instan Anubis menunjukkan bahwa rasa sakit IASO tidak unik. Faktanya, Venerandi berbagi cerita demi cerita:

CEO pendiri SourceHut Drew Devault menggambarkan pengeluaran “dari 20-100% dari waktu saya dalam minggu tertentu yang meringankan perayap LLM hiper-agresif pada skala,” dan “mengalami lusinan pemadaman singkat per minggu.”
Jonathan Corbet, pengembang Foss terkenal yang mengelola situs berita industri Linux LWN, memperingatkan bahwa situsnya diperlambat oleh lalu lintas tingkat DDOS “dari bot pengikis AI.”
Kevin Fenzi, sysadmin dari proyek Linux Fedora yang sangat besar, mengatakan bot pengikis AI telah menjadi sangat agresif, ia harus memblokir seluruh negara Brasil dari akses.

Venerandi memberi tahu TechCrunch bahwa dia tahu beberapa proyek lain yang mengalami masalah yang sama. Salah satunya “harus sementara waktu melarang semua alamat IP Cina pada satu titik.”

Biarkan itu meresap sejenak – bahwa pengembang “bahkan harus beralih ke melarang seluruh negara” hanya untuk menangkis bot AI yang mengabaikan file robot.txt, kata Venerandi.

Selain menimbang jiwa pemohon web, para pengembang lain percaya pembalasan adalah pertahanan terbaik.

Beberapa hari yang lalu di Hacker News, pengguna Xyzal menyarankan pemuatan robot.

“Pikirkan kita perlu membidik bot untuk mendapatkan nilai utilitas _negative_ dari mengunjungi perangkap kita, bukan hanya nilai nol,” jelas Xyzal.

Seperti yang terjadi, pada bulan Januari, seorang pencipta anonim yang dikenal sebagai “Aaron” merilis alat bernama Nepenthes yang bertujuan untuk melakukan hal itu. Ini menjebak crawler dalam labirin tak berujung konten palsu, tujuan yang diakui Dev kepada ARS Technica agresif jika tidak benar -benar jahat. Alat ini dinamai tanaman karnivora.

Dan Cloudflare, mungkin pemain komersial terbesar yang menawarkan beberapa alat untuk menangkis AI Crawlers, pekan lalu merilis alat serupa yang disebut AI Labyrinth.

Ini dimaksudkan untuk “memperlambat, membingungkan, dan menyia -nyiakan sumber daya crawler AI dan bot lain yang tidak menghormati arahan 'tidak merangkak',” yang dijelaskan Cloudflare dalam posting blognya. Cloudflare mengatakan itu memberi makan perayap yang berperilaku buruk “konten yang tidak relevan daripada mengekstraksi data situs web Anda yang sah.”

Devault SourceHut mengatakan kepada TechCrunch bahwa “Nepenthes memiliki rasa keadilan yang memuaskan untuk itu, karena memberi makan omong kosong bagi para perayap dan meracuni sumur mereka, tetapi pada akhirnya Anubis adalah solusi yang berhasil” untuk situsnya.

Tetapi Devault juga mengeluarkan permohonan publik yang menyentuh hati untuk perbaikan yang lebih langsung: “Harap berhenti melegitimasi LLM atau generator gambar AI atau kopilot github atau tempat sampah ini. Saya memohon Anda untuk berhenti menggunakannya, berhenti membicarakannya, berhenti membuat yang baru, berhenti saja.”

Karena kemungkinan itu adalah zilch, pengembang, khususnya di Foss, melawan dengan kepintaran dan sentuhan humor.