Nepenthes vs. AI
Kolejny krok w walce ze sztuczną inteligencją, czyli Nepenthes vs. AI! Pamiętacie może artykuł, w którym poruszyłem walkę cyfrowych artystów z AI? Tak, tak… Chodziło o Nightshade. W skrócie był to program, dzięki któremu dało się wcisnąć niejako „zatruty” obrazek, który powodował ogłupienie i rozpad modelu ze względu na generowane błędy w wyświetlaniu. Dla ciekawych artykuł znajduje się pod tym linkiem: Nightshade, czyli jak zatruć AI.
Co jednak, gdy nie chodzi już tylko o nasze obrazki, a dochodzą jeszcze wyświetlane treści, linki, użytkownicy itp.? Przecież każda sztuczna inteligencja, by mogła funkcjonować, musi opierać się o jakąś „bazę danych” w postaci informacji innych użytkowników sieci. Pół biedy, gdy dane eksponujecie w formie otwartej dla botów. Wtedy wszystko jest ok. Wszak treści jakie prezentujecie są z reguły wolne i ogólnodostępne. Co jednak, gdy chcecie zabezpieczyć jakiś kawałek informacji wpisując w pliku robots.txt „disallow”? Czy każdy „crawler1” się do tego zastosuje? Cóż…
Narodziny
Jak mawiał Newton – akcja równa jest reakcji. W tym przypadku było podobnie. Pewnego letniego dnia, jeden z programistów zauważył, że crawler Facebooka (zwany ClaudeBot -em) przekroczył 30mln odsłon na jego stronie. Do tego nie zastosował się do polityki strony zawartej w pliku robots.txt o nieudostępnianiu pewnych danych. Co zrobił?
Opierając się na taktyce cyberbezpieczeństwa antyspamowego znanej jako tarpitting, stworzył złośliwe oprogramowanie malware – Nepenthes. Nazwa, żeby było śmieszniej, nadana jest po roślinie która pożera owady na niej siadające. Prawda, że to urocze? [ 🙂 ]
Oczywiście, twórca nie poleca wykorzystywania go na swoich stronach, gdy chcemy mieć odpowiednie wskaźniki odwiedzin przez inne boty. Bardziej kieruje się tu do osób, które tak jak i on, nie trawią [ 🙂 ] scraperów2 AI, które nie chcą się dostosować. Co zatem robi ten program?
Boty AI wysyłane są w „nieskończony labirynt” statycznych plików bez linków wyjściowych, gdzie „utykają” i „miotają się” przez miesiące. Po złapaniu robotom można również podawać bełkotliwe dane (bełkot Markowa), które mają na celu zatrucie modeli AI.
W chwili obecnej chyba tylko model sztucznej inteligencji z OpenAI, próbuje nawiązać walkę (a właściwie jej uniknąć) z programami antyspamowymi. Ponoć jest już w stanie wykryć zasadzkę i opuścić daną witrynę.
Problem
Wiem, że może dla nas, zwykłych twórców blogów i niewielkich portali informacyjnych, jest to mało uciążliwe. Pomyślcie jednak o właścicielach serwerów. Na każdym z nich mają tysiące witryn, gdzie scrapery typu CloudeBot skanują je miliony razy „zabijając” przy tym przepustowość.
Pewien „programista” sam chciał sprawdzić działanie tego typu programu. Stworzył więc (opierając się na podobnym założeniu co Nepenthes) algorytm nazwany Iocaine. Po uruchomieniu, w ciągu kilku chwil, udało się ograniczyć o 94% ruch botów na jego serwerze. Tu chciałbym wrócić (choć na chwilę) do mojego poprzedniego artykułu – „Teoria martwego internetu„. Chyba wraz z innymi miałem rację co do tej teorii. Niestety z każdym rokiem, problem będzie się tylko rozrastał. Może więc również się okazać, że cała przepustowość internetu będzie niszczona przez podobne scrapery AI. Czy stanie się to nowym wyzwaniem dla dostawców sieci?
Podsumowanie
Jak sami widzicie, wyścig pomiędzy AI i jej przeciwnikami wciąż narasta. Twórcy sztucznej inteligencji, nie chcąc płacić za dane na których ją uczą, narażają się na przykre konsekwencję. Opór ze strony twórców treści, będzie więc trwał w najlepsze. Mało tego, może również doprowadzić do celowego ogłupiania sztucznej inteligencji i programów na niej bazujących.
Czy uda się kiedyś rozwiązać ten węzeł gordyjski? Szczerze to nie wiem. Czy AI może być głupsze niż myśleliśmy? Jak widać – może. Jakie jeszcze niebezpieczeństwa czekają na AI w sieci? To już zapewne materiał na inny artykuł, a póki co…
Do następnego!!!
- Crawler – program komputerowy, który służy do wyszukiwania i automatycznego indeksowania treści stron internetowych i innych informacji w Internecie. Programy, lub boty, są najczęściej używane do tworzenia wpisów do indeksu wyszukiwarki. ↩︎
- Scraper – program do kopiowania i ekstrakcji danych z witryn internetowych. Działa automatycznie pobierając i przesyłając na swoje serwery dane treści, również niewidoczne dla czytelnika, łącznie z adresami email. ↩︎