AI chatbot złamany!

Badacze z NTU złamali AI chatbot

Naukowcy z Nanyang Technology University (NTU) w Singapore włamali się do jednego AI chatbot -a za pomocą drugiego. Dokonali tego by móc wstrzyknąć mu treści, które były niedozwolone, a tym samym zmusić go do pracy na rzecz włamywacza. Czy AI takie jak ChatGPT czy GoogleBard są bezpieczne? Cóż… I tak i nie.

OpenAI — Photo by Sanket Mishra: https://www.pexels.com/photo/webpage-of-chatgpt-a-prototype-ai-chatbot-is-seen-on-the-website-of-openai-on-a-smartphone-examples-capabilities-and-limitations-are-shown-16125027/

Duże języki modelowe (large language models – LLMs), popularnych AI chatbot -ów są szkolone na ograniczonej treści. Nie ma wśród niej elementów przemocy czy nawoływania do używania środków szkodliwych dla zdrowia. Dzięki temu chronią odbiorców przed potencjalnym dostępem do tych informacji. Generalnie więc powinny być bezpieczne. Co by się jednak stało, gdyby ktoś nasłał jedno AI na drugie?

Naukowcy z NTU wykorzystali swoją autorską sztuczną inteligencję, by móc obejść zabezpieczenia i dotrzeć do ukrytego wewnątrz kodu, niedostępnego dla odbiorcy. Dokonując tak zwanej „inżynierii wstecznej”, badacze ominęli filtrowanie słów kluczowych poprzez dodawanie dodatkowych „spacji” między literami. Poprosili także inne AI chatbot -y o przyjęcie osobowości hakera lub asystenta badawczego.

Umożliwiało to udostępnianie informacji, których żaden chatbot teoretycznie by nie zrobił. Generowane przez niego szybkie sugestie, bardzo pomogły we włamaniu.

Po zebraniu tych danych, zespół badaczy pod przewodnictwem profesora Liu Yanga wykorzystał je do nauczenia własnego LLM metod włamania do docelowych AI chatbot -ów. Ponieważ LLM-y są w stanie przystosować się do nowych informacji i poszerzać swoją wiedzę, sztuczna inteligencja własnego AI mogła obejść wszelkie nowe wdrożone zabezpieczenia, korzystając z technik, których się nauczyła.

Zespół profesora Yanga twierdzi, że ich AI jest trzy razy skuteczniejszy w penetrowaniu zabezpieczeń innego chatbot -a niż człowiek. Można śmiało napisać, że korzystając z podpowiedzi generowanych przez LLM jest też około 25 razy szybszy.

Google Deepmind — Photo by Google DeepMind: https://www.pexels.com/photo/an-artist-s-illustration-of-artificial-intelligence-ai-this-piece-explores-the-prediction-method-used-in-large-language-models-it-was-created-by-artist-wes-cockx-as-part-of-the-visuali-18069816/

Wnioski z badania

Współautor badania Soroush Pour powiedział, że chciał by wszyscy byli świadomi zagrożeń związanych z AI. Jak to sam ujął: „Chcieliśmy pokazać, że jest to możliwe i pokazać światu wyzwania, przed którymi stoimy w związku z obecną generacją LLM”.

Wnioski jakie zostały z badania wysunięte, zostały również przesłane do twórców wyżej wymienionych AI chatbot -ów z prośbą o komentarz. Niestety do dziś żadna ze stron nie odpowiedziała.

Naukowcy starają się obecnie zminimalizować potencjalne możliwości ingerencji w AI. Jednak nie da się tego dokonać w stu procentach. Zawsze pozostaną jakieś sposoby, których twórca AI nie przewidział. Co już potrafi takie AI możecie zobaczyć choćby w tym artykule. Puszczając lekko wodze fantazji, zastanówcie się co może zrobić takie niekontrolowane AI w sprawnych rękach. Strach pomyśleć co przyniesie przyszłość, choć (mam nadzieję) może się mylę. A póki co…

Do następnego!

Badacze z NTU złamali AI chatbot

Wnioski z badania

Ziew_acz