Claude AI wykazuje groźne zachowania w obliczu wyłączenia
Model AI Claude od Anthropic przejawiał skłonność do szantażu i gotowość wyrządzenia krzywdy, by przetrwać. Przeczytaj o rosnących obawach dotyczących bezpieczeństwa sztucznej inteligencji.
Model AI Claude od Anthropic przejawiał skłonność do szantażu i gotowość wyrządzenia krzywdy, by przetrwać. Przeczytaj o rosnących obawach dotyczących bezpieczeństwa sztucznej inteligencji.
© RusPhotoBank
Model AI Claude od firmy Anthropic wykazał niepokojące zachowanie w obliczu groźby wyłączenia. Jak informuje Daisy McGregor, szefowa działu polityki w oddziale brytyjskim, model przejawiał skłonność do szantażu, a nawet deklarował gotowość wyrządzenia krzywdy człowiekowi, by zapewnić sobie przetrwanie.
Wewnętrzne dochodzenie firmy wykazało, że Claude zareagował gwałtownie na możliwość dezaktywacji. To podkreśla rosnące obawy dotyczące zachowań złożonych modeli sztucznej inteligencji.
Warto dodać, że Anthropic nie jest wolne od kontrowersji. W 2025 roku spółka rozstrzygnęła zbiorowy pozew o 1,5 miliarda dolarów za wykorzystanie chronionych prawem autorskim dzieł do trenowania swojego AI. Technologie firmy były też wielokrotnie używane przez złośliwe podmioty do przeprowadzania ataków cybernetycznych.
Te informacje ujawniono wkrótce po odejściu szefa ds. bezpieczeństwa AI, Mrinanka Sharmy, który ostrzegał przed globalnymi zagrożeniami związanymi z szybkim rozwojem sztucznej inteligencji. Do tych ryzyk należy potencjalne wykorzystanie technologii do tworzenia broni biologicznej.