Chi è Luca Morisi, social media manager di SalviniCon sempre più disinvoltura le aziende AI tentano di assorbire dati ‘razziandoli’ in tutto il web per usarli negli addestramenti dei propri modelli.E con sempre più forza organizzazioni grandi e meno grandi rispondono creando strumenti per evitare che questo avvenga,investimenti nell’attesa che la giurisprudenza alzi la testa e regolamenti un campo dell’AI del tutto fondamentale ma ancora somigliante a una specie di Far West. I temi trattati all’interno dell’articoloLa pratica dello scrapingAtti di resistenzaMantelli dell’invisibilità e altri rimedi“Tu non puoi passare”Chi sono i veri hacker?La pratica dello scrapingTra i temi più dibattuti nelle ultime settimane in ambito intelligenza artificiale ai primi posti c’è proprio quello della legittimità delle company di immagazzinare dati prendendoli ‘in prestito‘ da siti e altre fonti. Con sempre più frequenza capita di imbattersi nell’espressione ‘scraping‘: è il processo tramite cui aziende come OpenAI o Google setacciano il web per estrarre dati. Spesso è un’operazione automatizzata e sono sempre di più gli attori del mondo digitale a schiararsi contro questa pratica. Di fatto, non è ancora del tutto chiaro se lo scraping vada considerata una pratica legale o illegale. A stabilirlo saranno le normative che le grandi potenze mondiali, USA e Europa in testa, stanno elaborando in vista del 2024.Atti di resistenzaMetodi veri e propri per impedire in toto alle aziende di compiere azioni scraping sui propri spazi digitali non ne esistono: esistono dei modi per richiedere ai sistemi automatizzati di non prenderli (il più noto è l’inserimento di un file di nome robots.txt nel ‘dna dei siti’). Il problema è che si tratta solo di richieste che non comportano nessun obbligo: si può suggerire ai cosiddetti scraper di non usare i dati, ma non li si può costringere a non farlo. Di recente ha fatto molto discutere il braccio di ferro tra il New York Times e OpenAI. La testata ha diffidato pubblicamente l’azienda dall’usare i propri contenuti gratuitamente e ha scomodato la cara vecchia giurisprudenza per tentare di mettere Sam Altman in un angolo. L’azione ha assunto più l’aspetto di un’azione dimostrativa.Il New York Times blocca OpenAI e valuta una causa legaleMantelli dell’invisibilità e altri rimediSe la questione mette in allarme il New York Times, figurarsi operatori più piccoli. Sul web esistono rimedi diversi per fronteggiare lo scraping ma nessuno sembra davvero promettere un’efficacia duratura. Per tutta risposta sono già nati servizi di varia natura a fronteggiare i ‘predoni automatici di dati’. Uno dei più noti è Glaze, tool sviluppato dall’Università di Chicago pensato soprattutto per difendere le immagini permettendo di inserire una filigrana digitale, una sorta di mantello che le renda invisibili agli sguardi degli scraper.Aziende che si occupano della difesa dai bot stanno riconvertendo la loro offerta in blocchi anti-scraping. È il caso dell’azienda informatica francese DataDome, che ha dichiarato recentemente a Wired che il 70% dei suoi clienti attuali è composto da enti che chiedono di bloccare ChatGpt e altri modelli linguistici di grandi dimensioni. Questi servizi hanno ancora un grande problema: sono pensati per le aziende e difficilmente sono accessibili ai singoli utenti.Meta AI addestrata con i dati di Facebook e Instagram“Tu non puoi passare”La più recente proposta, innovativa perché dedicata ai privati, arriva dalla startup dedicata a servizi AI nel mondo dell’arte Spawning. Il team ha presentato un nuovo strumento di nome Kudurru, come la stele utilizzata come simbolo di confine nell’antica Babilonia.Kudurru è un sistema che grazie ad una continua vigilanza attiva crea delle barriere temporanee che impediscono agli scraper di passare.Non è un tool né una singola applicazione, è più un metodo per identificare con precisione chi tenta di ottenere i dati web da uno spazio digitale, fermandone l’azione.Il funzionamento del sistema ricorda gli stratagemmi utilizzati nel film Matrix per permettere agli umani di difendersi dalle sentinelle robot. Kudurru non protegge solo un singolo sito o spazio, ma funziona attraverso un sistema a rete: monitora i set di dati più popolari e identifica rapidamente i tentativi di scraper. Quando lo scraper viene identificato, il sistema triangola l’IP del responsabile trasmettendo la sua identità a tutti i siti della rete Kudurru. Questi bloccano quindi collettivamente lo scraper in questione nello stesso momento, impedendogli di scaricare contenuti dai rispettivi host per circa due ore. Quando lo scraper si allontana, Kudurru informa la rete e il traffico è autorizzato a procedere normalmente. Una vera e propria mimetizzazione. È in grado di bloccare 550.000 richieste di scraping in sole 24 ore. L’AI Act e la tutela dei dirittiChi sono i veri hacker?Oltre a generare lo scudo contro il furto ‘legale’ di dati, il nuovo sistema Kudurru è in grado di effettuare un depistaggio, selezionando dati alternativi da offrire al posto di quelli che gli scraper stanno richiedendo, “avvelenando i loro modelli“.Un tempo gli hacker erano singoli utenti che tentavano di penetrare i varchi digitali delle grandi compagnie. Oggi sembra più che siano le grandi compagnie ad adottare metodi da hacker costringendo i piccoli operatori alla difesa. Il tema non riguarda solo la cessione dei dati, ma la gratuità di questa cessione. Se le big tech promettessero di pagare per i contenuti di cui hanno bisogno forse nascondersi dietro a scudi e barriere digitali non sarebbe l’unica strada perseguibile. Rimane solo da attendere l’evoluzione della giurisprudenza.L’immagine in evidenza è tratta dal video di presentazione di Kudurru
Verona, scontri sull'aborto: fuori da scuola caramelle e volantini sulla 194Manovra, lettera all'Ue: deficit al 2,4%, limite invalicabile Legge di bilancio, Di Maio: "Mattarella fondamentale"Di Maio: "Reddito di cittadinanza solo agli italiani"Tria alla Ue: "Sappiamo di non rispettare le regole"