Is This Safe? #3: „No training on your data" – co to je trénování a kde se do toho můžou dostat vaše data

Než budeme řešit větu „no training on your data“, je fér si vysvětlit, co to trénování vůbec je. Protože spousta lidí si pod tím představí: „AI si pamatuje, co jsem jí napsal.“ A to není úplně ono.

Co je trénování

Trénování je proces, kdy se AI „učí“ tak, že se jí ukazuje obrovské množství textů a ona se na nich učí předvídat, co dává smysl. Podobně jako když se někdo učí psát: čte hromadu textů, zkouší napsat větu, někdo mu řekne „tohle je divný“, a on se postupně zlepšuje.

A to nejdůležitější: trénování je velká plánovaná výroba. Neděje se pokaždé, když se zeptáte.

Představte si to jako:

Běžné používání AI

Stojíte u pultu a řeknete: „dej mi kafe“ → barista vám ho udělá a jde dál.

Trénování AI

Továrna ladí recepturu kávy a přenastavuje stroje, aby příště dělaly lepší kafe pro všechny.

Tohle jsou dvě různé věci.

Jak trénování typicky probíhá

Krok 1: Někdo posbírá data na učení

Aby se AI zlepšovala, potřebuje „učebnici“: velký balík textů, na kterých se učí. To jsou tzv. trénovací data. Tady je první místo, kde může (nebo nemusí) vzniknout problém:

Může se do té učebnice dostat i obsah uživatelů? Třeba věci, co lidi píšou do chatu, nebo dokumenty, co nahrávají. A právě proto existuje ten claim: „no training on your data“. To v překladu znamená: „Vaše věci nepřidáváme do té učebnice.“

Krok 2: AI se na těch datech „učí“

AI má něco jako „vnitřní nastavení“, díky kterému umí psát. Trénování znamená: AI dostane kus textu, zkusí doplnit pokračování, když se netrefí, „opraví se“ – a takhle dokola milionkrát.

Trénování znamená změnu AI samotné. Nejen to, že si někam uloží váš text.

Krok 3: Dolaďovací fáze

Kromě základního učení existují ještě další „vylepšení“, aby AI odpovídala užitečněji, držela instrukce, byla méně toxická a dávala kvalitnější výstupy. Někdy se k tomu používají příklady promptů a odpovědí, někdy lidi hodnotí, která odpověď je lepší.

A zase: otázka není „děje se to?“ (děje). Otázka je: používají na to i reálný obsah uživatelů? A za jakých podmínek?

Kde přesně se do trénování můžou dostat „moje data“?

U běžných veřejných AI služeb je často „zlepšování modelu“ defaultně zapnuté a pokud to nechcete, musíte si to aktivně vypnout (opt-out).

Pozor: i když máte trénování vypnuté, jakmile dáte zpětnou vazbu (palec nahoru/dolů, nahlášení odpovědi, komentář typu „tohle je špatně“), je to vlastně další způsob sběru dat pro zlepšování.

„No training“ řeší jen jednu konkrétní obavu

…že se vaše dokumenty stanou „materiálem“, ze kterého se AI učí pro ostatní. Super.

Ale neřeší to, co se děje s vašimi daty při běžném provozu služby.

A to je přesně důvod, proč se lidi nechají ukolejšit frází „no training“, ale pořád se může stát průšvih.

„No training“

Nepoužijeme vaše věci na učení modelu.

Ale pořád zbývá

Ukládání a historie, logy, přístupy lidí, subdodavatelé, retence.

A přesně to jsou ty další šuplíky, které rozhodují, jestli je to safe. Víc o nich najdete v prvním dílu: 3 otázky, které vám pomohou rozhodnout.

V dalším dílu se podíváme na to, jaký je reálný rozdíl mezi free a enterprise verzemi AI nástrojů – a proč to, co používáte doma, nemusí být vhodné pro firmu.

Is This Safe? #3: „No training on your data“ – co to je trénování a kde se do toho můžou dostat vaše data