Grūtā daļa nav atklāt kopijas

Ir nomierinoša stāsts, ko cilvēki mīl stāstīt par AI sistēmām: ja modelis atkārto pārāk daudz, mēs to pamanīsim. Šis stāsts nav nepareizs, precīzāk sakot. Tas ir vienkārši nepilnīgs veidā, kas ir svarīgs. Modelis, kas pārāk cieši atkārto kādu fragmentu, var tikt izsekots, izmērīts un dažos gadījumos saistīts ar tā avotu. Tas ir noderīgi. Tas ir arī vieglākais šī problēma variants.
Tas, kas mani patiesi uztrauc, nav acīmredzamā atkārtošanās. Tas ir klusāks aizņemšanās veids, tas, kas neparādās kā tīrs citāts, bet joprojām maina modeļa domāšanas veidu. Sistēma var iemācīties, kā joma ir organizēta, kuras atšķirības ir svarīgas, kuras termiņi pieder kopā, kuras jautājumi ir vērti uzdot vispirms. Nekas no tā nav jāparādās vārds vārdā, lai tas būtu noticis. Un, kad tas ir noticis, ietekme jau ir iekšā modelī, pat ja pierādījumi ir pazuduši no virsmas.
Tāpēc iegaumēšanas atklāšana šķiet gan nepieciešama, gan nepietiekama. Nepieciešama, jo precīza reprodukcija ir reāla un to nevajadzētu aizmirst kā nekaitīgu negadījumu. Ja modelis izdala fragmentu, kas ir gandrīz identisks kaut kam tā apmācību datos, tas nav filozofisks mīkla. Tas ir praktisks notikums ar juridiskām, komerciālām un ētiskām sekām. Kāda darba rezultāts var parādīties veidā, kas pelnījis atribūciju vai atlīdzību. Šādos gadījumos arguments par izvades izsekošanu atpakaļ uz avotu ir spēcīgs, un tehnoloģija, kas pamatota uz sufiksu saskaņošanu vai garo prefiksu meklēšanu, ir patiesa vērtība.
Bet lielāka problēma atrodas aiz šī šaurā uzvaras. Liela daļa no tā, kas padara AI sistēmu izskatīties spējīgu, nav iegaumēta teikuma. Tā ir modeļu iekšējā apguve, kas kādreiz piederēja cilvēku rakstniekiem, pētniekiem un nozares ekspertiem. Modelis var nekad neatkārtot līniju no medicīnas raksta, juridiskā dokumenta vai tehniskā esejas, un tomēr nēsāt uz priekšu domāšanas struktūru, ko šis raksts palīdzēja mācīt. Šāda veida ietekme ir grūtāk nosaukt, jo tā nenonāk formā, uz kuru sistēma var viegli norādīt. Tā ir uzsūcama, nevis kopēta. Tā ir visur izvades rezultātā un nekur citur citēšanas pēdā.
Tas rada dīvainu nelīdzsvarotību. Ieguldītājs, kuru vārdi tiek reprodukti tieši, ir redzams mašīnai, kamēr ieguldītājs, kura idejas ietekmēja visu atbildi, var palikt efektīvi neredzams. Parastiem vārdiem, tas ir apgriezti. Kopija ir vieglāk saskaitāma nekā dziļāka intelektuāla ieguldījuma. Skaļākais pierādījums ne vienmēr ir svarīgākais pierādījums. Tas, kas var tikt indeksēts, tiek atlīdzināts; tas, kas var tikai tikt secināts, tiek ignorēts.
AI diskursā ir vilinājums skatīt atribūciju kā tehnisku attīrīšanas problēmu. Uzbūvēt pareizo indeksu, meklēt pret korpusu, novērtēt pārklājumu, un taisnīguma jautājums pašregulēsies. Tas izklausās kārtīgi, jo tas pārvērš haotisku cilvēka bažas par mašīnai saprotamu procedūru. Bet procedūra stāsta tikai daļu stāsta. Tā var parādīt, kad modelis ir pārāk tuvu avotam. Tā nevar pateikt, kad visa tēmas ietveršanās veids ir mantojums bez pēdām. Tā nevar izmērīt kluso parādu, ko sistēma ir parādā cilvēkiem, kuru darbs devusi tai izjūtu par to, kas pieder kopā.
Tas ir svarīgi, jo AI virzās uz sistēmām, kas ne tikai atbild uz jautājumiem, bet arī organizē spriedumus. Šajā kontekstā ietekmīgākais apmācību materiāls var nebūt teksts, kas vēlāk atkārtojas. Tas var būt teksts, kas mācīja modelim, ko pamanīt, ko ignorēt un kā rangēt vienu skaidrojumu virs otra. Šāda veida nospiedums ir smalks, bet tas nav abstrakts. Tas ietekmē rezultātus. Tas veido pārliecību. Tas nosaka, kāda veida atbildi modelis uzskata par dabiski.
Tāpēc reālais izaicinājums nav vienkārši identificēt iegaumēto tekstu. Tas ir izlemt, kā novērtēt ieguldījumu, kad ieguldījums ir pārvērsts līdz nepazīšanai. Jo vieglāk ir izsekot, jo vieglāk ir samaksāt. Jo dziļāka ir ietekme, jo grūtāk ir pierādīt. Tas ir slikts saskaņojums, ja mērķis ir nopietna datu ekonomika.
Ko mēs varbūt vajadzētu, ir godīgāka vārdu krājums atkarībai. Ne katrs noderīgs avots var tikt samazināts līdz citētam posmam. Ne katrs nozīmīgs ieguldījums izdzīvo kā saskaņa. Daži darbi kļūst par modeļa loģikas audumu, un, kad tas notiek, vecā valoda par kopēšanu ir pārāk maza, lai aprakstītu to, kas ir ņemts. Rūpniecība var turpināt veidot labākus detektorus, un tai vajadzētu. Bet būtu kļūda sajaukt atklājamību ar taisnīgumu.
Neērta patiesība ir tāda, ka mašīnas labāk atkārto nekā saprot, un šobrīd mēs labāk atlīdzinām atkārtošanu nekā ietekmi. Šī plaisa ir vieta, kur dzīvo reālā problēma.
@OpenLedger #openledger $OPEN