[RFR] wml://www.debian.org/dutch/vote/2025/vote_002.wml

To: Debian Dutch l10n Team <debian-l10n-dutch@lists.debian.org>
Subject: [RFR] wml://www.debian.org/dutch/vote/2025/vote_002.wml
From: Frans Spiesschaert <Frans.Spiesschaert@yucom.be>
Date: Mon, 12 May 2025 21:28:36 +0200
Message-id: <[🔎] 4f55cbd791a0ba491b44dc00879cf4b046346f44.camel@yucom.be>

Dag iedereen,

In de git-opslagplaats webwml werd
dutch/vote/2025/vote_002.wml als nieuwe vertaling toegevoegd.
In bijlage de vertaling, samen met de vertaalde bijlagen.

-- 
Met vriendelijke groet,
Frans Spiesschaert

#use wml::debian::translation-check translation="afff472f0aaa75486fc1a423aa66eeffc1504af3"
<define-tag pagetitle>Algemene resolutie: Interpretatie van DFSG inzake modellen voor artificiële intelligentie (AI)</define-tag>
<define-tag status>D</define-tag>
# meanings of the <status> tag:
# P: proposed
# D: discussed
# V: voted on
# F: finished
# O: other (or just write anything else)

#use wml::debian::template title="<pagetitle>" BARETITLE="true" NOHEADER="true"
#use wml::debian::toc
#use wml::debian::votebar


    <h1><pagetitle></h1>
    <toc-display />

# The Tags beginning with v are will become H3 headings and are defined in
# english/template/debian/votebar.wml
# all possible Tags:

# vdate, vtimeline, vnominations, vdebate, vplatforms,
# Proposers
#          vproposer,  vproposera, vproposerb, vproposerc, vproposerd,
#          vproposere, vproposerf
# Seconds
#          vseconds,   vsecondsa, vsecondsb, vsecondsc, vsecondsd, vsecondse,
#          vsecondsf,  vopposition
# vtext, vtextb, vtextc, vtextd, vtexte, vtextf
# vchoices
# vamendments, vamendmentproposer, vamendmentseconds, vamendmenttext
# vproceedings, vmajorityreq, vstatistics, vquorum, vmindiscuss,
# vballot, vforum, voutcome


    <vtimeline />
    <table class="vote">
      <tr>
        <th>Discussieperiode:</th>
	<td>21-04-2025</td>
	<td></td>
      </tr>
#      <tr>
#	<th>Stemperiode:</th>
#	<td>Zaterdag 09-05-2025 00:00:00 UTC</td>
#	<td>Vrijdag 22-05-2025 23:59:59 UTC</td>
#      </tr>
    </table>

    <vproposera />
    <p>Mo Zhou [<email lumin@debian.org>]
	[<a href='https://lists.debian.org/debian-vote/2025/04/msg00101.html'>tekst van het voorstel</a>]
    </p>
    <vsecondsa />
    <ol>
        <li>François Mazen [<email mzf@debian.org>] [<a href='https://lists.debian.org/debian-vote/2025/04/msg00103.html'>e-mailbericht</a>]</li>
        <li>Timo Röhling [<email roehling@debian.org>] [<a href='https://lists.debian.org/debian-vote/2025/04/msg00104.html'>e-mailbericht</a>]</li>
        <li>Matthias Urlichs [<email smurf@debian.org>] [<a href='https://lists.debian.org/debian-vote/2025/04/msg00105.html'>e-mailbericht</a>]</li>
        <li>Christian Kastner [<email ckk@debian.org>] [<a href='https://lists.debian.org/debian-vote/2025/04/msg00106.html'>e-mailbericht</a>]</li>
        <li>Boyuan Yang [<email byang@debian.org>] [<a href='https://lists.debian.org/debian-vote/2025/04/msg00107.html'>e-mailbericht</a>]</li>
        <li>Gunnar Wolf [<email gwolf@debian.org>] [<a href='https://lists.debian.org/debian-vote/2025/04/msg00108.html'>e-mailbericht</a>]</li>
        <li>Carsten Leonhardt [<email leo@debian.org>] [<a href='https://lists.debian.org/debian-vote/2025/04/msg00111.html'>e-mailbericht</a>]</li>
        <li>Andrea Pappacoda [<email tachi@debian.org>] [<a href='https://lists.debian.org/debian-vote/2025/04/msg00117.html'>e-mailbericht</a>]</li>
    </ol>
    <vtexta />
<h3>Keuzemogelijkheid 1</h3>

<h4>"AI-modellen die zijn uitgebracht onder een openbronlicentie zonder originele trainingsgegevens of -programma" worden niet als DFSG-conform beschouwd.</h4>

<p>
De "AI-modellen die zijn uitgebracht onder een openbronlicentie zonder
originele trainingsgegevens of -programma", een bepaald type bestanden
zoals hierboven uitgelegd, worden niet als DFSG-conform beschouwd.
Bijgevolg kunnen ze niet worden opgenomen in de sectie "main" van het
Debian-archief. Dit voorstel geeft niet aan of de sectie "non-free" van
het Debian-archief deze bestanden wel kan bevatten.
</p>


<h4>Bijlage</h4>

<p>Het is onvermijdelijk dat sommige terminologie en/of achtergrondinformatie niet goed bekend is bij of begrepen wordt door het grote publiek. Raadpleeg de bijlagen voor meer informatie. Als u geen relevante informatie kunt vinden om uw vraag te beantwoorden, raadpleeg dan een menselijke professional -- of een LLM.</p>

Zie <a href='AppendixA.txt'>bijlage A</a> voor een gedetailleerde onderbouwing van dit voorstel.<br/>
Zie <a href='AppendixB.txt'>bijlage B</a> voor achtergrondinformatie en opmerkingen over de huidige AI-software.<br/>
Zie <a href="AppendixC.txt">bijlage C</a> voor enkele aanverwante eerdere pogingen en discussies.<br/>
Zie <a href='AppendixD.txt'>bijlage D</a> voor opmerkingen over de mogelijke implicaties van dit voorstel.<br/>

<h4>Vrijwaring</h4>

<p>We erkennen dat het vrijgeven van bruikbare AI-modellen onder permissieve licenties zoals MIT/Expat en Apache-2.0 een genereuze daad is van de oorspronkelijke auteurs vanwege de enorme kosten, en het is een grote bijdrage aan het software-ecosysteem en de maatschappij.
We respecteren oprecht het werk van de respectieve auteurs. Aan de andere kant legt DFSG de lat vrij hoog voor software die mag worden opgenomen in de Debian distributie, wat betekent dat de AR kan leiden tot resultaten waar niet iedereen het mee eens is.
Desalniettemin waarderen we uw begrip voor de missie van het Debian project -- het creëren van een vrij besturingssysteem, waarbij “vrij” staat voor “softwarevrijheid”.
</p>

#    <vquorum />
#
#     <p>
#        Met de huidige lijst met <a href="vote_002_quorum.log">
#        stemgerechtigde ontwikkelaars</a>, hebben we
#     </p>
#    <pre>
##include 'vote_002_quorum.txt'
#    </pre>
##include 'vote_002_quorum.src'
#
#
#    <vstatistics />
#    <p>
#	Zoals steeds worden ook voor deze AR
##                <a href="https://vote.debian.org/~secretary/gr_cra_pld/";>statistieken</a>
#               <a href="suppl_002_stats">statistieken</a>
#		verzameld over ontvangen stembiljetten en verzonden
#		ontvangstbevestigingen tijdens de stemperiode.
#               Bovendien wordt de lijst van <a
#               href="vote_002_voters.txt">kiezers</a> geregistreerd.
#               Ook zal de <a href="vote_002_tally.txt">scoretabel</a>
#               ter inzage worden gelegd.
#         </p>
#
#    <vmajorityreq />
#    <p>
#      Elk voorstel heeft een gewone meerderheid nodig.
#    </p>
##include 'vote_002_majority.src'
#
#    <voutcome />
##include 'vote_002_results.src'
#
    <hrline />
      <address>
        <a href="mailto:secretary@debian.org";>Debian-projectsecretaris</a>
      </address>

Bijlage D.1 -- Onafhankelijkheidsutopie
---------------------------------------

Het verzamelen van trainingsgegevens en het trainen van AI-modellen is een zeer duur proces, vooral voor modellen die vergelijkbaar zijn met de meest geavanceerde modellen. Dit maakt de kwestie rond AI-softwarevrijheid heel anders dan de kwestie rond vrije software in het tijdperk van de vrijesoftwarebeweging.

* In die tijd konden individuele ontwikkelaars zelf vrije software creëren, zoals Emacs. Vervolgens konden ze hun eigen creatie als "vrije software" definiëren.

* Op dit moment is het voor individuele ontwikkelaars en vrije softwaregemeenschappen niet eenvoudig om zelf grote AI-modellen te trainen.

Het leidt tot een tijdelijke paradox waarbij mensen misschien "vrije software AI" willen definiëren, maar niet in staat zijn er zelf te creëren (die nuttig genoeg is in plaats van alleen educatief), vanwege een gebrek aan middelen. De beslissing die voorgesteld wordt, kan leiden tot enige openlijke kritiek vanwege dit dilemma.

Bijlage D.2 -- Mogelijke implicaties van dit voorstel
-----------------------------------------------------

Nadeel: Vrijwel geen enkel bestaand AI-model dat bruikbaar genoeg is, kan in de afdeling main van het Debian-archief terechtkomen. Debian kan de meeste AI-software namelijk niet leveren zonder te vertrouwen op downloads van internet. Het downloaden van vooraf getrainde AI-modellen is echter een veelvoorkomende praktijk. Het niet leveren van vooraf getrainde AI-modellen in het Debian-archief zal voor gebruikers geen probleem zijn.

Nadeel: Debian kan publieke kritiek krijgen omdat het te conservatief is en de wereldwijde trend niet omarmt. Dit is begrijpelijk als bruikbaarheid/aantrekkelijkheid belangrijker wordt gevonden dan softwarevrijheid.

Voordeel: In de nabije toekomst zullen we niet het hoofd moeten bieden aan het technische probleem van het verwerken van modellen van meer dan 10 GB in .deb-pakketten. En we hoeven ons geen zorgen te maken over het opblazen van duizenden benedenstroomse Debian-spiegelservers door de enorme instroom van grote binaire bestanden.

Bijlage C.1 -- Aanverwante pogingen ter referentie
--------------------------------------------------

Ongeveer vijf jaar geleden hadden we een verhitte discussie over dit onderwerp [lwn].
Na die verhitte discussie hebben we uiteindelijk een niet-officieel document gemaakt met de naam ML-policy [ml-policy] om een aantal zaken te verduidelijken.

[lwn]: https://lwn.net/Articles/760142/
[ml-policy]: https://salsa.debian.org/deeplearning-team/ml-policy/-/blob/master/ML-Policy.rst

Open Source Initiative heeft de Open Source AI Definitie (OSAID) gedefinieerd. [osaid].
TPTOF voldoet mogelijk aan OSAID versie 1.0, maar voldoet niet aan het huidige voorstel, zoals besproken [data-access][concerns]. De Free Software Foundation (FSF) werkt momenteel aan soortgelijke onderwerpen [fsf].

[osaid] https://opensource.org/ai/open-source-ai-definition)
[fsf] https://www.fsf.org/news/fsf-is-working-on-freedom-in-machine-learning-applications 
[data-access]: https://discuss.opensource.org/t/training-data-access/152
[concerns]: https://lists.debian.org/debian-project/2024/10/msg00005.html

Bijlage B.1 -- Is artificiële intelligentie nieuw?
-------------------------------------------------

Neen.

In de vorige eeuw kenden we al AI-software, zoals de automatische
programma's voor differentiaal- en integraalrekening [maxima]. Hun
intelligentie komt voort uit een set door mensen ontworpen regels. Dit is
prima voor sommige goed gedefinieerde problemen. Na vele jaren van
ontwikkeling zijn mensen er geleidelijk in geslaagd AI-software te
ontwerpen die handgeschreven cijfers kan herkennen [mnist]. Naarmate de
capaciteit van computerhardware toenam, slaagden mensen erin AI-software
te maken die menselijke gezichten [facenet] of objecten in afbeeldingen
[imagenet, resnet] kan herkennen. Vervolgens bleven mensen de
trainingsgegevens en de rekenkracht opschalen, en tegelijk met de
architectuurrevolutie [transformer] creëerde een groep mensen ChatGPT
[instructgpt], wat uiteindelijk de AI-hype aanwakkerde.

[maxima]: https://maxima.sourceforge.io/
[mnist]: https://en.wikipedia.org/wiki/MNIST_database
[facenet]: https://arxiv.org/abs/1503.03832
[imagenet]: https://arxiv.org/abs/1409.0575
[resnet]: https://arxiv.org/abs/1512.03385
[transformer]: ook bekend als "Aandacht is alles wat u nodig heeft". https://arxiv.org/abs/1706.03762
[instructgpt]: https://arxiv.org/abs/2203.02155

Als u meer wilt weten over de geschiedenis van AI en de recente
ontwikkelingen op AI-gebied, is het raadzaam om andere bronnen te
raadplegen, zoals Wikipedia. Mijn persoonlijke aanbeveling voor
professionele lectuur over de recente ontwikkelingen is het boek Deep
Learning [dlbook]. De hierboven genoemde arxiv-papers zijn simpelweg
mijlpalen in de ontwikkeling van AI.

Oh, in het bijzonder de populaire grote taalmodellen (Large Language Models - LLM's) zijn meestal transformatoren die enkel decoderen [transformer].

[dlbook]: https://www.deeplearningbook.org/

Bijlage B.2 -- Wat is (moderne) AI-software?
-------------------------------------------

Vooreerst is het nog steeds software, maar dan een specifiek type. In de huidige context verwijst het naar software die in staat is om van gegevens te leren en voorspellingen te maken of beslissingen te nemen op basis van de verworven kennis. De getrainde AI-modellen kunnen samen met de inferentiesoftware worden gedistribueerd om ingezet te worden om een bepaalde functionaliteit te leveren. Vanuit het perspectief van het bestandssysteem omvat de ontwikkeling en distributie van AI-software verschillende onderdelen:

(1) Trainingsgegevens, of een trainingssimulator. De trainingsgegevens kunnen bijvoorbeeld bestaan uit een grote dataset met afbeeldingen en hun annotaties [imagenet,coco] voor sommige AI's die zich richten op machinaal gezichtsvermogen. In de natuurlijke taalverwerking (of computationele linguïstiek) kunnen de trainingsgegevens Wikipedia-dumps zijn. Een trainingssimulator is niet helemaal gelijk te stellen met "data", want het kan Grand Theft Auto [gta] of Minecraft [minecraft] zijn, die gebruikt worden om AI-actoren te trainen. Fysicasimulators en Atari-games worden ook voor dit doel gebruikt.

(2) Trainingssoftware. Dit is gewoon software, geschreven in uw vertrouwde taal zoals Python, C++, enz. Deze definieert de modelarchitectuur, algoritmeparameters en het trainingsproces. U kunt de trainingssoftware uitvoeren op de voorbereide trainingsgegevens en een getraind model verkrijgen. Het model wordt in latere stappen ook wel een "vooraf getraind" model genoemd.

(3) Vooraf getraind model. Technisch gezien kunt u zo'n model beschouwen als een verzameling matrices en vectoren. En op de schijf zijn dit inderdaad matrices en vectoren. Het model is het moeilijkste onderdeel. We zullen hier later verder op ingaan.

(4) Inferentiesoftware. Inferentie is de fase waarin men een al getraind (d.w.z. vooraf getraind) model gebruikt om voorspellingen te doen. Het trainen van software op zich is niet voldoende als men een vooraf getraind model wil gebruiken. Dat komt omdat de inferentie van een AI-model heel anders kan zijn dan de training ervan. De dropout-laag en diffusieprobabilistische modellen gedragen zich bijvoorbeeld anders tussen training en inferentie. Hoewel het dus mogelijk is om te raden hoe de inferentie van het model moet gebeuren op basis van de trainingssoftware, is dat niet altijd eenvoudig.

[coco]: https://cocodataset.org/
[gta]: https://en.wikipedia.org/wiki/Grand_Theft_Auto
[minecraft]: https://en.wikipedia.org/wiki/Minecraft

Bijlage B.3 -- Gangbare praktijk in de omgang met vooraf getrainde AI-modellen
------------------------------------------------------------------------------

De gangbare praktijk binnen het ecosysteem is om het vooraf getrainde
model en de inferentiesoftware vrij te geven, zodat de AI-software door de
eindgebruikers kan worden gebruikt. Huggingface is bijvoorbeeld een
populair platform voor het delen van vooraf getrainde modellen, gebaseerd
op git-lfs. De vooraf getrainde AI-modellen zijn niet zo eenvoudig te
hanteren, omdat sommige van de nieuwste modellen supergrote blobs zijn die
gemakkelijk meer dan 400 GB groot kunnen worden [deepseek-r1].
In tegenstelling tot kunstcreaties zoals foto's en video's die na de
laatste bewerking niet verder hoeven te worden bewerkt, worden de
AI-modellen tegenwoordig regelmatig bijgewerkt. Het is dus niet verstandig
om de AI-modellen in de codeopslagplaats in te sluiten en ze samen te
verspreiden. In plaats daarvan is de gangbare praktijk om het model apart
te zetten, op een aantal speciale servers, cloud-opslag of huggingface.
Vervolgens zullen de bovenstroomse ontwikkelaars van de AI-software code
schrijven voor het automatisch downloaden van het model van het internet,
of op zijn minst zullen ze in het bestand readme instructies opnemen om
gebruikers te vertellen hoe ze het model kunnen downloaden en klaarmaken
voor gebruik [llama.cpp, ollama, torchvision, transformers].

[huggingface]: https://huggingface.co/
[deepseek-r1]: https://huggingface.co/deepseek-ai/DeepSeek-R1
[llama.cpp]: https://github.com/ggerganov/llama.cpp
[ollama]: https://ollama.com/
[torchvision]: https://pytorch.org/vision/stable/index.html
[transformers]: https://huggingface.co/docs/transformers/index

We kunnen een aantal recente populaire AI-modellen, met name de grote
taalmodellen (Large Language Models - LLM's), nader bekijken op basis van
de lijst van ollama [ollama-listing]:

* Deepseek-R1: het model (of zeg maar de modellading) zelf is uitgebracht onder de MIT-licentie. https://ollama.com/library/deepseek-r1
* LLama3.3: het model is uitgebracht onder een aangepaste niet-vrije licentie (zie bijvoorbeeld de afdeling over "Aanvullende commerciële voorwaarden").
https://ollama.com/library/llama3.3/blobs/bc371a43ce90
* Phi-4 (Microsoft): het model is uitgebracht onder de MIT-licentie.
https://ollama.com/library/phi4/blobs/fa8235e5b48f
* Mistral-7B: het model is uitgebracht onder de licentie Apache-2.0.
https://ollama.com/library/mistral/blobs/43070e2d4e53

Men ziet inderdaad een trend dat het ecosysteem openbronlicenties waardeert.
En het delen van kennis is gunstig voor het hele ecosysteem.

[ollama-listing]: https://ollama.com/search

Bijlage B.4 -- "Reproduceerbaarheid" van AI-modellen
----------------------------------------------------

Anders dan het geval is voor gecompileerde software, zijn AI-modellen niet deterministisch. Het trainingsproces is stochastisch en er zijn nog steeds veel factoren die het trainingsresultaat kunnen beïnvloeden, zelfs als alle willekeurige waarden vastliggen.
Dus de "reproduceerbaarheid" in de AI-context is meestal niet de byte-voor-byte reproduceerbaarheid, maar de reproduceerbaarheid van de modelprestaties -- het gereproduceerde model kan een vergelijkbare prestatie of effectiviteit bereiken als het originele model dat gereproduceerd moet worden.

Reden 1: Er wordt niet voldaan aan de "Verkieslijke vorm voor aanpassingen".
---------------------------------------------------------------------------

Zonder de originele trainingsgegevens of trainingssoftware zijn de mogelijke aanpassingen zeer beperkt.
Neem bijvoorbeeld LLM's. Voor het verfijnen van een vooraf getrainde LLM via LoRA zijn de oorspronkelijke trainingsgegevens of trainingssoftware normaal gesproken niet nodig. Maar verfijnen is niet de enige manier om een model aan te passen. Bijvoorbeeld, wanneer men veranderingen moet aanbrengen aan de tokenizer (bijvoorbeeld om ondersteuning voor een nieuwe taal toe te voegen), aan de contextvenstergrootte of aan de positie-encodering of wanneer de modelarchitectuur moet verbeterd worden, volstaat het AI-model zelf alleen niet.

Door "verfijnen" (of andere vormen van secundaire ontwikkeling) als enige "verkieslijke vorm voor aanpassingen" te nemen, wordt een minderheid meedogenloos uitgesloten, namelijk ervaren gebruikers die echt in staat zijn om het AI-model op een dieper of zelfs fundamenteel niveau te begrijpen, aan te passen, te onderhouden, te verbeteren en te itereren

Dus wordt niet voldaan aan de "verkieslijke vorm voor aanpassingen" met alleen het AI-modelbestand zelf (zonder de oorspronkelijke trainingsgegevens of trainingssoftware).

Dit onderdeel heeft ook te maken met de "vrijheid om het AI-model te veranderen en te verbeteren".
Zonder de originele trainingsgegevens of trainingssoftware zijn de mogelijkheden om het AI-model te veranderen en te verbeteren zeer beperkt.

Reden 2: Trainingsgegevens en -programma zijn de "Broncode" (DFSG #2).
---------------------------------------------------------------------

Als we emacs.c als de invoer beschouwen, gcc als de verwerkingssoftware, en het emacs ELF binaire uitvoerbare bestand als het resultaat, dan is emacs.c de broncode.
Het bestand emacs.c is de "verkieslijke vorm voor aanpassingen" van het emacs ELF binaire uitvoerbare bestand.

Als we de trainingsgegevens als de invoer beschouwen, de trainingssoftware als de verwerkingssoftware, en het getrainde AI-model als het resultaat, dan zijn de trainingsgegevens de "broncode" van het AI-model. De trainingsgegevens plus de trainingssoftware vormen de "verkieslijke vorm voor aanpassingen" van het AI-model.

Bovendien, als een gebruiker de "broncode" van een AI-model zou willen bestuderen en bewerken zoals de oorspronkelijke auteur doet, bestaat de "broncode" uit de trainingsgegevens en de trainingssoftware, in plaats van uit het AI-model (een hoop matrices en vectoren).

Reden 3: Er wordt niet voldaan aan reproduceerbaarheid.
------------------------------------------------------

Het is onmogelijk om het werk van de oorspronkelijke auteur (het vooraf getrainde AI-model) te reproduceren zonder de originele trainingsgegevens of trainingssoftware. "Reproduceren" betekent hier het produceren van een AI-model dat zeer vergelijkbare of identieke prestaties/gedragingen genereert als het door de oorspronkelijke auteur uitgebrachte AI-model.

De definitie van "reproduceerbaarheid" kan soms dubbelzinnig zijn. Het verzamelen van alternatieve trainingsgegevens en het schrijven van nieuwe trainingssoftware op basis van de informatie die de auteur van het vooraf getrainde AI-model heeft verstrekt, wordt in sommige contexten wel eens "het reproduceren van een werk" genoemd, maar in feite is het een nabootsing van het oorspronkelijke werk waarmee nieuw werk gecreëerd wordt, in plaats van "het reproduceren van het oorspronkelijke werk".

Reden 4: Veiligheid, beveiliging, vooroordelen en ethische kwesties.
-------------------------------------------------------------------

Zonder de originele trainingsgegevens of trainingssoftware zal het mechanisme voor beveiligingsaanpassingen beperkt blijven tot een binair verschillenbestand als patch voor het AI-modelbestand, of zal simpelweg het oude AI-model vervangen worden door een gloednieuw AI-model. Niemand behalve de oorspronkelijke auteur kan de beveiligingsupdate begrijpen.

Als we te maken krijgen met een probleem op het gebied van veiligheid/vooroordelen/ethiek, waarbij het AI-model inhoud produceert die schadelijk is voor de maatschappij, zoals discriminatie van een bepaalde groep mensen of een bepaald type onderneming, enz., dan is het toepassen van een patch nodig. Dit kan echter op fundamenteel niveau alleen worden gedaan door de oorspronkelijke auteur, laat staan door de distributeurs verderop in de keten.

Voor beveiligingsproblemen (bijvoorbeeld wanneer AI een rol speelt bij het nemen van beslissingen die gevolgen kunnen hebben voor de echte wereld en dus beveiligingsrisico's met zich meebrengen) is er nog geen CVE-systeem (Common Vulnerabilities and Exposures - Algemene kwetsbaarheden en blootstellingen) voor AI-modellen. Wanneer we worden geconfronteerd met beveiligingsproblemen, kunnen beveiligingspatches voor het genoemde type AI-modellen op fundamenteel niveau alleen worden uitgevoerd door de oorspronkelijke auteur, laat staan door de distributeurs verderop in de keten.

Reden 5: De vrijheid om te bestuderen is geschonden.
---------------------------------------------------

Neem bijvoorbeeld LLM's. Zonder de originele trainingsgegevens is het onmogelijk om te bestuderen of het AI-model gebruik maakt van gegevens met een GPL-licentie, of zelfs om te controleren of het model is getraind op legale gegevens of niet. Het is onmogelijk om te bestuderen hoe de output van het AI-model wordt beïnvloed door gegevens onder GPL-licentie, bijvoorbeeld of het AI-model de gegevens onder GPL-licentie expliciet zal kopiëren in zijn output, zonder bronvermelding of licentie-informatie.

Als een dergelijke vorm van "bestuderen", met name met betrekking tot gegevens onder GPL-licentie, te streng is, moeten we de definitie van "bestuderen" wellicht herzien. Aangezien de zaak MSFT/NYT echter nog niet is beslecht, moeten we de kwestie van "redelijk gebruik" voorlopig even terzijde laten. "De vrijheid om de licentie van trainingsgegevens te verifiëren" is in ieder geval niet afhankelijk van deze rechtszaak over "redelijk gebruik".

Als er helaas per ongeluk auteursrechtelijk beschermde gegevens in de trainingsgegevens zitten, is het direct verwijderen van dat deel van de trainingsgegevens effectief om juridische risico's te vermijden, maar het is een uitdaging om de invloed van die gegevens direct en netjes uit het AI-model te verwijderen (een hoop vectoren en matrices). Dit gaat weer terug naar de kwestie van de "verkieslijke vorm voor aanpassingen".

Attachment: signature.asc
Description: This is a digitally signed message part

Reply to:

Prev by Date: [RFR] wml://www.debian.org/dutch/intro/organization.wml
Next by Date: [RFR] po://dgit
Previous by thread: [RFR] wml://www.debian.org/dutch/intro/organization.wml
Next by thread: [RFR] wml://www.debian.org/dutch/vote/2025/vote_002.wml
Index(es):
- Date
- Thread