1. Ziel der Gewichtung
Anfänglich haben wir dieses Thema unterschätzt. Im Test haben wir z.B. auch das SGB hochgeladen, das dann alle anderen Gesetzes verdrängte. Weiterhin wurde das BDSG vor die DSGVO vom System geschoben und Richtlinien reihten sich zwischen den Gesetzen ein.
Eine Gewichtung musste geschaffen werden. Unser Spielregel wurden wie folgt festgelegt.
In einem juristischen RAG-System soll:
-
Primär geltendes Recht (Gesetze) berücksichtigt werden
-
Danach Rechtsprechung
-
Danach Leitlinien
-
Danach interne Richtlinien
-
Danach Vorlagen
Ohne Gewichtung könnte:
-
Eine interne Richtlinie höher ranken als ein EU-Gesetz,
-
Nur weil sie semantisch ähnlicher formuliert ist.
Das wäre fachlich falsch.
2. Grundproblem ohne Gewichtung
Vektorsuche basierte auf :
Cosine Similarity - Definitionsvorgabe des Systems
Sie bewertet nur:
-
semantische Nähe
-
nicht normative Autorität
Beispiel:
Frage:
„Welche Anforderungen stellt Art. 32 DSGVO?“
Treffer ohne Gewichtung:
-
Interne TOM-Richtlinie (Score 0.87)
-
Art. 32 DSGVO (Score 0.84)
Semantisch plausibel — juristisch aber problematisch.
3. Lösung: Autoritätsgewichtung
Nach dem Retrieval wird ein zusätzlicher Faktor eingeführt:
Final Score = Similarity Score + Authority Weight
4. Hierarchie der Dokumenttypen
Im System implementiert:
def doctype_rank(dt):
order = {
"law": 1.00,
"case": 0.85,
"guideline": 0.70,
"policy_internal": 0.40,
"template": 0.20,
"unknown": 0.10,
}
Das bedeutet:
|
Dokumenttyp |
Gewicht |
|---|---|
|
Gesetz |
höchste Autorität |
|
Urteil |
darunter |
|
Leitlinie |
mittel |
|
Interne Richtlinie |
niedrig |
|
Vorlage |
sehr niedrig |
Weiterhin werden im Segment "Gesetz" EU-Gesetze mit dem Faktor 1 bewertet und z.B. Bundesgesetz mit dem Faktor 0.8
def issuer_rank(issuer):
if issuer == "EU": return 1.00
if issuer == "DE": return 0.80
Warum das notwendig ist
Juristische Autorität folgt einer Hierarchie:
-
EU-Verordnungen
-
Nationale Gesetze
-
Rechtsprechung
-
Verwaltungsvorschriften
-
Interne Policies
Beispielhafte Wirkung
Ohne Gewichtung:
|
Dokument |
Similarity |
|---|---|
|
Interne TOM Richtlinie |
0.88 |
|
Art. 32 DSGVO |
0.86 |
Mit Gewichtung:
Interne Richtlinie:
0.88 + 0.40 * 0.10 = 0.92
Art. 32 DSGVO:
0.86 + 1.00 * 0.10 = 0.96
Fazit: Gesetz rückt nach oben.
5. Weitere Spezialisierung: Normanker
Bei expliziter Nennung:
„Art. 13 DSGVO“
wird zusätzlich:
-
gezielt art-13 gesucht
-
andere Artikel hart gefiltert
Das verhindert:
-
thematische Verwechslung
-
systematische Fehlinterpretation
Das erreichen wir, in dem wir Metadaten auswerten. So ist Art. 13 klar in den Metadaten. Auch der Name des Gesetzes und die Herkunft (EU oder DE) sind in den Metadaten verankert (Siehe vorherige Seiten).
6.
6. Sicherheits- und Compliance-Perspektive
Die Gewichtung stellt sicher:
-
interne Dokumente überschreiben kein geltendes Recht
-
System bleibt normhierarchisch korrekt
-
juristische Integrität wird gewahrt
Das ist insbesondere relevant für:
-
Datenschutz (DSGVO)
-
Compliance-Systeme
-
ISO-Audits
7. Risiken ohne Gewichtung
-
Interne Policies dominieren Ergebnisse
-
Fehlinterpretation von Rechtslage
-
Unklare normative Priorität
-
Audit-Kritik („Black Box“ Ranking)
8. Zusammenfassung
Das System verwendet eine normhierarchische Gewichtung von Dokumenttypen und Herausgebern.
Diese Gewichtung stellt sicher, dass geltendes Recht gegenüber internen Richtlinien priorisiert wird, auch wenn die semantische Ähnlichkeit geringer ist.
Dadurch bleibt die juristische Integrität des Retrieval-Systems gewahrt.
