ΕΛ/ΛΑΚ | creativecommons.gr | mycontent.ellak.gr |
freedom

Αυτόματη κωδικοποίηση της ελληνικής νομοθεσίας: Government Gazette Text Mining, Cross-linking and Codification

Ζούμε σε ένα σύνθετο κανονιστικό περιβάλλον. Ως πολίτες, υπακούουμε σε κυβερνητικούς κανονισμούς από πολλές δικαιοδοσίες. Ως μέλη οργανωμένων κοινωνιών και ομάδων πρέπει να υπακούουμε σε οργανωτικές πολιτικές και κανόνες. Ως κοινωνικά όντα, δεσμευόμαστε από συμβάσεις που κάνουμε με άλλους. Ως άτομα, δεσμευόμαστε από προσωπικούς κανόνες συμπεριφοράς. Ο πλήρης αριθμός και το μέγεθος των κανονισμών μπορεί να είναι πραγματικά τρομακτικός. Μπορούμε όλοι να συμφωνήσουμε σε μερικές γενικές αρχές, αλλά, ταυτόχρονα, μπορούμε να διαφωνήσουμε για τον τρόπο με τον οποίο εφαρμόζονται οι αρχές αυτές σε συγκεκριμένες καταστάσεις. Για να ελαχιστοποιηθούν τέτοιες διαφωνίες, οι ρυθμιστικές αρχές αναγκάζονται συχνά να δημιουργούν πολυάριθμους κανονισμούς ή πολύ μεγάλους κανονισμούς, προκειμένου να αντιμετωπίσουν ειδικές περιπτώσεις.

Ταυτόχρονα, τα τελευταία χρόνια έχει συγκεντρωθεί αρκετή προσοχή γύρω από την ανάλυση κειμένων του δημόσιου τομέα μέσω μεθόδων εξόρυξης κειμένου που επιτρέπονται από σύγχρονες βιβλιοθήκες, αλγορίθμους και πρακτικές και βρίσκονται στο προσκήνιο με έργα ανοιχτού κώδικα πάνω στον τομέα της Επεξεργασίας Φυσικής Γλώσσας, όπως το textblob, το spaCy, το SciPy, το Tensorflow και το NLTK. Αυτές οι συνεργατικές παραγωγικές προσπάθειες φαίνεται να είναι μια στροφή προς την αποδοτικότερη κατανόηση της φυσικής γλώσσας από μηχανές που μπορούν να χρησιμοποιηθούν σε συνδυασμό με δημόσια έγγραφα, προκειμένου αυτοματοποίηση διεργασιών στον νομικό τομέα.

Το παρόν έργο,  προτάθηκε από τον Οργανισμό Ανοιχτών Τεχνολογιών – ΕΕΛΛΑΚ  και αναπτύχθηκε στο πλαίσιο του Google Summer of Code 2018 από τον Μάριο Παπαχρήστου, επιτελεί εξόρυξη κειμένων από Φύλλα Εφημερίδας της Κυβερνήσεως (ΦΕΚ), διασυνδέει τα νομοθετήματα μεταξύ τους, ανιχνεύει και εφαρμόζει τις τροπολογίες στο νομικό κείμενο, παρέχοντας αυτόματη κωδικοποίηση της ελληνικής νομοθεσίας με χρήση μεθόδων και τεχνικών Επεξεργασίας Φυσικής Γλώσσας. Αυτό θα επιτρέψει την εξάλειψη των γραφειοκρατικών διαδικασιών και την τεράστια εξοικονόμηση χρόνου για τους νομικούς που αναζητούν π.χ. νομικά έγγραφα σε νομικές βάσεις δεδομένων. Η ανίχνευση των τροπολογιών γίνεται αυτοματοποιημένα με σκοπό οι τροπολογίες να ενσωματώνονται στους τροποποιηθέντες νόμους συγχωνευόμενες σε ένα κοινό νόμο, διαδικασία η οποία είναι γνωστή ως κωδικοποίηση του νόμου. Οι νέοι «συγχωνευθέντες»/τροποποιημένοι/κωδικοποιημένοι νόμοι μπορούν να μας δείξουν την εικόνα που έχει ένας νόμος κάθε χρονική στιγμή.

Τέλος, ακολουθείται και συσταδοποίηση των νόμων σε θεματικές ενότητες ανάλογα με το περιεχόμενό τους με χρήση unsupervised μοντέλου μηχανικής μάθησης (Latent Dirichlet Allocation) προκειμένου να προσφέρει μια πιο ολοκληρωμένη παρουσίαση της ελληνικής νομοθεσίας. Επίσης, για ευκολότερο ευρετηριασμό χρησιμοποιήθηκε το PageRank και συνεπώς οι διασυνδέσεις των νομοθετημάτων λαμβάνονται θετικά υπόψη, διότι όσο πιο πολλές αναφορές έχει ένα νομοθέτημα από ένα άλλο τόσο σημαντικότερο χαρακτηρίζεται.

Κλείνοντας, μέσω της ανάλυσης, κατηγοριοποίησης και κωδικοποίησης των ΦΕΚ, το παρόν έργο διευκολύνει βασικά σημεία της καθημερινής ζωής όπως η εξάλειψη της γραφειοκρατίας και η αποτελεσματική διαχείριση των δημόσιων εγγράφων για την υλοποίηση απτών λύσεων, πράγμα που επιτρέπει τεράστια εξοικονόμηση χρόνου για τους νομικούς και τους πολίτες.

Το έργο φιλοξενείται στον ιστότοπο https://3gm.ellak.gr.

Το αποθετήριο του έργου βρίσκεται στο Github, όπως και το wiki του έργου.

Ένα υπερσύνολο της συλλογής των ΦΕΚ που χρησιμοποιούνται για το έργο φιλοξενείται επίσης στο Internet Archive ως κομμάτι του Google Summer of Code 2018.

Συνεισφορά στο έργο

Leave a Comment