Η Μαρία Γαβριηλίδου γλωσσολόγος - ερευνήτρια σε θέματα υπολογιστικής γλωσσολογίας και αναπληρώτρια συντονίστρια του clarin:el, μιλάει για την εθνική ερευνητική υποδομή που αναπτύσσεται με συντονιστή το Ερευνητικό Κέντρο «Αθηνά».
Ο σύγχρονος ερευνητής έχει στη διάθεση του πληθώρα από πηγές για την ελληνική γλώσσα, ψηφιακές βιβλιοθήκες και αποθετήρια. Τι είναι αυτό που διαφοροποιεί το υλικό που μπορεί να βρει κανείς στο clarin:el από τα παραπάνω;
Το clarin:el δεν είναι ένα αποθετήριο για την ελληνική γλώσσα, είναι ένα δίκτυο αποθετηρίων με ψηφιακό γλωσσικό υλικό. Εκτός όμως από το ότι στο clarin:el μπορεί κανείς να βρει γλωσσικό υλικό διαφόρων ειδών (π.χ. κείμενα, προφορικό λόγο, λεξικά, γλωσσάρια ορολογίας) και από ποικίλα επιστημονικά πεδία, πολύ σημαντικό είναι ότι για πρώτη φορά διατίθενται στην ίδια θέση και γλωσσικά εργαλεία με τα οποία μπορεί κανείς να επεξεργαστεί το υλικό αυτό. Για παράδειγμα, μπορεί ένας ερευνητής να επιλέξει κείμενα πολιτικών ομιλιών, στα οποία θέλει να εντοπίσει τη συχνότητα εμφάνισης ορισμένων λέξεων ή να δει μια περίληψή τους. Το clarin:el του προσφέρει τα δύο αυτά εργαλεία (και πολλά άλλα) με στόχο τη διευκόλυνση της ερευνητικής διαδικασίας.
Πώς μπορεί να διευκολύνει το έργο ενός ερευνητή κοινωνικών και ανθρωπιστικών επιστημών η σύνδεσή του στο clarin:el;
Ο ερευνητής των κοινωνικών και ανθρωπιστικών επιστημών (αλλά και κάθε άλλου τομέα) μπορεί να βρει στο clarin:el ένα πλούσιο μητρώο πόρων (πάνω από 520 πόρους, τη στιγμή που μιλάμε), το οποίο συγκεντρώνει δεδομένα και υπηρεσίες από τα 8 αποθετήρια του δικτύου (ΕΚ Αθηνά, ΕΚΕΦΕ Δημόκριτος, ΕΚΠΑ, ΑΠΘ, Παν/μιο Αιγαίου, Ιόνιο Παν/μιο, Κέντρο Ελληνικής Γλώσσας και Αποθετήριο Φιλοξενούμενων Πόρων) σε έναν ενιαίο κατάλογο (https://inventory.clarin.gr/resources/search/). Κάθε πόρος συνοδεύεται από μια μικρή περιγραφή και λεπτομερή τεκμηρίωση μέσω μεταδεδομένων. Από τον κατάλογο αυτό εύκολα μπορεί κανείς να δει τα στοιχεία κάθε πόρου και να επιλέξει αυτόν που τον εξυπηρετεί για την έρευνα που θέλει να κάνει, χρησιμοποιώντας τα διαθέσιμα φίλτρα.
Θα μας δώσετε ένα παράδειγμα χρήσης;
Για παράδειγμα, ένας ερευνητής που μελετά υπότιτλους ταινιών στα Ελληνικά, χρησιμοποιώντας τα κατάλληλα φίλτρα μπορεί να βρει κείμενα που περιέχουν ελληνικούς υπότιτλους. Ακόμα παραπέρα, μπορεί να επεξεργαστεί τους υπότιτλους χρησιμοποιώντας τα γλωσσικά εργαλεία που έχει αναπτύξει το clarin:el. Υπάρχουν π.χ. εργαλεία που κάνουν την περίληψη ενός κειμένου, εντοπίζουν τα κύρια ονόματα του κειμένου, κάνουν συντακτική ανάλυση των προτάσεων του κειμένου κ.λπ. Πώς αυτός ο γλωσσικός πόρος, π.χ. το σώμα κειμένων υπότιτλων στα ελληνικά αποκτά επιπρόσθετη αξία; Ένας πόρος που κατατίθεται στο clarin:el, μέσω της πλούσιας τεκμηρίωσης (με βάση διεθνή πρότυπα) καταρχάς αποκτά ταυτότητα και καταγράφεται στα μητρώα γλωσσικών πόρων διεθνώς, με συγκεκριμένο όνομα, μοναδικό μόνιμο αναγνωριστικό (Persistent Identifier), μόνιμη σύνδεση πόρου-δημιουργού και σαφή άδεια και ρητά δικαιώματα χρήσης. Μέσω της καταγραφής του στα μητρώα γλωσσικών πόρων και μέσω της διασύνδεσης των αποθετηρίων του Ελληνικού δικτύου με την ευρωπαϊκή υποδομή είναι δυνατό να τον εντοπίσουν ερευνητές από την Ελλάδα και το εξωτερικό. Έτσι, αποκτά αναγνωρισιμότητα και δημοσιότητα, τόσο ο πόρος όσο και ο δημιουργός του. Επιπλέον, ο πόρος μπορεί να αξιοποιηθεί από συναδέλφους με τη βοήθεια των γλωσσικών εργαλείων του clarin:el και να οδηγήσει σε νέα ερευνητικά αποτελέσματα.
Ποιες είναι οι δυσκολίες που έχετε αντιμετωπίσει στη συγκέντρωση όλου αυτού του υλικού και πώς μπορούν να ξεπεραστούν στο μέλλον;
Οι δυσκολίες που αντιμετωπίζουμε είναι τεχνικές, νομικές και σε τρίτο επίπεδο σχετίζονται με θέματα νοοτροπίας. Όταν λέω τεχνικές δυσκολίες αναφέρομαι τόσο σε δυσκολίες που αφορούν τον καθορισμό των προδιαγραφών και του σχήματος τεκμηρίωσης των πόρων, έτσι ώστε να καλύπτουν τις ανάγκες των χρηστών, αλλά και δυσκολίες που αφορούν την υλοποίηση της υποδομής.
Τα νομικά ζητήματα που προέκυψαν είχαν να κάνουν με τις άδειες διάθεσης και χρήσης των πόρων, οι οποίοι ιδανικά πρέπει να είναι ανοιχτοί και διαθέσιμοι για επεξεργασία. Το ζήτημα ήταν να επιλυθούν με κάποιο τρόπο που να διευκολύνει τους ερευνητές να αναρτήσουν στα αποθετήρια του clarin:el τους γλωσσικούς πόρους που διαθέτουν. Ωστόσο, ενώ οι δυσκολίες που προανέφερα αντιμετωπίστηκαν, το μεγαλύτερο εμπόδιο συνιστά η υπάρχουσα νοοτροπία στον ελληνικό –και όχι μόνο– ερευνητικό χώρο. Ορισμένοι ερευνητές είναι επιφυλακτικοί όταν πρόκειται να διαθέσουν δημόσια τους γλωσσικούς πόρους που έχουν συγκεντρώσει. Γεγονός που είναι βέβαια κατανοητό, ωστόσο η ερευνητική κοινότητα έχει πολλά περισσότερα να κερδίσει από την αλλαγή αυτής της νοοτροπίας και την προώθηση της κουλτούρας της αμοιβαιότητας και του διαμοιρασμού.
Πώς το clarin:el θα συμβάλει στην προώθηση της κουλτούρας του διαμοιρασμού;
Η ενημέρωση της ερευνητικής κοινότητας σχετικά με την "κουλτούρα αμοιβαιότητας" και τα οφέλη από τον διαμοιρασμό πόρων και υπηρεσιών είναι ένας επιπλέον στόχος του clarin:el. Στην ίδια λογική, στόχος μας είναι και η προώθηση των ανοιχτών δεδομένων (επιστημονικών και μη) και η διάθεσή τους στην ερευνητική κοινότητα και στο ευρύ κοινό. Με τις εκπαιδευτικές και ενημερωτικές δράσεις που προγραμματίζει το clarin:el ελπίζουμε ότι οι δυσκολίες νοοτροπίας που προανέφερα θα ξεπεραστούν.Ονειρευόμαστε ότι οι εκπαιδευτικές και ενημερωτικές δράσεις που έχουμε στα πλάνα μας θα προωθήσουν τη νοοτροπία του διαμοιρασμού και των ανοιχτών δεδομένων, που είναι μια πολύ δυναμική τάση και στον χώρο της έρευνας διεθνώς. Ανάλογες προσπάθειες υπάρχουν σε διάφορους επιστημονικούς και μη χώρους, στη δημόσια και στην ιδιωτική σφαίρα. Αν καταφέρουμε να συμβάλουμε σ' αυτή την αλλαγή νοοτροπίας, θα θεωρήσουμε την δράση μας συνολικά πετυχημένη! Ο αριθμός και η ποιότητα των γλωσσικών πόρων που είναι διαθέσιμοι στα αποθετήρια του CLARIN αυξάνεται και βελτιώνεται συνεχώς.
Πώς φαντάζεστε την υποδομή αυτή τα επόμενα 5 χρόνια;
Μέσα στα επόμενα χρόνια στοχεύουμε να διευρύνουμε το δίκτυο των μελών μας και να αυξήσουμε τον αριθμό των αποθετηρίων της υποδομής. Μάλιστα, μόλις αποκτήσαμε ένα νέο μέλος: το Πάντειο Πανεπιστήμιο μπήκε στο δίκτυο τον Φεβρουάριο 2017! Επίσης, μέσα στο 2017 θα ολοκληρωθεί τεχνικά η σύνδεση με την ευρωπαϊκή υποδομή CLARIN ERIC, έτσι ώστε οι πόροι της να είναι πλήρως προσβάσιμοι στα μέλη της ελληνικής υποδομής και το αντίστροφο. Θέλουμε επίσης να αυξήσουμε τον αριθμό και την ποικιλία των εργαλείων γλωσσικής επεξεργασίας που προσφέρουμε στους χρήστες, ώστε να καλύπτουμε περισσότερες ανάγκες. Ταυτόχρονα, στοχεύουμε να απλοποιήσουμε τις διαδικτυακές υπηρεσίες, έτσι ώστε να είναι πιο φιλικές προς τον μέσο χρήστη που δεν είναι εξοικειωμένος με την γλωσσική τεχνολογία.