Μελέτες Περίπτωσης Αξιοποίησης του Semantics.gr
Σε αυτή την ενότητα μπορείτε να ενημερωθείτε για τα πρώτα λεξιλόγια που ανέπτυξε και φιλοξενεί το ΕΚΤ στο Semantics.gr και τους τρόπους που αυτά αξιοποιούνται για τον εμπλουτισμό των υποδομών περιεχομένου του.
Το SearchCulture.gr είναι ο εθνικός συσσωρευτής (aggregator) πολιτιστικών δεδομένων και το OpenArchives.gr είναι ο μεγαλύτερος συσσωρευτής ελληνικού επιστημονικού περιεχομένου. Οι δύο συσσωρευτές που αναπτύσσονται από το ΕΚΤ συνοδεύονται από ανοικτές διαδικτυακές πύλες που προσφέρουν ενιαία αναζήτηση και πρόσβαση σε ελληνικό ψηφιακό περιεχόμενο, πολιτιστικό και επιστημονικό αντίστοιχα. Η διαδικασία συσσώρευσης περιλαμβάνει τον έλεγχο του περιεχομένου, τη μετάπτωση των μεταδεδομένων στο σχήμα που χρησιμοποιείται εσωτερικά, τον εμπλουτισμό των μεταδεδομένων με σημασιολογικές παραπομπές και τη διάθεσή τους ως Ανοικτά Διασυνδεδεμένα Δεδομένα.
Προκειμένου να εμπλουτιστεί το περιεχόμενο που συγκεντρώνεται από αυτούς τους δύο συσσωρευτές αξιοποιήθηκε το Semantics.gr σε δύο επίπεδα.
Αρχικά δημιουργήθηκαν 5 διαφορετικά λεξιλόγια:
Για την εξυπηρέτηση των εργασιών του εμπλουτισμού, έχει αναπτυχθεί στο Semantics.gr ένα πρωτότυπο και ιδιαίτερα φιλικό εργαλείο αντιστοιχίσεων για τον ημι-αυτόματο σημασιολογικό εμπλουτισμό μεταδεδομένων με όρους από λεξιλόγια που δημοσιεύονται στην πλατφόρμα. Αξιοποιώντας το παραπάνω εργαλείο το επιστημονικό προσωπικό του ΕΚΤ υλοποιεί τις διαδικασίες κανονικοποίησης και ομογενοποίησης των δεδομένων που συγκεντρώνονται στο SearchCulture.gr και στο OpenArchives.gr.
Πρόκειται για ένα λεξιλόγιο που βασίζεται στα πεδία ταξινόμησης Έρευνας και Ανάπτυξης του OECD FORD (Fields of R&D classification FORD, OECD 2015), και ακολουθεί την ταξινόμηση του FORD σε 6 ευρείες θεματικές περιοχές α’ επιπέδου και 42 θεματικές β’ επιπέδου. Το ΕΚΤ επεξεργάστηκε 42 θεματικές β’ επιπέδου, στοχεύοντας στην περαιτέρω ταξινόμησή τους σε γ’ επίπεδο, με βασικό γνώμονα την επιλογή και διαμόρφωση επιμέρους θεματικών που να αντιπροσωπεύουν τα κύρια επιστημονικά πεδία ΕΤΑ (Επιστήμης, Τεχνολογίας & Ανάπτυξης). Για την διαμόρφωση των θεματικών αυτών μελετήθηκαν και αξιοποιήθηκαν διαφορετικές επιστημονικές πηγές όπως μεταξύ των άλλων, τα FORD scopenotes, θέματα επιστημονικών άρθρων, όροι έγκριτων θησαυρών και λεξιλογίων (π.χ LCSH, UNESCO) ενώ απαιτήθηκε μελέτη της εννοιολογικής απόδοσης των θεμάτων.
Το λεξιλόγιο έχει διαμορφωθεί στο πρότυπο SKOS, είναι ιεραρχικό τριών επιπέδων και δίγλωσσο. Σε αυτό το στάδιο ανάπτυξής του, περιλαμβάνει συνολικά 408 θεματικές στην ελληνική και αγγλική γλώσσα που καλύπτουν τα κύρια πεδία ΕΤΑ. Οι θεματικές εμπεριέχουν σχέσεις ιεραρχίας (ευρύτερο/στενότερο) ενώ για κάθε θεματική αποδώθηκαν σημασιολογικές σχέσεις με θέματα τρίτων ανοικτών λεξιλογίων, με σχέσεις ισοδυναμίας, συνάφειας και συγγένειας (exact match, close match, related to).
Το λεξιλόγιο αυτό θα αξιοποιηθεί άμεσα στην θεματική τεκμηρίωση των διατριβών του Εθνικού Αρχείου Διδακτορικών Διατριβών (ΕΑΔΔ), όπου οι διδάκτορες θα επιλέγουν μέσω της διαδικασίας αυτο-αρχειοθέτησης, τις θεματικές της διατριβής τους. Επόμενος στόχος είναι η εφαρμογή του λεξιλογίου μετά από κατάλληλη διαμόρφωση και διεύρυνση και σε άλλες υποδομές του ΕΚΤ, όπως στον συσσωρευτή επιστημονικού περιεχομένου OpenArchives.gr.
Το ΕΚΤ αξιοποιεί το Semantics.gr για τη δημιουργία δύο ακόμη κεντρικών λεξιλογίων, ένα για φυσικά πρόσωπα και ένα για συλλογικά όργανα. Τα λεξιλόγια αυτά θα χρησιμοποιηθούν αρχικά ενιαία από τις υποδομές επιστημονικού περιεχομένου του ΕΚΤ (το Εθνικό Αρχείο Διδακτορικών Διατριβών, την Υπηρεσία Ηλεκτρονικών Εκδόσεων ePublishing, και το νέο Ιδρυματικό Αποθετήριο του ΕΚΤ) υποστηρίζοντας την τεκμηρίωση των επιστημονικών πόρων. Αν και τα λεξιλόγια διακρίνονται σε δύο κατηγορίες «Φυσικά πρόσωπα» και «Φορείς», κάθε ένα θα μπορεί να διακριθεί και να ευρετηριαστεί, βάσει ιδιοτήτων, σε επιμέρους ομάδες όπως σε «Ακαδημαϊκά ιδρύματα», «Διδάκτορες» κ.ά.
Το Semantics.gr χρησιμοποιείται ως το κεντρικό σύστημα δημιουργίας των παραπάνω λεξιλογίων. Διασυνδέεται και διαλειτουργεί με τις ανωτέρω υποδομές και ειδικότερα, με τα περιβάλλοντα τεκμηρίωσής τους, όπου καταχωρούνται δεδομένα προσώπων κατά την περιγραφή των επιστημονικών πόρων (διασύνδεση των λεξιλογίων με πεδία δημιουργών, συντελεστών, εκδοτών στις φόρμες τεκμηρίωσης των επιστημονικών πόρων). Παράλληλα, αξιοποιείται το Εργαλείο Σημασιολογικού Εμπλουτισμού που διαθέτει το Semantics.gr για τη μαζική, ημι-αυτόματη αναδρομική επιμέλεια και ομογενοποίηση, του περιεχομένου των υποδομών.
Τα οφέλη της δράσης είναι πολλαπλά. Με τη δημιουργία κάθε οντότητας προσώπου ή φορέα στο Semantics.gr, του αποδίδεται ένα μοναδικό URI που χρησιμοποιείται ενιαία για την αναφορά σε αυτό από όλες τις υποδομές περιεχομένου του ΕΚΤ. Ως αποτέλεσμα, συγκεντρώνεται σε ένα σημείο η πληροφορία και αξιοποιείται με τρόπο ποιοτικό και μετρήσιμο. Επίσης, επιτυγχάνεται η διασύνδεση της κάθε οντότητας με όλα τα σχετικά έργα, διευκολύνοντας έτσι την πρόσβαση στην γνώση. Για τα παραπάνω λεξιλόγια δημιουργήθηκαν τεκμηριωτικά σχήματα που βασίζονται στο μοντέλο MADS/RDF (application profile). Στην παρούσα φάση έχει δημιουργηθεί ο πρώτος πυρήνας του λεξιλογίου φυσικών προσώπων με οντότητες ερευνητών και έχει γίνει η διασύνδεσή τους με την υποδομή του Ιδρυματικού Αποθετηρίου του ΕΚΤ.