Σύντομη περιγραφή του έργου

Στις μέρες μας η εκρηκτική ανάπτυξη του διαδικτύου και ειδικότερα του παγκόσμιου ιστού (WWW) έχει ως αποτέλεσμα ένα μεγάλο πλήθος ετερογενών πηγών πληροφοριών να γίνονται συνεχώς διαθέσιμοι. Ο πιο συνηθισμένος μηχανισμός αναζήτησης στον παγκόσμιο ιστό αλλά και γενικότερα σε ψηφιακές βιβλιοθήκες (π.χ. ψηφιακές εγκυκλοπαίδειες, ψηφιακά περιοδικά & εφημερίδες) είναι με τη χρήση αναλυτικών μεθόδων (Information Retrieval (IR) analytical query based search strategies). Σύμφωνα με αυτή τη μέθοδο αναζήτησης δημιουργείται ένα κεντρικό ευρετήριο (index) με διάφορες τεχνικές συλλογής (αυτή η διαδικασία ονομάζεται crawling στο διαδίκτυο) και στατιστικής ανάλυσης των κειμένων. Το κεντρικό ευρετήριο χρησιμοποιείται ώστε να υποβάλλονται ερωτήματα τα οποία επεξεργάζονται και πάλι με μία ποικιλία αλγορίθμων και τεχνικών και έτσι τελικά παρουσιάζονται (συνήθως ταξινομημένα ως προς τη σχετικότητα τους) τα αποτελέσματα της αναζήτησης στους τελικούς χρήστες. Οι τελικοί χρήστες μελετούν τα αποτελέσματα και προσπαθούν να εντοπίσουν κείμενα σχετικά με την πληροφοριακή τους ανάγκη.

Η κεντρικοποιημένη (centralised) αυτή προσέγγιση παρουσιάζει προβλήματα και δυσκολίες κυρίως λόγω του τεράστιου διαθέσιμου όγκου πληροφοριών. Για παράδειγμα, ακόμη και οι μεγαλύτερες μηχανές αναζήτησης όπως η Google και η Yahoo υπολογίζεται ότι ευρετηροποιούν μόνο ένα υποσύνολο του παγκόσμιου ιστού (κάτω από 50%). Επίσης ένα ακόμη βασικό πρόβλημα είναι ότι μεγάλο μέρος από τις πηγές πληροφοριών (web sites) δεν επιτρέπουν την προσπέλαση τους από web crawlers και απαγορεύουν έτσι την κεντρικοποιημένη ευρετηριοποίηση των κειμένων τους από τις μηχανές αναζήτησης. Πραγματικά, κάποιοι από τους μεγαλύτερους παροχείς πληροφοριών στο διαδίκτυο όπως ψηφιακές βιβλιοθήκες εκδοτικών οίκων (π.χ. sciencedirect.com, kluweronline.com, medline κλπ), εφημερίδες, ειδησεογραφικά sites, μεγάλα portals δεν επιτρέπουν την προσπέλαση τους από μηχανές αναζήτησης με τελικό αποτέλεσμα το περιεχόμενο τους να είναι προσπελάσιμο μόνο από τους μηχανισμούς αναζήτησης των ίδιων των οργανισμών (ψηφιακών βιβλιοθηκών) που παρέχουν τις πληροφορίες.

Μία εναλλακτική πρόταση στο προηγούμενο πρότυπο αναζήτησης είναι η κατανεμημένη αναλυτική αναζήτηση (Distributed Information Retrieval) όπου υπάρχουν πολλά κατανεμημένα (και ετερογενή) ευρετήρια. Ένα πρόβλημα το οποίο αντιμετωπίζουν οι χρήστες που αναζητούν πληροφορίες σε ένα τέτοιο περιβάλλον αναζήτησης, είναι το πρόβλημα της επιλογής πηγών πληροφοριών και σύνθεσης αποτελεσμάτων από τις διάφορες πηγές πληροφοριών (collection fusion problem). Ο όρος αυτός χρησιμοποιείται διεθνώς για να δηλώσει το πρόβλημα της επιλογής πηγών πληροφοριών από τις πολλές που είναι διαθέσιμες σε ένα κατανεμημένο σύστημα, και, τη δημιουργία ενός αποτελέσματος το οποίο να παρουσιάζει συντιθέμενα τα επιμέρους αποτελέσματα των πολλών παράλληλων αναζητήσεων στις επιλεγμένες πηγές πληροφοριών.

Στην προτεινόμενη ερευνητική πρόταση θα ερευνηθεί το πεδίο της ανάπτυξης αλγόριθμων επιλογής πηγών πληροφοριών και σύνθεσης αποτελεσμάτων από πολλές κατανεμημένες πηγές πληροφοριών. Η ιδέα που πρόκειται να εξερευνηθεί είναι η χρήση συνδέσμων (links) μεταξύ των κειμένων ώστε να ανακτηθεί επιπλέον γνώση που πιθανόν θα οδηγήσει σε αποτελεσματικότερη λύση του collection fusion problem. Επίσης θα μελετηθεί η χρήση clustering τεχνικών με τη χρήση νευρωνικών δικτύων (π.χ. Self Organising Maps) και άλλων στατιστικών μεθόδων όπως π.χ. K-mean και αλγόριθμου ΕΜ για τη έρευνα και την ανάπτυξη μίας αποδοτικής μεθόδου εκμάθησης για την επίλυση του προβλήματος collection fusion. Στο ερευνητικό έργο θα συμμετάσχουν δύο νέοι ερευνητές οι οποίοι θα εκπονήσουν τη διδακτορική τους διατριβή στο τμήμα πληροφορικής του πανεπιστημίου Μακεδονίας. Ο πρώτος νέος ερευνητής θα εκπονήσει τη διατριβή του στο θέμα της επιλογής πηγών πληροφοριών & ο δεύτερος στο θέμα της σύνθεσης αποτελεσμάτων.

Περίληψη του έργου

Αντικείμενο του έργου είναι η έρευνα, ανάπτυξη και αξιολόγηση αλγορίθμων επιλογής πηγών πληροφοριών και σύνθεσης αποτελεσμάτων από πολλές πηγές πληροφοριών (collection fusion algorithms). Το πρόβλημα αυτό έχει μελετηθεί με διάφορους τρόπους οι οποίοι όμως δεν μπορούν εύκολα να χρησιμοποιηθούν σε δυναμικά περιβάλλοντα επειδή απαιτούν μία χρονοβόρα φάση εκμάθησης ή απαιτούν πολύ μεγάλη ανταλλαγή πληροφοριών.

Στο προτεινόμενο έργο στόχος είναι να ερευνηθούν και αξιολογηθούν αλγόριθμοι επιλογής πηγών και σύνθεσης από πολλές πηγές πληροφοριών που να συνδυάζουν δύο χαρακτηριστικά. Πρώτον, να λύνουν το συγκεκριμένο πρόβλημα χωρίς να χρειάζεται μεγάλος όγκος πληροφοριών από τις κατανεμημένες πηγές πληροφοριών. Δεύτερον, να λύνουν το πρόβλημα χωρίς να χρειάζεται κάποια χρονοβόρα φάση εκμάθησης. Αυτά τα δύο χαρακτηριστικά είναι επιθυμητά γιατί το διαδίκτυο αποτελεί ένα δυναμικό περιβάλλον το οποίο μεταβάλλεται συνεχώς με αποτέλεσμα μέθοδοι που δεν συνδυάζουν αυτά τα χαρακτηριστικά να είναι δύσκολο να εφαρμοστούν.

Η μεθοδολογία που πρόκειται να χρησιμοποιηθεί για το προτεινόμενο έργο στηρίζεται σε μία ευρέως αποδεκτή μεθοδολογία για ερευνητικά έργα στο συγκεκριμένο επιστημονικό πεδίο. Πρόκειται να δημιουργηθεί ένα πειραματικό περιβάλλον το οποίο θα χαρακτηρίζεται από τα βασικά στοιχεία του προβλήματος που πρόκειται να μελετηθεί. Για τη δημιουργία του πειραματικού περιβάλλοντος αναζήτησης θα χρησιμοποιηθούν οι τυπικές συλλογές κειμένων TREC (Text Retrieval Conferences, trec.nist.gov) και WEBTREC W10gt (IR standard test collections). Οι συλλογές αυτές έχουν καθιερωθεί από το NIST (National Institute of Standrads & Technology) εδώ και μία δεκαετία περίπου και αποτελούν σε παγκόσμιο επίπεδο τον τυπικό τρόπο για την αξιολόγηση μεθόδων, αλγορίθμων και στρατηγικών αναζήτησης στο πεδίο της ανάκτησης πληροφοριών (Information Retrieval). Το πιλοτικό πειραματικό περιβάλλον θα προσομοιώνει ένα κατανεμημένο περιβάλλον αναζήτησης όπου πολλές ετερογενείς πηγές πληροφοριών θα είναι διαθέσιμες.

Με βάση το πιλοτικό περιβάλλον θα μελετηθούν η αποδοτικότητα (efficiency) και αποτελεσματικότητα (effectiveness) υπαρχόντων μεθόδων επίλυσης του collection fusion problem. Επίσης θα ερευνηθούν, αναπτυχθούν & αξιολογηθούν νέες μέθοδοι που βασίζονται στη χρήση συνδέσμων μεταξύ των κειμένων και άλλης πληροφορίας που προκύπτει από τη στατιστική ανάλυση των κειμένων που υπάρχουν στις κατανεμημένες πηγές πληροφοριών.

Οι αλγόριθμοι θα αξιολογηθούν με δύο τρόπους:

Οι κύριες φάσεις του έργου είναι συνοπτικά: