Πέμπτη, 18 Δεκεμβρίου 2008

Αναζητώντας την ποιότητα στο Διαδίκτυο

Γράφει ο Riza Berkan, πυρηνικός φυσικός με εξειδίκευση στην τεχνητή νοημοσύνη, στην ασαφή λογική και στα πληροφοριακά συστήματα και ιδρυτής της εταιρείας Hakia.

Στο όχι και τόσο μακρινό μέλλον, οι μαθητές θα τελειώνουν το σχολείο χωρίς να έχουν ανοίξει ποτέ βιβλίο. Είκοσι χρόνια αργότερα θα αποφοιτούν από το λύκειο χωρίς να έχουν ανοίξει ούτε τον υπολογιστή. Μέσα σε λίγες μόνο δεκαετίες, η τεχνολογία των ηλεκτρονικών υπολογιστών και του Διαδικτύου κατάφεραν να αλλάξουν τους κανόνες της πληροφόρησης, της γνώσης και της παιδείας.

Πράγματι, σήμερα περισσότερα βιβλία χωρούν στο σκληρό δίσκο του φορητού σας υπολογιστή παρά σε ένα βιβλιοπωλείο 60.000 τίτλων. Οι διαδικτυακές τοποθεσίες υπολογίζεται ότι έχουν ξεπεράσει τα 500 δισεκατομμύρια, αριθμός που εάν αντιστοιχούσε σε 500σέλιδα βιβλία θα γέμιζε 10 σύγχρονα αεροσκάφη.


Με αυτές τις αναγωγές μπορούμε να αντιληφθούμε ευκολότερα τη Μεγάλη Έκρηξη που έχει συντελεστεί στην πληροφόρηση και να συνειδητοποιήσουμε τις κινδύνους που τη συνοδεύουν. Οι διαδικτυακές μηχανές αναζήτησης είναι το μόνο όχημα που έχει κανείς για να πλοηγηθεί σε αυτόν τον ωκεανό της πληροφόρησης. Οι μηχανές αναζήτησης είναι τα ισχυρότερα σημεία διανομής της γνώσης, του πλούτου και, φυσικά, της παραπληροφόρησης.

Όταν αναφερόμαστε στις διαδικτυακές μηχανές, η πρώτη που μας έρχεται στο μυαλό είναι, ασφαλώς, το Google Δεν θα ήταν υπερβολή εάν λέγαμε ότι η σημερινή εικόνα του διαδικτύου έχει σε μεγάλο βαθμό διαμορφωθεί από το Google. Έχει σχηματιστεί νέα γενιά ανθρώπων που διαφέρουν άρδην από τους γονείς τους. Αυτό είναι ιδιαίτερα αισθητό στα παιδιά της μεταπολεμικής γενιάς, τους λεγόμενους baby boomers. Οι ίδιοι μεγάλωσαν με Ροκ εντ Ρολ ενώ τα παιδιά τους μεγαλώνουν με το Google.

Η σχεδίαση του Google στηρίζεται σε στατιστικούς αλγόριθμους. Ωστόσο, οι τεχνολογίες αναζήτησης που βασίζονται σε στατιστικούς αλγορίθμους δεν μπορούν να αξιολογήσουν την ποιότητα της πληροφόρησης για τον απλούστατο λόγο ότι οι πληροφορίες υψηλής ποιότητας δεν είναι απαραίτητα δημοφιλείς και οι δημοφιλείς πληροφορίες δεν είναι πάντοτε υψηλής ποιότητας.

Επιπλέον, τα συμπεράσματα που προκύπτουν από τη συλλογή δεδομένων αφορούν στο παρελθόν. Για το λόγο αυτό, οι νέες και δυναμικές σελίδες που ανανεώνουν συχνά το περιεχόμενό τους βρίσκονται αυτόματα εκτός του «οπτικού πεδίου» των μεθόδων που μετρούν τη δημοτικότητα, ενώ η αναζήτηση αυτού του υλικού είναι επιρρεπής σε στοιχειώδεις πρακτικές χειραγώγησης.

Για παράδειγμα, η αναποτελεσματικότητα των σημερινών μηχανών αναζήτησης έχει οδηγήσει στη δημιουργία ενός καινούργιου κλάδου που αποκαλείται «Βελτιστοποίηση Μηχανών Αναζήτησης» και στοχεύει στην ανακάλυψη στρατηγικών για καλύτερη ταξινόμηση των ιστοσελίδων σε σύγκριση με τα κριτήρια δημοτικότητας που εφαρμόζουν οι μηχανές αναζήτησης τύπου Google. Είναι ένας κλάδος η αξία του οποίου αγγίζει το ένα εκατομμύριο δολάρια. Αυτή τη στιγμή, όσο περισσότερα χρήματα έχετε, τόσο υψηλότερα θα ταξινομηθεί η ιστοσελίδα σας, ανεξάρτητα από το ένα υπάρχουν πολλές και πολύ πιο αξιόπιστες ή καλύτερης ποιότητας ιστοσελίδες. Ποτέ στην ιστορία της μετα-Google εποχής δεν ήταν η ποιοτική πληροφόρηση πιο ευάλωτη στη δύναμη της εμπορευματοποίησης.

Η ποιότητα της πληροφόρησης, η οποία εξελίσσεται στη σκιά της αναζήτησης στο Διαδίκτυο, είναι αυτή που θα καθορίσει το μέλλον του ανθρώπου –πρέπει όμως να διασφαλιστεί η υιοθέτηση μιας πιο επαναστατικής προσέγγισης, μιας τεχνολογικής καινοτομίας που θα υπερβαίνει τα στατιστικά δεδομένα. Μια τέτοια επανάσταση έχει ήδη ξεκινήσει και ονομάζεται «σημασιολογική τεχνολογία».

Η ιδέα που βρίσκεται πίσω από τη σημασιολογική τεχνολογία είναι ότι οι υπολογιστές πρέπει να μάθουν τον τρόπο με τον οποίο λειτουργεί ο κόσμος. Όταν ένας υπολογιστής απαντά τη λέξη «ώρα», για παράδειγμα, πρέπει να γνωρίζει ότι η συγκεκριμένη λέξη στα Ελληνικά έχει δέκα σημασίες. Όταν συναντήσει, για παράδειγμα, την έκφραση «σκότωνε την ώρα του» θα πρέπει να συμπεράνει ότι «ώρα» σε αυτή την περίπτωση σημαίνει «χρόνος» και το «σκότωνε» σημαίνει «περνούσε άσκοπα».

Η φράση «Σκοτώνοντας την ώρα», όμως, θα πρέπει να παραπέμψει τον υπολογιστή στον τίτλο της ομώνυμης καναδικής ταινίας μικρού μήκους. Τέλος, θα πρέπει να συνδυάζονται μια σειρά από τέτοια συμπεράσματα ούτως ώστε να βγαίνει σαφές νόημα από το συνδυασμό ολόκληρων προτάσεων και παραγράφων.

Για να κατακτηθεί, όμως, αυτό το επίπεδο δεξιότητας στο οποίο ο υπολογιστής θα μπορεί να χειρίζεται τη γλώσσα μέσω αλγόριθμων χρειάζεται να καταρτιστεί ένα σύστημα οντολογίας. Η οντολογία δεν είναι ούτε λεξικό ούτε θησαυρός. Πρόκειται για έναν χάρτη με διασυνδέσεις μεταξύ αντιλήψεων και νοημάτων λέξεων που αντανακλούν τις μεταξύ τους σχέσεις, όπως αυτή που συνδέει τις λέξεις «σκοτώνω» και «ώρα».

Μπορεί η δημιουργία μιας οντολογίας που θα συγκεντρώνει κρυπτογραφημένη τη γνώση του κόσμου να είναι ένα δύσκολο έργο που απαιτεί προσπάθειες ανάλογες με τη συγγραφή μιας πλήρους εγκυκλοπαίδειας και εξειδικευμένες γνώσεις, είναι ωστόσο εφικτή. Πολλές νεοσύστατες εταιρείες σε όλο τον κόσμο, όπως οι Hakia , Cognition Search και Lexxe, έχουν ήδη αποδεχθεί αυτή την πρόκληση. Μένει να δούμε το αποτέλεσμα των προσπαθειών τους.

Πώς θα αντιμετωπίσει, όμως, μια σημασιολογική μηχανή αναζήτησης το πρόβλημα της ποιότητας στην πληροφόρηση; Η απάντηση είναι απλή: με την ακρίβεια. Τη στιγμή που οι υπολογιστές μπορούν να χειριστούν τις διάφορες γλώσσες με σημασιολογική ακρίβεια, οι πληροφορίες υψηλής ποιότητας δεν θα χρειάζεται να είναι δημοφιλείς για να φτάσουν στον τελικό χρήστη, όπως συμβαίνει σήμερα με τις μηχανές αναζήτησης στο Διαδίκτυο.

Η σημασιολογική τεχνολογία υπόσχεται να προσφέρει και άλλα μέσα διασφάλισης της ποιότητας, με εντοπισμό του πλούτου και της συνεκτικότητας των νοημάτων που περιέχονται σε ένα συγκεκριμένο κείμενο. Εάν ένα κείμενο περιλαμβάνει την πρόταση «Πολλοί δημόσιοι υπάλληλοι σκοτώνουν την ώρα τους σερφάροντας στο Διαδίκτυο» αυτό σημαίνει ότι το υπόλοιπο κείμενο θα περιλαμβάνει σχετικά νοήματα; Ή μήπως πρόκειται για μήνυμα ανεπιθύμητης αλληλογραφίας που φέρει ελκυστικό τίτλο αλλά περιέχει σωρεία διαφημίσεων; Η σημασιολογική τεχνολογία είναι σε θέση να κάνει τη διάκριση.

Δεδομένης της περιορισμένης ικανότητας ανάγνωσης που έχει ο άνθρωπος (200-300 λέξεις ανά λεπτό) και του τεράστιου όγκου των διαθέσιμων πληροφοριών, για να διασφαλιστεί η αποτελεσματική λήψη αποφάσεων σήμερα είναι απαραίτητη η χρήση της σημασιολογικής τεχνολογίας σε κάθε επίπεδο αναβάθμισης της πληροφορίας. Δεν θα ανεχτούμε στο μέλλον η γνώση να είναι έρμαιο της δημοτικότητας και των χρημάτων.

Copyright: Project Syndicate, 2008.

ΠΗΓΗ:Η ΝΑΥΤΕΜΠΟΡΙΚΗ                            www.project-syndicate.org

Δεν υπάρχουν σχόλια: