2) Είστε: Φυσικό πρόσωπο ;
α) Επωνυμία: Μαρκαντωνάτου Στέλλα
β) Τηλέφωνο επικοινωνίας : 6945535623
γ) E-mail επικοινωνίας : stellamarkantonatou@yahoo.com
3) Εάν είστε Φυσικό πρόσωπο, ποια από τις επιλογές που αναφέρονται παρακάτω σας αντιπροσωπεύει περισσότερο;
γ) Ερευνήτρια
Β. ΣΤΟΙΧΕΙΑ ΤΩΝ ΠΡΟΤΕΙΝΟΜΕΝΩΝ ΔΡΑΣΕΩΝ
1. Σε ποιό επιστημονικό τομέα δραστηριοποιήστε;
• Aνθρωπιστικές Επιστήμες
• Διαθεματικές προτεραιότητες: Human Language Technologies
2. Περίληψη της πρότασης
To κειμενικό περιεχόμενο που παράγεται από τους χρήστες στο Web 2.0 (User Generated Content) είναι πολύτιμος πόρος για θέματα διαγλωσσικής εξαγωγής πληροφορίας, εξόρυξης απόψεων (opinion mining), ενισχυμένων αναζητήσεων στον ιστό, έρευνας στις κοινωνικές και ανθρωπιστικές επιστήμες, έξυπνης διαφήμισης κλπ. Η τεχνολογική αξιοποίηση τέτοιων κειμένων αποτελεί πρόκληση γιατί σε αυτά χρησιμοποείται η καθομιλούμενη και βρίθουν συντομεύσεων, λαϊκών εκφράσεων, ιδιολεκτικού λεξιλογίου και, βέβαια, ορθογραφικών, γραμματικών και συντακτικών λαθών. Οι γνωστές τεχνικές Επεξεργασίας της Φυσικής Γλώσσας (ΕΦΓ) έχουν αναπτυχθεί για τον τυπικό γραπτό λόγο δεν είναι επαρκείς για τέτοιο υλικό. Το πρόβλημα τίθεται με διπλό τρόπο:
- Παραγωγή και συλλογή βατού κειμενικού υλικού από τους χρήστες (πχ crowdsourcing για τεκμηρίωση ιστορικού υλικού) με άμεση ενσωμάτωση στο σημασιολογικό ιστό
-Αναβαθμισμένη ΕΦΓ για την αξιοποίηση του κειμενικού υλικού που παράγουν οι χρήστες
3. Προτεινόμενη προσέγγιση για την υλοποίησή συγκεκριμένων δράσεων
3.1. Τεχνική περιγραφή
-Γλωσσολογική μελέτη των ιδιαιτεροτήτων του κειμενικού υλικού που παράγεται από χρήστες
-Μέθοδοι για τον λεπτομερή σχολιασμό τέτοιων σωμάτων κειμένων
-Εργαλεία για tokenization, POS tagging, chunking, συντακτική ανάλυση, ανίχνευση ονομάτων οντοτήτων κλπ
-Προσαρμογή καθιερωμένων τεχνικών ΕΦΓ στις ανάγκες αυτού του είδους κειμένων
-Κανονικοποίηση τέτοιων κειμένων, τα συν και τα πλην, εργαλεία για την υποβοήθηση της κανονικοποίησής τους ήδη από την συγγραφή τους
-Eργαλεία και πόροι για την υποβοήθηση της ένταξης τέτοιων (αξιόλογων) κειμένων στον Σημασιολογικό Ιστό
3.2. Δυνατότητες για σημαντικές εξελίξεις
Η αξιοποίηση της πληροφορίας που είναι διάχυτη στο διαδίκτυο διευκολύνεται. Αυτό με τη σειρά του διευκολύνει το ανοίξει ο κύκλος παραγωγών χρήσιμης πληροφορίας μια και η απαιτούμενη γλώσσα είναι φυσιολογικότερη επιτρέποντας εφαρμογές σε τομείς που πρέπει να αναφέρονται σε τεράστιους αριθμούς ατόμων, όπως η υγεία και η εκπαίδευση.
Ο τομέας είναι δυναμικός στις ΗΠΑ, Ευρώπη και ανερχόμενες οικονομίες καθώς σχετίζεται άμεσα με το web2.0/web3.0. Στην Ελλάδα η ΕΦΓ είναι σημαντικά ανεπτυγμένη όσον αφορά την κλασική της μορφή. Μπορεί και πρέπει να περάσει στην ΕΦΓ νέας γενιάς διασφαλίζοντας, μεταξύ άλλων, την ενεργή παρουσία της Ελληνικής στις τεχνολογικές εξελίξεις.
3.3. Αναμενόμενα αποτελέσματα
-Βελτίωση της γλωσσολογικής περιγραφής της Ελληνικής, καλύτερη σύνδεση της εγχώριας γλωσσολογικής κοινότητας με τις διεθνείς εξελίξεις στο χώρο, παραγωγή γλωσσικών πόρων (σωμάτων κειμένων, λεξικών, οντολογιών) για την μελέτη και την τεχνολογική αξιοποίηση ελληνικών κειμένων στο διαδίκτυο
-Εργαλεία για ΕΦΓ προαρμοσμένα στις ιδιαιτερότητες της καθομιλούμενης (και όχι μόνο της Ελληνικής καθομιλούμενης)
-Εργαλεία και πόροι που θα υποβοηθούν τους χρήστες στην ανάπτυξη κειμένων που θα μπορούν να διασυνδεθούν στον σημασιολογικό ιστό
3.4. Δυνατότητες για εφαρμογές και μεταφορά τεχνολογίας στον παραγωγικό τομέα
Οι εφαρμογές καλύπτουν τομείς όπως:
-διαγλωσσική εξαγωγή πληροφορίας
-ενισχυμένες αναζητήσεις στον ιστό
- εξόρυξη απόψεων (opinion mining) με εφαρμογή στη διαφήμιση, χάραξη πολιτικών πχ στον τομέα της υγείας, την προστασία των παιδιών στη χρήση του διαδικτύου κλπ
-έρευνα στις κοινωνικές και ανθρωπιστικές επιστήμες
4. Βαθμός ετοιμότητας του ερευνητικού ιστού στη συγκεκριμένη ερευνητική περιοχή
Υπάρχουν σημαντικές ερευνητικές κοινότητες στην Ελλάδα καταξιωμένες διεθνώς. Το Ινστιτούτο Επεξεργασίας του Λόγου/Ε.Κ. «Αθηνά» με 70 περίπου εξειδικευμένους ερευνητές αποτελεί βασικό πόλο. Επίσης, σημαντικές ομάδες υπάρχουν στον Δημόκριτο, το Οικονομικό Πανεπιστήμιο της Αθήνας, στο Πανεπιστήμιο της Πάτρας.
Οι ανάγκες σε εξοπλισμό και υποδομές είναι συμβατικές.
Την έρευνα θα ευνοούσε η αλλελεπίδραση των ξεχωριστών ερευνητικών κοινοτήτων, πχ γλωσσολόγοι, μηχανικοί πληροφορικής, ερευνητικές ομάδες διαφορετικών ινστιτούτων, Πανεπιστημίων κλπ ώστε να αντιμετωπιστούν τα θέματα από διάφορες οπτικές γωνίες και να υπάρξει εθνική συνεργασία στον τομέα.
5. Προτεινόμενη χρονική διάρκεια και δομή των δράσεων, γενικός προϋπολογισμός
1. Βασική έρευνα. Κατηγορία Β. Μικρές, μικτές ομάδες και έργα τριετούς διάρκειας σε:
- γλωσσολογία
- ανάπτυξη πόρων και τεχνικών ΕΦΓ γενικής φύσεως
2. Εφαρμοσμένη έρευνα. Κατηγορία Γ. Συνεργασία με επιχειρήσεις
(τύπος, διαφήμιση, επιχειρήσεις στο χώρο της υγείας, του τουρισμού κλπ) και με υπουργεία (Υγεία, Πολιτισμός, Τουρισμός, Εκπαίδευση) για ανάπτυξη εφαρμογών διαμόρφωσης πολιτικών, αποτύπωσης της κοινής γνώμης, δημιουργίας γνώσης από τις διαφορετικές κοινότητες χρηστών.
6. Τεκμηρίωση της σκοπιμότητας των δράσεων.
1. Αφορά τον ρόλο της Ελληνικής στις νέες δικτυακές συνθήκες.
2. Η Ελλάδα έχει παίξει πρωταγωνιστικό ρόλο στα θέματα ΕΦΓ στα Βαλκάνια και έχει σημαντική συμμετοχή στις Ευρωπαϊκές σχετικές δραστηριότητες τα τελευταία 30 χρόνια και πρέπει να διατηρήσει αυτήν την δυνατότητα.
3. Είναι η ΕΦΓ του μέλλοντος και εντάσσεται άμεσα στο ICT/Horizons in the framework of Priority 2/Leadership in enabling and industrial technologies/Content technologies and information management: Technologies for language, learning, interaction, digital preservation, content access and analytics; advanced data mining, machine learning, statistical analysis and visual computing.
7. Βιβλιογραφικές αναφορές (άκρως ενδεικτικές)
Eugene Agichtein, Carlos Castillo, Debora Donato, Aristides Gionis, Gilad Mishne. 2008. Finding high-quality content in social media. Proceedings of the international conference on Web search and web data mining WSDM 08 (2008), Volume 57, ACM Press
B. Han and T. Baldwin. 2011. Lexical normalisation of short text messages. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics.
Tom Heath and Enrico Motta. 2008. Ease of interaction plus ease of integration: Combining Web2.0 and the Semantic Web in a reviewing site. Web Semantics: Science, Services and Agents on the World Wide Web, Volume 6, Issue 1, February 2008, Pages 76–83, Elsevier
2) Είστε: Φυσικό πρόσωπο ; α) Επωνυμία: Μαρκαντωνάτου Στέλλα β) Τηλέφωνο επικοινωνίας : 6945535623 γ) E-mail επικοινωνίας : stellamarkantonatou@yahoo.com 3) Εάν είστε Φυσικό πρόσωπο, ποια από τις επιλογές που αναφέρονται παρακάτω σας αντιπροσωπεύει περισσότερο; γ) Ερευνήτρια Β. ΣΤΟΙΧΕΙΑ ΤΩΝ ΠΡΟΤΕΙΝΟΜΕΝΩΝ ΔΡΑΣΕΩΝ 1. Σε ποιό επιστημονικό τομέα δραστηριοποιήστε; • Aνθρωπιστικές Επιστήμες • Διαθεματικές προτεραιότητες: Human Language Technologies 2. Περίληψη της πρότασης To κειμενικό περιεχόμενο που παράγεται από τους χρήστες στο Web 2.0 (User Generated Content) είναι πολύτιμος πόρος για θέματα διαγλωσσικής εξαγωγής πληροφορίας, εξόρυξης απόψεων (opinion mining), ενισχυμένων αναζητήσεων στον ιστό, έρευνας στις κοινωνικές και ανθρωπιστικές επιστήμες, έξυπνης διαφήμισης κλπ. Η τεχνολογική αξιοποίηση τέτοιων κειμένων αποτελεί πρόκληση γιατί σε αυτά χρησιμοποείται η καθομιλούμενη και βρίθουν συντομεύσεων, λαϊκών εκφράσεων, ιδιολεκτικού λεξιλογίου και, βέβαια, ορθογραφικών, γραμματικών και συντακτικών λαθών. Οι γνωστές τεχνικές Επεξεργασίας της Φυσικής Γλώσσας (ΕΦΓ) έχουν αναπτυχθεί για τον τυπικό γραπτό λόγο δεν είναι επαρκείς για τέτοιο υλικό. Το πρόβλημα τίθεται με διπλό τρόπο: - Παραγωγή και συλλογή βατού κειμενικού υλικού από τους χρήστες (πχ crowdsourcing για τεκμηρίωση ιστορικού υλικού) με άμεση ενσωμάτωση στο σημασιολογικό ιστό -Αναβαθμισμένη ΕΦΓ για την αξιοποίηση του κειμενικού υλικού που παράγουν οι χρήστες 3. Προτεινόμενη προσέγγιση για την υλοποίησή συγκεκριμένων δράσεων 3.1. Τεχνική περιγραφή -Γλωσσολογική μελέτη των ιδιαιτεροτήτων του κειμενικού υλικού που παράγεται από χρήστες -Μέθοδοι για τον λεπτομερή σχολιασμό τέτοιων σωμάτων κειμένων -Εργαλεία για tokenization, POS tagging, chunking, συντακτική ανάλυση, ανίχνευση ονομάτων οντοτήτων κλπ -Προσαρμογή καθιερωμένων τεχνικών ΕΦΓ στις ανάγκες αυτού του είδους κειμένων -Κανονικοποίηση τέτοιων κειμένων, τα συν και τα πλην, εργαλεία για την υποβοήθηση της κανονικοποίησής τους ήδη από την συγγραφή τους -Eργαλεία και πόροι για την υποβοήθηση της ένταξης τέτοιων (αξιόλογων) κειμένων στον Σημασιολογικό Ιστό 3.2. Δυνατότητες για σημαντικές εξελίξεις Η αξιοποίηση της πληροφορίας που είναι διάχυτη στο διαδίκτυο διευκολύνεται. Αυτό με τη σειρά του διευκολύνει το ανοίξει ο κύκλος παραγωγών χρήσιμης πληροφορίας μια και η απαιτούμενη γλώσσα είναι φυσιολογικότερη επιτρέποντας εφαρμογές σε τομείς που πρέπει να αναφέρονται σε τεράστιους αριθμούς ατόμων, όπως η υγεία και η εκπαίδευση. Ο τομέας είναι δυναμικός στις ΗΠΑ, Ευρώπη και ανερχόμενες οικονομίες καθώς σχετίζεται άμεσα με το web2.0/web3.0. Στην Ελλάδα η ΕΦΓ είναι σημαντικά ανεπτυγμένη όσον αφορά την κλασική της μορφή. Μπορεί και πρέπει να περάσει στην ΕΦΓ νέας γενιάς διασφαλίζοντας, μεταξύ άλλων, την ενεργή παρουσία της Ελληνικής στις τεχνολογικές εξελίξεις. 3.3. Αναμενόμενα αποτελέσματα -Βελτίωση της γλωσσολογικής περιγραφής της Ελληνικής, καλύτερη σύνδεση της εγχώριας γλωσσολογικής κοινότητας με τις διεθνείς εξελίξεις στο χώρο, παραγωγή γλωσσικών πόρων (σωμάτων κειμένων, λεξικών, οντολογιών) για την μελέτη και την τεχνολογική αξιοποίηση ελληνικών κειμένων στο διαδίκτυο -Εργαλεία για ΕΦΓ προαρμοσμένα στις ιδιαιτερότητες της καθομιλούμενης (και όχι μόνο της Ελληνικής καθομιλούμενης) -Εργαλεία και πόροι που θα υποβοηθούν τους χρήστες στην ανάπτυξη κειμένων που θα μπορούν να διασυνδεθούν στον σημασιολογικό ιστό 3.4. Δυνατότητες για εφαρμογές και μεταφορά τεχνολογίας στον παραγωγικό τομέα Οι εφαρμογές καλύπτουν τομείς όπως: -διαγλωσσική εξαγωγή πληροφορίας -ενισχυμένες αναζητήσεις στον ιστό - εξόρυξη απόψεων (opinion mining) με εφαρμογή στη διαφήμιση, χάραξη πολιτικών πχ στον τομέα της υγείας, την προστασία των παιδιών στη χρήση του διαδικτύου κλπ -έρευνα στις κοινωνικές και ανθρωπιστικές επιστήμες 4. Βαθμός ετοιμότητας του ερευνητικού ιστού στη συγκεκριμένη ερευνητική περιοχή Υπάρχουν σημαντικές ερευνητικές κοινότητες στην Ελλάδα καταξιωμένες διεθνώς. Το Ινστιτούτο Επεξεργασίας του Λόγου/Ε.Κ. «Αθηνά» με 70 περίπου εξειδικευμένους ερευνητές αποτελεί βασικό πόλο. Επίσης, σημαντικές ομάδες υπάρχουν στον Δημόκριτο, το Οικονομικό Πανεπιστήμιο της Αθήνας, στο Πανεπιστήμιο της Πάτρας. Οι ανάγκες σε εξοπλισμό και υποδομές είναι συμβατικές. Την έρευνα θα ευνοούσε η αλλελεπίδραση των ξεχωριστών ερευνητικών κοινοτήτων, πχ γλωσσολόγοι, μηχανικοί πληροφορικής, ερευνητικές ομάδες διαφορετικών ινστιτούτων, Πανεπιστημίων κλπ ώστε να αντιμετωπιστούν τα θέματα από διάφορες οπτικές γωνίες και να υπάρξει εθνική συνεργασία στον τομέα. 5. Προτεινόμενη χρονική διάρκεια και δομή των δράσεων, γενικός προϋπολογισμός 1. Βασική έρευνα. Κατηγορία Β. Μικρές, μικτές ομάδες και έργα τριετούς διάρκειας σε: - γλωσσολογία - ανάπτυξη πόρων και τεχνικών ΕΦΓ γενικής φύσεως 2. Εφαρμοσμένη έρευνα. Κατηγορία Γ. Συνεργασία με επιχειρήσεις (τύπος, διαφήμιση, επιχειρήσεις στο χώρο της υγείας, του τουρισμού κλπ) και με υπουργεία (Υγεία, Πολιτισμός, Τουρισμός, Εκπαίδευση) για ανάπτυξη εφαρμογών διαμόρφωσης πολιτικών, αποτύπωσης της κοινής γνώμης, δημιουργίας γνώσης από τις διαφορετικές κοινότητες χρηστών. 6. Τεκμηρίωση της σκοπιμότητας των δράσεων. 1. Αφορά τον ρόλο της Ελληνικής στις νέες δικτυακές συνθήκες. 2. Η Ελλάδα έχει παίξει πρωταγωνιστικό ρόλο στα θέματα ΕΦΓ στα Βαλκάνια και έχει σημαντική συμμετοχή στις Ευρωπαϊκές σχετικές δραστηριότητες τα τελευταία 30 χρόνια και πρέπει να διατηρήσει αυτήν την δυνατότητα. 3. Είναι η ΕΦΓ του μέλλοντος και εντάσσεται άμεσα στο ICT/Horizons in the framework of Priority 2/Leadership in enabling and industrial technologies/Content technologies and information management: Technologies for language, learning, interaction, digital preservation, content access and analytics; advanced data mining, machine learning, statistical analysis and visual computing. 7. Βιβλιογραφικές αναφορές (άκρως ενδεικτικές) Eugene Agichtein, Carlos Castillo, Debora Donato, Aristides Gionis, Gilad Mishne. 2008. Finding high-quality content in social media. Proceedings of the international conference on Web search and web data mining WSDM 08 (2008), Volume 57, ACM Press B. Han and T. Baldwin. 2011. Lexical normalisation of short text messages. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics. Tom Heath and Enrico Motta. 2008. Ease of interaction plus ease of integration: Combining Web2.0 and the Semantic Web in a reviewing site. Web Semantics: Science, Services and Agents on the World Wide Web, Volume 6, Issue 1, February 2008, Pages 76–83, Elsevier