Επαφές

Φιλολογία Η/Υ. Ιστορία, ανάπτυξη και διαμόρφωση της υπολογιστικής γλωσσολογίας ως επιστημονικής κατεύθυνσης. Πρόγραμμα εισαγωγικών εξετάσεων και συνέντευξης για το γνωστικό αντικείμενο «Τυπικά μοντέλα και μέθοδοι σύγχρονης γλωσσολογίας»

Υπολογιστική γλωσσολογία(Επίσης: μαθηματικόςή υπολογιστική γλωσσολογία, Αγγλικά υπολογιστική γλωσσολογία) - μια επιστημονική κατεύθυνση στον τομέα της μαθηματικής και υπολογιστικής μοντελοποίησης των πνευματικών διεργασιών σε ανθρώπους και ζώα κατά τη δημιουργία συστημάτων τεχνητής νοημοσύνης, η οποία στοχεύει στη χρήση μαθηματικών μοντέλων για την περιγραφή φυσικών γλωσσών.

Η υπολογιστική γλωσσολογία επικαλύπτεται με την επεξεργασία φυσικής γλώσσας. Ωστόσο, στο τελευταίο δεν δίνεται έμφαση σε αφηρημένα μοντέλα, αλλά σε εφαρμοσμένες μεθόδους περιγραφής και επεξεργασίας της γλώσσας για συστήματα υπολογιστών.

Το πεδίο δραστηριότητας των γλωσσολόγων υπολογιστών είναι η ανάπτυξη αλγορίθμων και προγραμμάτων εφαρμογής για την επεξεργασία γλωσσικών πληροφοριών.

Προέλευση

Η μαθηματική γλωσσολογία είναι κλάδος της επιστήμης της τεχνητής νοημοσύνης. Η ιστορία του ξεκίνησε στις Ηνωμένες Πολιτείες της Αμερικής τη δεκαετία του 1950. Με την εφεύρεση του τρανζίστορ και την εμφάνιση μιας νέας γενιάς υπολογιστών, καθώς και των πρώτων γλωσσών προγραμματισμού, ξεκίνησαν τα πειράματα με τη μηχανική μετάφραση, ειδικά των ρωσικών επιστημονικών περιοδικών. Στη δεκαετία του 1960, παρόμοιες μελέτες πραγματοποιήθηκαν στην ΕΣΣΔ (για παράδειγμα, ένα άρθρο σχετικά με τη μετάφραση από τα ρωσικά στα αρμενικά στη συλλογή «Problems of Cybernetics» για το 1964). Ωστόσο, η ποιότητα της αυτόματης μετάφρασης εξακολουθεί να είναι πολύ κατώτερη από την ποιότητα της ανθρώπινης μετάφρασης.

Από τις 15 Μαΐου έως τις 21 Μαΐου 1958, πραγματοποιήθηκε το πρώτο Πανενωσιακό Συνέδριο για τη Μηχανική Μετάφραση στο Κρατικό Παιδαγωγικό Ινστιτούτο Ξένων Γλωσσών της Μόσχας. Επικεφαλής της Οργανωτικής Επιτροπής ήταν ο V. Yu Rosenzweig και ο εκτελεστικός γραμματέας της Οργανωτικής Επιτροπής G. V. Chernov. Το πλήρες πρόγραμμα του συνεδρίου δημοσιεύεται στη συλλογή «Machine Translation and Applied Linguistics», τομ. 1, 1959 (γνωστός και ως «Δελτίο Μηχανικής Μεταφραστικής Ένωσης Αρ. 8»). Όπως θυμάται ο V. Yu Rosenzweig, η δημοσιευμένη συλλογή περιλήψεων του συνεδρίου ήρθε στις ΗΠΑ και έκανε μεγάλη εντύπωση εκεί.

Τον Απρίλιο του 1959, πραγματοποιήθηκε στο Λένινγκραντ η Πρώτη Συνδικαλιστική Συνάντηση για τη Μαθηματική Γλωσσολογία, που συγκλήθηκε από το Πανεπιστήμιο του Λένινγκραντ και την Επιτροπή Εφαρμοσμένης Γλωσσολογίας. Κύριος διοργανωτής της Συνάντησης ήταν ο Ν.Δ.Αντρέεφ. Στη Συνάντηση συμμετείχαν διάφοροι εξέχοντες μαθηματικοί, ιδίως οι S. L. Sobolev, L. V. Kantorovich (αργότερα βραβευμένος με Νόμπελ) και A. A. Markov (οι δύο τελευταίοι μίλησαν στη συζήτηση). Ο V. Yu. Rosenzweig παρέδωσε μια κεντρική ομιλία την ημέρα έναρξης της Συνάντησης, «Γενική γλωσσική θεωρία της μετάφρασης και μαθηματική γλωσσολογία».

Τομείς Υπολογιστικής Γλωσσολογίας

  • Επεξεργασία φυσικής γλώσσας επεξεργασία φυσικής γλώσσας; συντακτική, μορφολογική, σημασιολογική ανάλυση κειμένου). Αυτό περιλαμβάνει επίσης:
  1. Corpus linguistics, δημιουργία και χρήση ηλεκτρονικών σωμάτων κειμένων
  2. Δημιουργία ηλεκτρονικών λεξικών, θησαυρών, οντολογιών. Για παράδειγμα, η Lingvo. Τα λεξικά χρησιμοποιούνται, για παράδειγμα, για αυτόματη μετάφραση και ορθογραφικό έλεγχο.
  3. Αυτόματη μετάφραση κειμένων. Το Promt είναι δημοφιλές στους Ρώσους μεταφραστές. Μεταξύ των δωρεάν είναι το Google Translate.
  4. Αυτόματη εξαγωγή γεγονότων από κείμενο (εξαγωγή πληροφοριών) εξαγωγή γεγονότων, εξόρυξη κειμένου)
  5. Αυτόματη αναφορά αυτόματη σύνοψη κειμένου). Αυτή η δυνατότητα περιλαμβάνεται, για παράδειγμα, στο Microsoft Word.
  6. Δημιουργία συστημάτων διαχείρισης γνώσης. Δείτε Εξειδικευμένα Συστήματα
  7. Δημιουργία συστημάτων ερωτήσεων και απαντήσεων συστήματα απάντησης ερωτήσεων).
  • Οπτική αναγνώριση χαρακτήρων OCR). Για παράδειγμα, το πρόγραμμα FineReader
  • Αυτόματη αναγνώριση ομιλίας ASR). Υπάρχει επί πληρωμή και δωρεάν λογισμικό
  • Αυτόματη σύνθεση ομιλίας

Μεγάλοι σύλλογοι και συνέδρια

Προγράμματα σπουδών στη Ρωσία

δείτε επίσης

Γράψε μια αξιολόγηση για το άρθρο "Υπολογιστική Γλωσσολογία"

Σημειώσεις

Συνδέσεις

  • (αφηρημένη)
  • - βάση γνώσεων γλωσσικών πόρων για τη ρωσική γλώσσα
  • - Κώδικες ανοιχτού κώδικα ορισμένων βοηθητικών προγραμμάτων υπολογιστικής γλωσσολογίας
  • - διαδικτυακή πρόσβαση σε προγράμματα υπολογιστικής γλωσσολογίας

Ένα απόσπασμα που χαρακτηρίζει την Υπολογιστική Γλωσσολογία

«Πάρε, πάρε το παιδί», είπε ο Πιέρ, παραδίδοντας το κορίτσι και απευθυνόμενος στη γυναίκα αυτοκρατορικά και βιαστικά. - Δώσε τους, δώσε τους! - φώναξε σχεδόν στη γυναίκα, βάζοντας το κορίτσι που ούρλιαζε στο έδαφος, και ξανακοίταξε πίσω στη γαλλική και την αρμενική οικογένεια. Ο γέρος καθόταν ήδη ξυπόλητος. Ο μικρός Γάλλος έβγαλε την τελευταία του μπότα και χτύπησε τις μπότες τη μια πάνω στην άλλη. Ο γέρος, κλαίγοντας, είπε κάτι, αλλά ο Πιέρ το έβλεπε μόνο μια ματιά. όλη του η προσοχή στράφηκε στον Γάλλο με την κουκούλα, ο οποίος εκείνη την ώρα, ταλαντευόμενος αργά, κινήθηκε προς τη νεαρή γυναίκα και, βγάζοντας τα χέρια του από τις τσέπες του, της έπιασε το λαιμό.
Η όμορφη Αρμένισσα συνέχισε να κάθεται στην ίδια ακίνητη στάση, με τις μακριές βλεφαρίδες χαμηλωμένη, και σαν να μην έβλεπε και να μην ένιωθε τι της έκανε ο στρατιώτης.
Ενώ ο Πιερ έτρεχε τα λίγα σκαλοπάτια που τον χώριζαν από τους Γάλλους, ένας μακρύς επιδρομέας με κουκούλα έσκιζε ήδη το περιδέραιο που φορούσε από το λαιμό της Αρμένισσας και η νεαρή, κρατώντας το λαιμό της με τα χέρια της, ούρλιαξε με τσιριχτή φωνή .
– Laissez cette femme! [Άφησε αυτή τη γυναίκα!] - Ο Πιερ γρύλισε με μια ξέφρενη φωνή, πιάνοντας τον μακρύ, καμπουριασμένο στρατιώτη από τους ώμους και πετώντας τον μακριά. Ο στρατιώτης έπεσε, σηκώθηκε και έφυγε τρέχοντας. Αλλά ο σύντροφός του, πετώντας τις μπότες του, έβγαλε ένα μαχαίρι και προχώρησε απειλητικά στον Πιέρ.
- Voyons, pas de betises! [Ω καλά! Μην είσαι ανόητος!] – φώναξε.
Ο Πιερ βρισκόταν σε εκείνη την οργή που δεν θυμόταν τίποτα και η δύναμή του δεκαπλασιάστηκε. Όρμησε στον ξυπόλητο Γάλλο και, πριν προλάβει να βγάλει το μαχαίρι του, τον είχε ήδη χτυπήσει κάτω και τον σφυροκοπούσε με τις γροθιές του. Ακούστηκε μια επιδοκιμαστική κραυγή από το γύρω πλήθος, και την ίδια στιγμή μια έφιππη περίπολος Γάλλων λογχών εμφανίστηκε στη γωνία. Οι λογχοφόροι πλησίασαν τον Πιέρ και τον Γάλλο και τους περικύκλωσαν. Ο Πιέρ δεν θυμόταν τίποτα από αυτό που συνέβη στη συνέχεια. Θυμήθηκε ότι είχε χτυπήσει κάποιον, τον είχαν χτυπήσει και ότι στο τέλος ένιωσε ότι τα χέρια του ήταν δεμένα, ότι ένα πλήθος Γάλλων στρατιωτών στέκονταν γύρω του και έψαχναν το φόρεμά του.
«Il a un poignard, υπολοχαγός, [Υπολοχαγός, έχει ένα στιλέτο»] ήταν οι πρώτες λέξεις που κατάλαβε ο Pierre.
- Αχ, une arme! [Α, όπλα!] - είπε ο αξιωματικός και γύρισε στον ξυπόλητο στρατιώτη που τον πήραν μαζί με τον Πιέρ.
«Καλό, vous direz tout cela au conseil de guerre, [Εντάξει, εντάξει, θα τα πεις όλα στη δίκη», είπε ο αξιωματικός και μετά γύρισε στον Πιέρ: Μιλάς γαλλικά; ]
Ο Πιερ κοίταξε γύρω του με ματωμένα μάτια και δεν απάντησε. Το πρόσωπό του μάλλον φαινόταν πολύ τρομακτικό, γιατί ο αξιωματικός είπε κάτι ψιθυριστά και άλλα τέσσερα λογχάκια χωρίστηκαν από την ομάδα και στάθηκαν και στις δύο πλευρές του Πιέρ.
– Parlez vous francais; – του επανέλαβε την ερώτηση ο αξιωματικός, μένοντας μακριά του. - Faites venir l "interprete. [Καλέστε διερμηνέα.] - Ένας μικρός άνδρας με ρωσικό πολιτικό φόρεμα βγήκε πίσω από τις σειρές. Ο Πιερ, από την ενδυμασία και την ομιλία του, τον αναγνώρισε αμέσως ως Γάλλο από ένα από τα καταστήματα της Μόσχας.
«Il n"a pas l"air d"un homme du peuple, [Δεν μοιάζει με κοινό», είπε ο μεταφραστής κοιτάζοντας τον Pierre.
- Ωχ Ώχ! ca m"a bien l"air d"un des incendiaires", θόλωσε ο αξιωματικός "Demandez lui ce qu"il est. [Ωχ Ώχ! μοιάζει πολύ με εμπρηστή. Ρωτήστε τον ποιος είναι;] πρόσθεσε.
- Ποιος είσαι; – ρώτησε ο μεταφραστής. «Οι αρχές πρέπει να απαντήσουν», είπε.
– Je ne vous dirai pas qui je suis. Je suis votre κρατούμενος. Emmenez moi, [δεν θα σου πω ποιος είμαι. Είμαι κρατούμενος σου. Πάρε με μακριά», είπε ξαφνικά ο Πιερ στα γαλλικά.
- Αχ ​​αχ! – είπε ο αξιωματικός συνοφρυωμένος. - Μαρκόν!
Ένα πλήθος μαζεύτηκε γύρω από τα λογχοειδή. Πιο κοντά στον Πιερ στεκόταν μια γυναίκα με τσέπες με ένα κορίτσι. Όταν η παράκαμψη άρχισε να κινείται, εκείνη προχώρησε.
-Πού σε πάνε καλή μου; - είπε. - Αυτό το κορίτσι, τι θα κάνω με αυτό το κορίτσι, αν δεν είναι δικό τους! - είπε η γυναίκα.
– Qu"est ce qu"elle veut cette femme; [Τι θέλει;] - ρώτησε ο αξιωματικός.
Ο Πιερ φαινόταν σαν να ήταν μεθυσμένος. Η εκστατική του κατάσταση εντάθηκε ακόμη περισσότερο στη θέα της κοπέλας που είχε σώσει.
«Τι δεν είναι;» είπε. - Αντίο! [Τι θέλει; Κουβαλάει την κόρη μου, την οποία έσωσα από τη φωτιά. Αντίο!] - και αυτός, μη γνωρίζοντας πώς του ξέφυγε αυτό το άσκοπο ψέμα, περπάτησε με ένα αποφασιστικό, επίσημο βήμα ανάμεσα στους Γάλλους.
Η γαλλική περίπολος ήταν μια από αυτές που στάλθηκαν με εντολή του Ντουρονέλ σε διάφορους δρόμους της Μόσχας για να καταστείλει τη λεηλασία και κυρίως να συλλάβει τους εμπρηστές, οι οποίοι, σύμφωνα με τη γενική άποψη που προέκυψε εκείνη την ημέρα μεταξύ των Γάλλων ανώτατων βαθμίδων, ήταν οι αιτία των πυρκαγιών. Έχοντας ταξιδέψει σε πολλούς δρόμους, η περίπολος συνέλαβε πέντε ακόμη ύποπτους Ρώσους, έναν καταστηματάρχη, δύο ιεροδιδασκάλους, έναν αγρότη και έναν υπηρέτη και αρκετούς πλιατσικάδες. Αλλά από όλους τους καχύποπτους ανθρώπους, ο Πιερ φαινόταν ο πιο ύποπτος από όλους. Όταν τους έφεραν όλους για να περάσουν τη νύχτα σε ένα μεγάλο σπίτι στο Zubovsky Val, στο οποίο είχε εγκατασταθεί φυλάκιο, ο Pierre τέθηκε ξεχωριστά υπό αυστηρή φρουρά.

Στην Αγία Πετρούπολη αυτή την εποχή, στους υψηλότερους κύκλους, με μεγαλύτερη ζέση από ποτέ, υπήρχε μια πολύπλοκη πάλη μεταξύ των κομμάτων του Ρουμιάντσεφ, των Γάλλων, της Μαρίας Φεοντόροβνα, του Τσαρέβιτς και άλλων, που πνίγηκαν, όπως πάντα, από τις σαλπίσεις. των δικαστικών drones. Αλλά ήρεμη, πολυτελής, ασχολούμενη μόνο με φαντάσματα, αντανακλάσεις ζωής, η ζωή στην Αγία Πετρούπολη συνεχίστηκε όπως πριν. και λόγω της πορείας αυτής της ζωής, χρειάστηκε να καταβληθούν μεγάλες προσπάθειες για να αναγνωριστεί ο κίνδυνος και η δύσκολη κατάσταση στην οποία βρέθηκε ο ρωσικός λαός. Υπήρχαν οι ίδιες έξοδοι, μπάλες, το ίδιο γαλλικό θέατρο, τα ίδια ενδιαφέροντα των γηπέδων, τα ίδια συμφέροντα εξυπηρέτησης και ίντριγκας. Μόνο στους ανώτατους κύκλους έγιναν προσπάθειες για να θυμηθεί η δυσκολία της παρούσας κατάστασης. Λεγόταν ψιθυριστά πώς οι δύο αυτοκράτειρες ενεργούσαν η μια απέναντι στην άλλη σε τόσο δύσκολες συνθήκες. Η αυτοκράτειρα Μαρία Φεοντόροβνα, ανησυχώντας για την ευημερία των φιλανθρωπικών και εκπαιδευτικών ιδρυμάτων υπό τη δικαιοδοσία της, έδωσε εντολή να στείλει όλα τα ιδρύματα στο Καζάν και τα πράγματα αυτών των ιδρυμάτων ήταν ήδη γεμάτα. Η αυτοκράτειρα Ελισαβέτα Αλεξέεβνα, όταν ρωτήθηκε ποιες εντολές ήθελε να κάνει, με τον χαρακτηριστικό ρωσικό πατριωτισμό της, απάντησε ότι δεν μπορούσε να κάνει εντολές για κρατικούς θεσμούς, αφού αυτό αφορούσε τον κυρίαρχο. περίπου το ίδιο πράγμα που εξαρτάται προσωπικά από την ίδια, εξέφρασε την ικανοποίησή της να πει ότι θα είναι η τελευταία που θα φύγει από την Αγία Πετρούπολη.

Νοβοσέλοβα Ιρίνα

Γιατί δεν είναι όλες οι μηχανικές μεταφράσεις τέλειες; Τι καθορίζει την ποιότητα της μετάφρασης; Έχει ο συγγραφέας αρκετές γνώσεις για να χρησιμοποιήσει και να επεκτείνει τα υπάρχοντα λεξικά υπολογιστών; Η συγγραφέας προσπάθησε να δώσει απαντήσεις σε αυτά τα ερωτήματα στο έργο της. Η αναφορά για το θέμα βρίσκεται στο συνημμένο αρχείο, το προϊόν της δραστηριότητας του έργου βρίσκεται στη σχολική πύλη

Κατεβάστε:

Προεπισκόπηση:

Ανοιξε

Διεθνές

έρευνα

διάσκεψη

μαθητές και μαθητές γυμνασίου

"Εκπαίδευση. Η επιστήμη. Επάγγελμα"

Ενότητα «Ξένη γλωσσολογία»

"Υπολογιστική γλωσσολογία"

Ερμηνεύει η Novoselova Irina

Δημοτικό Εκπαιδευτικό Ίδρυμα Γυμνάσιο Νο. 39 «Κλασσικό»

10 «Β» τάξη

Επιστημονικοί Υπεύθυνοι:

Chigrinyova Tatyana Dmitrievna,

Καθηγήτρια αγγλικών της υψηλότερης κατηγορίας

Osipova Svetlana Leonidovna,

καθηγητής πληροφορικής της υψηλότερης κατηγορίας

Otradny

2011

  1. Αγγλικές λέξεις στις ΤΠΕ

Κοιτάξτε στον ιστότοπο

  1. Το πείραμά μου

Ένα από τα καθήκοντα είναι η διεξαγωγή ενός πειράματος, το οποίο περιλαμβάνει τη σύγκριση των δυνατοτήτων διαφόρων γλωσσικών λεξικών υπολογιστών για πιο ακριβή και κατά προσέγγιση μετάφραση από τα αγγλικά στα ρωσικά.

Οι παρακάτω ιστότοποι δοκιμάστηκαν:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Για την καθαρότητα του πειράματος, επέλεξα προτάσεις με ποικίλους βαθμούς πολυπλοκότητας υφολογικής μετάφρασης. Οι φράσεις εισαγωγής είναι οι εξής:

1. Μια νέα έκθεση λέει ότι οι σημερινοί έφηβοι είναι πιο εγωιστές από ό,τι πριν από 20 χρόνια

(Νέα έκθεση λέει ότι οι έφηβοι σήμερα είναι πιο εγωιστές από ό, τι ήταν πριν από 20 χρόνια)

2. Πιστεύει ότι τα βιντεοπαιχνίδια και το Διαδίκτυο είναι οι μεγαλύτεροι λόγοι για αυτόν τον αυξημένο εγωισμό.

(Πιστεύει ότι τα βιντεοπαιχνίδια και το Διαδίκτυο είναι οι πιο σημαντικοί λόγοι για αυτόν τον αυξανόμενο εγωισμό)

3. Θέλουν να είναι καλύτεροι από τους άλλους

(Θέλουν να είναι καλύτεροι από τους υπόλοιπους)

4. Βρήκε ότι η μεγάλη αύξηση ξεκίνησε από το 2000, όταν τα βίαια βιντεοπαιχνίδια έγιναν πολύ δημοφιλή.

(Βρήκε μεγάλη αύξηση ξεκινώντας το 2000 όταν τα βίαια βιντεοπαιχνίδια έγιναν πολύ δημοφιλή)

Έχοντας μεταφράσει αυτές τις προτάσεις σε ιστότοπους διαδικτυακών μεταφραστών, έλαβα τα ακόλουθα αποτελέσματα:

  1. http://translate.eu/

Η Φιλολογική Σχολή της Ανώτατης Οικονομικής Σχολής εγκαινιάζει ένα νέο μεταπτυχιακό πρόγραμμα αφιερωμένο στην υπολογιστική γλωσσολογία: υποδέχεται υποψηφίους με βασική εκπαίδευση στις ανθρωπιστικές και μαθηματικές επιστήμες και όποιον ενδιαφέρεται να λύσει προβλήματα σε έναν από τους πιο υποσχόμενους κλάδους της επιστήμης . Η διευθύντριά του, Anastasia Bonch-Osmolovskaya, είπε στους Theories and Practitioners τι είναι η υπολογιστική γλωσσολογία, γιατί τα ρομπότ δεν θα αντικαταστήσουν τους ανθρώπους και τι θα διδαχθεί στο μεταπτυχιακό πρόγραμμα HSE στην υπολογιστική γλωσσολογία.

Αυτό το πρόγραμμα είναι σχεδόν το μοναδικό στο είδος του στη Ρωσία. Που σπούδασες;

Σπούδασα στο Κρατικό Πανεπιστήμιο της Μόσχας στο Τμήμα Θεωρητικής και Εφαρμοσμένης Γλωσσολογίας της Φιλολογικής Σχολής. Δεν έφτασα εκεί αμέσως, πρώτα μπήκα στο ρωσικό τμήμα, αλλά μετά με ενδιέφερε σοβαρά η γλωσσολογία και με τράβηξε η ατμόσφαιρα που παραμένει στο τμήμα μέχρι σήμερα. Το πιο σημαντικό πράγμα που υπάρχει είναι η καλή επαφή μεταξύ καθηγητών και μαθητών και το αμοιβαίο ενδιαφέρον τους.

Όταν έκανα παιδιά και χρειαζόμουν να κερδίσω τα προς το ζην, πήγα στον τομέα της εμπορικής γλωσσολογίας. Το 2005, δεν ήταν πολύ σαφές ποιος ήταν αυτός ο τομέας δραστηριότητας. Εργάστηκα σε διαφορετικές γλωσσικές εταιρείες: ξεκίνησα με μια μικρή εταιρεία στον ιστότοπο Public.ru - αυτή είναι ένα είδος βιβλιοθήκης πολυμέσων, όπου άρχισα να εργάζομαι σε γλωσσικές τεχνολογίες. Στη συνέχεια εργάστηκα για ένα χρόνο στη Rosnanotech, όπου υπήρχε η ιδέα να δημιουργηθεί μια αναλυτική πύλη ώστε τα δεδομένα σε αυτήν να δομούνται αυτόματα. Στη συνέχεια, ήμουν επικεφαλής του γλωσσικού τμήματος στην εταιρεία Avicomp - αυτή είναι ήδη μια σοβαρή παραγωγή στον τομέα της γλωσσολογίας υπολογιστών και των σημασιολογικών τεχνολογιών. Παράλληλα, δίδαξα ένα μάθημα υπολογιστικής γλωσσολογίας στο Κρατικό Πανεπιστήμιο της Μόσχας και προσπάθησα να το κάνω πιο σύγχρονο.

Δύο πόροι για έναν γλωσσολόγο: - ένας ιστότοπος που δημιουργήθηκε από γλωσσολόγους για επιστημονική και εφαρμοσμένη έρευνα που σχετίζεται με τη ρωσική γλώσσα. Αυτό είναι ένα μοντέλο της ρωσικής γλώσσας, που παρουσιάζεται χρησιμοποιώντας μια τεράστια σειρά κειμένων από διαφορετικά είδη και περιόδους. Τα κείμενα είναι εξοπλισμένα με γλωσσική σήμανση, με τη βοήθεια της οποίας μπορείτε να λάβετε πληροφορίες σχετικά με τη συχνότητα ορισμένων γλωσσικών φαινομένων. Το Wordnet είναι μια τεράστια λεξιλογική βάση δεδομένων της αγγλικής γλώσσας, η κύρια ιδέα του Wordnet είναι να συνδέσει όχι λέξεις, αλλά τις έννοιές τους σε ένα μεγάλο δίκτυο. Το Wordnet μπορεί να ληφθεί και να χρησιμοποιηθεί για τα δικά σας έργα.

Τι κάνει η υπολογιστική γλωσσολογία;

Αυτό είναι το πιο διεπιστημονικό πεδίο. Το πιο σημαντικό εδώ είναι να καταλάβετε τι συμβαίνει στον ηλεκτρονικό κόσμο και ποιος θα σας βοηθήσει να κάνετε συγκεκριμένα πράγματα.

Μας περιβάλλει ένας πολύ μεγάλος όγκος ψηφιακών πληροφοριών, υπάρχουν πολλά επιχειρηματικά έργα, η επιτυχία των οποίων εξαρτάται από την επεξεργασία των πληροφοριών, αυτά τα έργα μπορούν να σχετίζονται με τον τομέα του μάρκετινγκ, της πολιτικής, της οικονομίας και οτιδήποτε άλλο. Και είναι πολύ σημαντικό να μπορείτε να χειρίζεστε αποτελεσματικά αυτές τις πληροφορίες - το κύριο πράγμα δεν είναι μόνο η ταχύτητα επεξεργασίας των πληροφοριών, αλλά και η ευκολία με την οποία μπορείτε, αφού φιλτράρετε τον θόρυβο, να λάβετε τα δεδομένα που χρειάζεστε και να δημιουργήσετε ένα πλήρες εικόνα από αυτό.

Προηγουμένως, ορισμένες παγκόσμιες ιδέες συνδέονταν με τη γλωσσολογία των υπολογιστών, για παράδειγμα: οι άνθρωποι πίστευαν ότι η αυτόματη μετάφραση θα αντικαθιστούσε την ανθρώπινη μετάφραση, ότι τα ρομπότ θα λειτουργούσαν αντί για τους ανθρώπους. Αλλά τώρα φαίνεται σαν ουτοπία και η αυτόματη μετάφραση χρησιμοποιείται στις μηχανές αναζήτησης για γρήγορη αναζήτηση σε μια άγνωστη γλώσσα. Δηλαδή, τώρα η γλωσσολογία σπάνια ασχολείται με αφηρημένα προβλήματα - κυρίως με κάποια μικρά πράγματα που μπορούν να εισαχθούν σε ένα μεγάλο προϊόν και να κερδίσουν χρήματα από αυτό.

Ένα από τα μεγάλα καθήκοντα της σύγχρονης γλωσσολογίας είναι ο σημασιολογικός ιστός, όταν η αναζήτηση δεν πραγματοποιείται απλώς με αντιστοίχιση λέξεων, αλλά με νόημα, και όλοι οι ιστότοποι με τον ένα ή τον άλλο τρόπο χαρακτηρίζονται από σημασιολογία. Αυτό μπορεί να είναι χρήσιμο, για παράδειγμα, για αστυνομικές ή ιατρικές εκθέσεις που συντάσσονται καθημερινά. Η ανάλυση των εσωτερικών συνδέσεων παρέχει πολλές απαραίτητες πληροφορίες, αλλά η ανάγνωση και ο χειροκίνητος υπολογισμός τους είναι απίστευτα χρονοβόρα.

Με λίγα λόγια, έχουμε χίλια κείμενα, πρέπει να τα ταξινομήσουμε σε ομάδες, να παρουσιάσουμε κάθε κείμενο σε μορφή δομής και να πάρουμε έναν πίνακα με τον οποίο μπορούμε ήδη να εργαστούμε. Αυτό ονομάζεται αδόμητη επεξεργασία πληροφοριών. Από την άλλη πλευρά, η υπολογιστική γλωσσολογία ασχολείται, για παράδειγμα, με τη δημιουργία τεχνητών κειμένων. Υπάρχει μια εταιρεία που έχει βρει έναν μηχανισμό για τη δημιουργία κειμένων για θέματα που είναι βαρετό να γράφει κάποιος: αλλαγές στις τιμές των ακινήτων, μετεωρολογικές προβλέψεις, αναφορές για ποδοσφαιρικούς αγώνες. Είναι πολύ πιο ακριβό να παραγγείλετε αυτά τα κείμενα για ένα άτομο και τα κείμενα στον υπολογιστή για τέτοια θέματα είναι γραμμένα σε συνεκτική ανθρώπινη γλώσσα.

Η Yandex συμμετέχει ενεργά στις εξελίξεις στον τομέα της αναζήτησης μη δομημένων πληροφοριών στη Ρωσία, η Kaspersky Lab προσλαμβάνει ερευνητικές ομάδες που μελετούν τη μηχανική μάθηση. Προσπαθεί κάποιος στην αγορά να βρει κάτι νέο στον τομέα της υπολογιστικής γλωσσολογίας;

**Βιβλία για την υπολογιστική γλωσσολογία:**

Daniel Jurafsky, Επεξεργασία Λόγου και Γλώσσας

Christopher Manning, Prabhakar Raghavan, Heinrich Schuetze, "Introduction to Information Retrieval"

Yakov Testelets, «Εισαγωγή στη Γενική Σύνταξη»

Οι περισσότερες γλωσσικές εξελίξεις είναι ιδιοκτησία μεγάλων εταιρειών. Αυτό επιβραδύνει την ανάπτυξη του κλάδου, δεν έχουμε ελεύθερη γλωσσική αγορά ή συσκευασμένες λύσεις.

Επιπλέον, υπάρχει έλλειψη περιεκτικών πόρων πληροφόρησης. Υπάρχει ένα τέτοιο έργο όπως το Εθνικό Σώμα της Ρωσικής Γλώσσας. Πρόκειται για ένα από τα καλύτερα εθνικά κτίρια στον κόσμο, το οποίο αναπτύσσεται ταχύτατα και ανοίγει απίστευτες ευκαιρίες για επιστημονική και εφαρμοσμένη έρευνα. Η διαφορά είναι περίπου η ίδια όπως στη βιολογία - πριν από την έρευνα DNA και μετά.

Αλλά πολλοί πόροι δεν υπάρχουν στα ρωσικά. Έτσι, δεν υπάρχει ανάλογο σε έναν τόσο υπέροχο αγγλόφωνο πόρο όπως το Framenet - αυτό είναι ένα εννοιολογικό δίκτυο όπου παρουσιάζονται επίσημα όλες οι πιθανές συνδέσεις μιας συγκεκριμένης λέξης με άλλες λέξεις. Για παράδειγμα, υπάρχει η λέξη "fly" - ποιος μπορεί να πετάξει, πού, με ποια πρόθεση χρησιμοποιείται αυτή η λέξη, με ποιες λέξεις συνδυάζεται και ούτω καθεξής. Αυτός ο πόρος βοηθά στη σύνδεση της γλώσσας με την πραγματική ζωή, δηλαδή στον εντοπισμό του πώς συμπεριφέρεται μια συγκεκριμένη λέξη σε επίπεδο μορφολογίας και σύνταξης. Είναι πολύ χρήσιμο.

Η εταιρεία Avicomp αναπτύσσει αυτήν τη στιγμή ένα πρόσθετο για την αναζήτηση άρθρων με παρόμοιο περιεχόμενο. Δηλαδή, αν σας ενδιαφέρει ένα άρθρο, μπορείτε να δείτε γρήγορα την ιστορία της πλοκής: πότε προέκυψε το θέμα, τι γράφτηκε και πότε ήταν η κορύφωση του ενδιαφέροντος για αυτό το πρόβλημα. Για παράδειγμα, με τη βοήθεια αυτής της προσθήκης θα είναι δυνατό, ξεκινώντας από ένα άρθρο αφιερωμένο στα γεγονότα στη Συρία, να δούμε πολύ γρήγορα πώς εξελίχθηκαν τα γεγονότα εκεί τον περασμένο χρόνο.

Πώς θα δομηθεί η μαθησιακή διαδικασία στο μεταπτυχιακό πρόγραμμα;

Η εκπαίδευση στο HSE οργανώνεται σε ξεχωριστές ενότητες, όπως και στα δυτικά πανεπιστήμια. Οι μαθητές θα χωριστούν σε μικρές ομάδες, mini startups - δηλαδή στο τέλος θα πρέπει να λάβουμε αρκετά ολοκληρωμένα έργα. Θέλουμε να αποκτήσουμε πραγματικά προϊόντα, τα οποία στη συνέχεια θα ανοίξουμε στους ανθρώπους και θα τα αφήσουμε στο δημόσιο τομέα.

Εκτός από τους άμεσους διαχειριστές έργων των μαθητών, θέλουμε να τους βρούμε επιμελητές από τους πιθανούς εργοδότες τους - από το ίδιο Yandex, για παράδειγμα, που θα παίξουν επίσης αυτό το παιχνίδι και θα δώσουν στους μαθητές μερικές συμβουλές.

Ελπίζω ότι άνθρωποι από διάφορους τομείς θα έρθουν στο μεταπτυχιακό πρόγραμμα: προγραμματιστές, γλωσσολόγοι, κοινωνιολόγοι, έμποροι. Θα έχουμε αρκετά μαθήματα προσαρμογής στη γλωσσολογία, τα μαθηματικά και τον προγραμματισμό. Τότε θα έχουμε δύο σοβαρά μαθήματα γλωσσολογίας και θα σχετίζονται με τις πιο σύγχρονες γλωσσικές θεωρίες που θέλουμε οι απόφοιτοί μας να μπορούν να διαβάζουν και να κατανοούν σύγχρονα γλωσσικά άρθρα. Το ίδιο συμβαίνει και με τα μαθηματικά. Θα έχουμε ένα μάθημα που ονομάζεται «Μαθηματικά θεμέλια της Υπολογιστικής Γλωσσολογίας», το οποίο θα περιγράφει τους κλάδους των μαθηματικών στους οποίους βασίζεται η σύγχρονη υπολογιστική γλωσσολογία.

Για να εγγραφείτε σε ένα μεταπτυχιακό πρόγραμμα, πρέπει να περάσετε εισαγωγικές εξετάσεις στη γλώσσα και να περάσετε έναν διαγωνισμό χαρτοφυλακίου.

Εκτός από τα κύρια μαθήματα, θα υπάρχει μια σειρά από μαθήματα επιλογής. Έχουμε προγραμματίσει αρκετούς κύκλους - δύο από αυτούς επικεντρώνονται σε μια πιο εμπεριστατωμένη μελέτη μεμονωμένων θεμάτων, τα οποία περιλαμβάνουν, για παράδειγμα, τη μηχανική μετάφραση και τη γλωσσολογία. και ένα, αντίθετα, σχετίζεται με συναφείς τομείς: όπως , κοινωνικά δίκτυα, μηχανική μάθηση ή Ψηφιακές Ανθρωπιστικές Επιστήμες - ένα μάθημα που ελπίζουμε να διδαχθεί στα αγγλικά.

Οι γλωσσολόγοι υπολογιστών ασχολούνται με την ανάπτυξη αλγορίθμων αναγνώρισης κειμένου και ομιλίας, τη σύνθεση τεχνητής ομιλίας, τη δημιουργία συστημάτων σημασιολογικής μετάφρασης και την ίδια την ανάπτυξη της τεχνητής νοημοσύνης (με την κλασική έννοια της λέξης - ως αντικατάσταση της ανθρώπινης νοημοσύνης - είναι απίθανο να εμφανιστεί ποτέ, αλλά διάφορα συστήματα εμπειρογνωμόνων που βασίζονται σε ανάλυση δεδομένων).

Οι αλγόριθμοι αναγνώρισης ομιλίας θα χρησιμοποιούνται όλο και περισσότερο στην καθημερινή ζωή - τα έξυπνα σπίτια και οι ηλεκτρονικές συσκευές δεν θα έχουν τηλεχειριστήρια και κουμπιά, αλλά αντίθετα θα χρησιμοποιείται φωνητική διεπαφή. Αυτή η τεχνολογία βελτιώνεται, αλλά υπάρχουν ακόμα πολλές προκλήσεις: είναι δύσκολο για έναν υπολογιστή να αναγνωρίσει την ανθρώπινη ομιλία επειδή διαφορετικοί άνθρωποι μιλούν πολύ διαφορετικά. Επομένως, κατά κανόνα, τα συστήματα αναγνώρισης λειτουργούν καλά είτε όταν είναι εκπαιδευμένα για έναν ομιλητή και είναι ήδη προσαρμοσμένα στα χαρακτηριστικά προφοράς του είτε όταν ο αριθμός των φράσεων που μπορεί να αναγνωρίσει το σύστημα είναι περιορισμένος (όπως, για παράδειγμα, στις φωνητικές εντολές για μια τηλεόραση).

Οι ειδικοί στη δημιουργία προγραμμάτων σημασιολογικής μετάφρασης έχουν ακόμη πολλή δουλειά μπροστά: αυτή τη στιγμή, έχουν αναπτυχθεί καλοί αλγόριθμοι μόνο για μετάφραση από και προς τα αγγλικά. Υπάρχουν πολλά προβλήματα εδώ - διαφορετικές γλώσσες δομούνται διαφορετικά σημασιολογικά, αυτό διαφέρει ακόμη και στο επίπεδο κατασκευής φράσεων και δεν μπορούν να μεταφερθούν όλες οι έννοιες μιας γλώσσας χρησιμοποιώντας τη σημασιολογική συσκευή μιας άλλης. Επιπλέον, το πρόγραμμα πρέπει να διακρίνει ομώνυμα, να αναγνωρίζει σωστά μέρη του λόγου και να επιλέγει τη σωστή σημασία μιας πολυσηματικής λέξης που ταιριάζει στο πλαίσιο.

Η σύνθεση τεχνητής ομιλίας (για παράδειγμα, για οικιακά ρομπότ) είναι επίσης επίπονη δουλειά. Είναι δύσκολο να κάνουμε την τεχνητά δημιουργημένη ομιλία να ακούγεται φυσική στο ανθρώπινο αυτί, γιατί υπάρχουν εκατομμύρια αποχρώσεις που δεν δίνουμε προσοχή, αλλά χωρίς τις οποίες όλα δεν είναι πλέον «τα ίδια» - λανθασμένες εκκινήσεις, παύσεις, δισταγμοί κ.λπ. Η ροή ομιλίας είναι συνεχής και ταυτόχρονα διακριτή: μιλάμε χωρίς να κάνουμε παύση μεταξύ των λέξεων, αλλά δεν είναι δύσκολο για εμάς να καταλάβουμε πού τελειώνει μια λέξη και αρχίζει μια άλλη, αλλά για μια μηχανή αυτό θα ήταν μεγάλο πρόβλημα.

Η μεγαλύτερη κατεύθυνση στην υπολογιστική γλωσσολογία σχετίζεται με τα Big Data. Εξάλλου, υπάρχουν τεράστιοι όγκοι κειμένων, όπως ροές ειδήσεων, από τις οποίες είναι απαραίτητο να απομονωθούν ορισμένες πληροφορίες - για παράδειγμα, να επισημάνετε τις ροές ειδήσεων ή να προσαρμόσετε το RSS στα γούστα ενός συγκεκριμένου χρήστη. Τέτοιες τεχνολογίες υπάρχουν ήδη και θα συνεχίσουν να αναπτύσσονται, επειδή η υπολογιστική ισχύς αυξάνεται ραγδαία. Η γλωσσική ανάλυση κειμένου χρησιμοποιείται επίσης για τη διασφάλιση της ασφάλειας του Διαδικτύου και την αναζήτηση απαραίτητων πληροφοριών για τις υπηρεσίες πληροφοριών.

Πού να σπουδάσω για να γίνεις γλωσσολόγος υπολογιστών; Στη χώρα μας, δυστυχώς, οι ειδικότητες που σχετίζονται με την κλασική γλωσσολογία και τον προγραμματισμό, τη στατιστική και την ανάλυση δεδομένων είναι αρκετά διαχωρισμένες. Και για να γίνεις ψηφιακός γλωσσολόγος, πρέπει να κατανοήσεις και τα δύο. Τα ξένα πανεπιστήμια έχουν προγράμματα τριτοβάθμιας εκπαίδευσης στη γλωσσολογία υπολογιστών, αλλά προς το παρόν η καλύτερη επιλογή για εμάς είναι να αποκτήσουμε μια βασική γλωσσική εκπαίδευση και στη συνέχεια να κατακτήσουμε τα βασικά στοιχεία της πληροφορικής. Είναι καλό που τώρα υπάρχουν πολλά διαφορετικά διαδικτυακά μαθήματα, δυστυχώς, αυτό δεν συνέβαινε στα φοιτητικά μου χρόνια. Σπούδασα στη Σχολή Εφαρμοσμένης Γλωσσολογίας του Κρατικού Γλωσσολογικού Πανεπιστημίου της Μόσχας, όπου είχαμε μαθήματα για την τεχνητή νοημοσύνη και την αναγνώριση προφορικού λόγου - αλλά ακόμα όχι σε επαρκή όγκο. Τώρα οι εταιρείες πληροφορικής προσπαθούν ενεργά να αλληλεπιδράσουν με ιδρύματα. Οι συνάδελφοί μου από το Kaspersky Lab και εγώ προσπαθούμε επίσης να συμμετέχουμε στην εκπαιδευτική διαδικασία: δίνουμε διαλέξεις, διοργανώνουμε φοιτητικά συνέδρια και δίνουμε επιχορηγήσεις σε μεταπτυχιακούς φοιτητές. Αλλά μέχρι στιγμής η πρωτοβουλία προέρχεται περισσότερο από εργοδότες παρά από πανεπιστήμια.

ΕΡΓΑΣΙΑ ΜΑΘΗΜΑΤΟΣ

στο γνωστικό αντικείμενο "Πληροφορική"

με θέμα: «Υπολογιστική γλωσσολογία»


ΕΙΣΑΓΩΓΗ

1. Η θέση και ο ρόλος της υπολογιστικής γλωσσολογίας στη γλωσσική έρευνα

2. Σύγχρονες διεπαφές για την υπολογιστική γλωσσολογία

ΣΥΜΠΕΡΑΣΜΑ

ΒΙΒΛΙΟΓΡΑΦΙΑ


Εισαγωγή

Οι αυτοματοποιημένες τεχνολογίες πληροφοριών διαδραματίζουν σημαντικό ρόλο στη ζωή της σύγχρονης κοινωνίας. Με την πάροδο του χρόνου η σημασία τους αυξάνεται συνεχώς. Αλλά η ανάπτυξη της τεχνολογίας των πληροφοριών είναι πολύ άνιση: εάν το σύγχρονο επίπεδο τεχνολογίας υπολογιστών και επικοινωνιών είναι εκπληκτικό, τότε στον τομέα της σημασιολογικής επεξεργασίας των πληροφοριών, οι επιτυχίες είναι πολύ πιο μέτριες. Αυτές οι επιτυχίες εξαρτώνται, πρώτα απ 'όλα, από τα επιτεύγματα στη μελέτη των διαδικασιών της ανθρώπινης σκέψης, τις διαδικασίες λεκτικής επικοινωνίας μεταξύ των ανθρώπων και την ικανότητα προσομοίωσης αυτών των διαδικασιών σε έναν υπολογιστή.

Όταν πρόκειται για τη δημιουργία πολλά υποσχόμενων τεχνολογιών πληροφοριών, τα προβλήματα της αυτόματης επεξεργασίας των πληροφοριών κειμένου που παρουσιάζονται σε φυσικές γλώσσες έρχονται στο προσκήνιο. Αυτό καθορίζεται από το γεγονός ότι η σκέψη ενός ατόμου είναι στενά συνδεδεμένη με τη γλώσσα του. Επιπλέον, η φυσική γλώσσα είναι ένα εργαλείο σκέψης. Είναι επίσης ένα καθολικό μέσο επικοινωνίας μεταξύ των ανθρώπων - ένα μέσο αντίληψης, συσσώρευσης, αποθήκευσης, επεξεργασίας και μετάδοσης πληροφοριών. Η επιστήμη της γλωσσολογίας υπολογιστών ασχολείται με τα προβλήματα χρήσης της φυσικής γλώσσας σε συστήματα αυτόματης επεξεργασίας πληροφοριών. Αυτή η επιστήμη προέκυψε σχετικά πρόσφατα - στις αρχές της δεκαετίας του '50 και του '60 του περασμένου αιώνα. Τον τελευταίο μισό αιώνα, έχουν ληφθεί σημαντικά επιστημονικά και πρακτικά αποτελέσματα στον τομέα της γλωσσολογίας υπολογιστών: συστήματα αυτόματης μετάφρασης κειμένων από μια φυσική γλώσσα σε άλλη, συστήματα αυτόματης ανάκτησης πληροφοριών σε κείμενα, συστήματα αυτόματης ανάλυσης και σύνθεσης προφορικών ομιλία, και πολλά άλλα έχουν δημιουργηθεί. Αυτή η εργασία είναι αφιερωμένη στην κατασκευή μιας βέλτιστης διεπαφής υπολογιστή χρησιμοποιώντας γλωσσολογία υπολογιστών κατά τη διεξαγωγή γλωσσικής έρευνας.


Στον σύγχρονο κόσμο, η υπολογιστική γλωσσολογία χρησιμοποιείται όλο και περισσότερο για τη διεξαγωγή διαφόρων γλωσσικών μελετών.

Η υπολογιστική γλωσσολογία είναι ένα πεδίο γνώσης που σχετίζεται με την επίλυση προβλημάτων αυτόματης επεξεργασίας πληροφοριών που παρουσιάζονται σε φυσική γλώσσα. Τα κεντρικά επιστημονικά προβλήματα της γλωσσολογίας υπολογιστών είναι το πρόβλημα της μοντελοποίησης της διαδικασίας κατανόησης του νοήματος των κειμένων (μετάβαση από το κείμενο σε μια τυπική αναπαράσταση του νοήματός του) και το πρόβλημα της σύνθεσης του λόγου (μετάβαση από μια τυπική αναπαράσταση του νοήματος σε κείμενα σε φυσικό Γλώσσα). Αυτά τα προβλήματα προκύπτουν κατά την επίλυση ενός αριθμού εφαρμοζόμενων προβλημάτων και, ειδικότερα, προβλημάτων αυτόματης ανίχνευσης και διόρθωσης σφαλμάτων κατά την εισαγωγή κειμένων σε υπολογιστή, αυτόματη ανάλυση και σύνθεση προφορικού λόγου, αυτόματη μετάφραση κειμένων από τη μια γλώσσα στην άλλη, την επικοινωνία με υπολογιστής σε φυσική γλώσσα, αυτόματη ταξινόμηση και ευρετηρίαση εγγράφων κειμένου, αυτόματη περίληψη τους, αναζήτηση εγγράφων σε βάσεις δεδομένων πλήρους κειμένου.

Τα γλωσσικά εργαλεία που δημιουργούνται και χρησιμοποιούνται στην υπολογιστική γλωσσολογία μπορούν να χωριστούν σε δύο μέρη: δηλωτικά και διαδικαστικά. Το δηλωτικό μέρος περιλαμβάνει λεξικά ενοτήτων γλώσσας και ομιλίας, κείμενα και διάφορα είδη γραμματικών πινάκων, το διαδικαστικό μέρος περιλαμβάνει μέσα χειρισμού ενοτήτων γλώσσας και ομιλίας, κείμενα και πίνακες γραμματικής. Η διεπαφή υπολογιστή αναφέρεται στο διαδικαστικό μέρος της υπολογιστικής γλωσσολογίας.

Η επιτυχία στην επίλυση εφαρμοζόμενων προβλημάτων της γλωσσολογίας υπολογιστών εξαρτάται, πρώτα απ 'όλα, από την πληρότητα και την ακρίβεια της αναπαράστασης των δηλωτικών μέσων στη μνήμη του υπολογιστή και από την ποιότητα των διαδικαστικών μέσων. Μέχρι σήμερα, το απαιτούμενο επίπεδο επίλυσης αυτών των προβλημάτων δεν έχει ακόμη επιτευχθεί, αν και οι εργασίες στον τομέα της υπολογιστικής γλωσσολογίας εκτελούνται σε όλες τις ανεπτυγμένες χώρες του κόσμου (Ρωσία, ΗΠΑ, Αγγλία, Γαλλία, Γερμανία, Ιαπωνία κ.λπ.). ).

Ωστόσο, μπορούν να σημειωθούν σοβαρά επιστημονικά και πρακτικά επιτεύγματα στον τομέα της υπολογιστικής γλωσσολογίας. Έτσι, σε ορισμένες χώρες (Ρωσία, ΗΠΑ, Ιαπωνία κ.λπ.) έχουν κατασκευαστεί πειραματικά και βιομηχανικά συστήματα για αυτόματη μετάφραση κειμένων από τη μια γλώσσα στην άλλη, έχουν κατασκευαστεί ορισμένα πειραματικά συστήματα επικοινωνίας με υπολογιστές σε φυσική γλώσσα. , βρίσκονται σε εξέλιξη εργασίες για τη δημιουργία τραπεζών ορολογικών δεδομένων, θησαυρών, δίγλωσσων και πολύγλωσσων λεξικών μηχανών (Ρωσία, ΗΠΑ, Γερμανία, Γαλλία κ.λπ.), κατασκευάζονται συστήματα αυτόματης ανάλυσης και σύνθεσης προφορικού λόγου (Ρωσία, ΗΠΑ, Ιαπωνία κ.λπ. .), διεξάγεται έρευνα στον τομέα της κατασκευής μοντέλων φυσικής γλώσσας.

Ένα σημαντικό μεθοδολογικό πρόβλημα της εφαρμοσμένης υπολογιστικής γλωσσολογίας είναι η σωστή εκτίμηση της απαραίτητης σχέσης μεταξύ των δηλωτικών και διαδικαστικών στοιχείων των συστημάτων αυτόματης επεξεργασίας πληροφοριών κειμένου. Τι πρέπει να προτιμάται: ισχυρές υπολογιστικές διαδικασίες που βασίζονται σε σχετικά μικρά συστήματα λεξιλογίου με πλούσιες γραμματικές και σημασιολογικές πληροφορίες ή ένα ισχυρό δηλωτικό στοιχείο με σχετικά απλές διεπαφές υπολογιστή; Οι περισσότεροι επιστήμονες πιστεύουν ότι ο δεύτερος τρόπος είναι προτιμότερος. Θα οδηγήσει στην ταχύτερη επίτευξη πρακτικών στόχων, καθώς θα υπάρχουν λιγότερα αδιέξοδα και δύσκολα εμπόδια που θα ξεπεραστούν, και εδώ θα είναι δυνατή η χρήση υπολογιστών σε μεγαλύτερη κλίμακα για την αυτοματοποίηση της έρευνας και της ανάπτυξης.

Η ανάγκη κινητοποίησης προσπαθειών, πρώτα απ 'όλα, για την ανάπτυξη της δηλωτικής συνιστώσας των συστημάτων αυτόματης επεξεργασίας πληροφοριών κειμένου επιβεβαιώνεται από την εμπειρία μισού αιώνα στην ανάπτυξη της γλωσσολογίας υπολογιστών. Άλλωστε εδώ, παρά τις αναμφισβήτητες επιτυχίες αυτής της επιστήμης, το πάθος για τις αλγοριθμικές διαδικασίες δεν έφερε την αναμενόμενη επιτυχία. Υπήρχε ακόμη και κάποια απογοήτευση για τις δυνατότητες των διαδικαστικών μέσων.

Υπό το πρίσμα των παραπάνω, φαίνεται πολλά υποσχόμενη η ανάπτυξη ενός τέτοιου δρόμου ανάπτυξης της γλωσσολογίας υπολογιστών, όταν οι κύριες προσπάθειες θα στοχεύουν στη δημιουργία ισχυρών λεξικών γλωσσικών και λεκτικών ενοτήτων, στη μελέτη της σημασιολογικής-συντακτικής δομής τους και στη δημιουργία βασικών διαδικασιών για μορφολογικά, σημασιολογική-συντακτική και εννοιολογική ανάλυση και σύνθεση κειμένων. Αυτό θα μας επιτρέψει να λύσουμε ένα ευρύ φάσμα εφαρμοζόμενων προβλημάτων στο μέλλον.

Η γλωσσολογία των υπολογιστών αντιμετωπίζει, πρώτα απ 'όλα, τα καθήκοντα της γλωσσικής υποστήριξης για τις διαδικασίες συλλογής, συσσώρευσης, επεξεργασίας και ανάκτησης πληροφοριών. Τα σημαντικότερα από αυτά είναι:

1. Αυτοματοποίηση της σύνταξης και της γλωσσικής επεξεργασίας μηχανικών λεξικών.

2. Αυτοματοποίηση των διαδικασιών εντοπισμού και διόρθωσης σφαλμάτων κατά την εισαγωγή κειμένων σε υπολογιστή.

3. Αυτόματη ευρετηρίαση εγγράφων και αιτημάτων πληροφοριών.

4. Αυτόματη ταξινόμηση και περίληψη εγγράφων.

5. Γλωσσική υποστήριξη για διαδικασίες ανάκτησης πληροφοριών σε μονόγλωσσες και πολύγλωσσες βάσεις δεδομένων.

6. Μηχανική μετάφραση κειμένων από μια φυσική γλώσσα σε άλλη.

7. Κατασκευή γλωσσικών επεξεργαστών που διασφαλίζουν την επικοινωνία των χρηστών με αυτοματοποιημένα ευφυή πληροφοριακά συστήματα (ιδίως έμπειρα συστήματα) σε φυσική γλώσσα ή σε γλώσσα κοντά στη φυσική.

8. Εξαγωγή πραγματικών πληροφοριών από άτυπα κείμενα.

Ας σταθούμε αναλυτικά στα προβλήματα που σχετίζονται περισσότερο με το θέμα της έρευνας.

Στις πρακτικές δραστηριότητες των κέντρων πληροφοριών, υπάρχει ανάγκη να λυθεί το πρόβλημα της αυτοματοποιημένης ανίχνευσης και διόρθωσης σφαλμάτων σε κείμενα όταν αυτά εισάγονται σε υπολογιστή. Αυτή η πολύπλοκη εργασία μπορεί να χωριστεί υπό όρους σε τρεις εργασίες - εργασίες ορθογραφικού, συντακτικού και σημασιολογικού ελέγχου των κειμένων. Το πρώτο από αυτά μπορεί να επιλυθεί χρησιμοποιώντας μια διαδικασία μορφολογικής ανάλυσης που χρησιμοποιεί ένα αρκετά ισχυρό λεξικό μηχανής αναφοράς με στελέχη λέξεων. Στη διαδικασία του ορθογραφικού ελέγχου, οι λέξεις του κειμένου υπόκεινται σε μορφολογική ανάλυση και εάν οι βάσεις τους ταυτιστούν με τις βάσεις του λεξικού αναφοράς, τότε θεωρούνται σωστές. εάν δεν εντοπιστούν, τότε, συνοδευόμενα από μικροπλαίσιο, παρουσιάζονται σε ένα άτομο για προβολή. Ένα άτομο εντοπίζει και διορθώνει παραμορφωμένες λέξεις και το αντίστοιχο σύστημα λογισμικού κάνει αυτές τις διορθώσεις στο διορθωμένο κείμενο.

Το έργο του συντακτικού ελέγχου των κειμένων για την ανίχνευση λαθών σε αυτά είναι πολύ πιο δύσκολο από το έργο του ορθογραφικού ελέγχου. Πρώτον, επειδή περιλαμβάνει στη σύνθεσή του το καθήκον του ορθογραφικού ελέγχου ως υποχρεωτικό συστατικό του και, δεύτερον, επειδή το πρόβλημα της συντακτικής ανάλυσης άτυπων κειμένων δεν έχει ακόμη επιλυθεί πλήρως. Ωστόσο, ο μερικός συντακτικός έλεγχος των κειμένων είναι αρκετά πιθανός. Εδώ μπορείτε να πάτε με δύο τρόπους: είτε να συντάξετε αρκετά αντιπροσωπευτικά μηχανικά λεξικά συντακτικών δομών αναφοράς και να συγκρίνετε τις συντακτικές δομές του αναλυόμενου κειμένου με αυτές. ή να αναπτύξουν ένα σύνθετο σύστημα κανόνων για τον έλεγχο της γραμματικής συνέπειας των στοιχείων του κειμένου. Το πρώτο μονοπάτι μας φαίνεται πιο υποσχόμενο, αν και, φυσικά, δεν αποκλείει τη δυνατότητα χρήσης στοιχείων του δεύτερου μονοπατιού. Η συντακτική δομή των κειμένων θα πρέπει να περιγράφεται με όρους γραμματικών κατηγοριών λέξεων (ακριβέστερα, με τη μορφή ακολουθιών συνόλων γραμματικών πληροφοριών για λέξεις).

Το έργο του σημασιολογικού ελέγχου των κειμένων για τον εντοπισμό σημασιολογικών λαθών σε αυτά θα πρέπει να ταξινομηθεί ως μια κατηγορία εργασιών τεχνητής νοημοσύνης. Μπορεί να λυθεί πλήρως μόνο με βάση τη μοντελοποίηση των διαδικασιών της ανθρώπινης σκέψης. Σε αυτήν την περίπτωση, προφανώς θα είναι απαραίτητο να δημιουργηθούν ισχυρές εγκυκλοπαιδικές βάσεις γνώσεων και εργαλεία λογισμικού για τη χειραγώγηση της γνώσης. Ωστόσο, για περιορισμένες θεματικές περιοχές και για επίσημες πληροφορίες, αυτή η εργασία είναι απολύτως επιλύσιμη. Θα πρέπει να τεθεί και να λυθεί ως πρόβλημα σημασιολογικού-συντακτικού ελέγχου των κειμένων.



Σας άρεσε το άρθρο; Μοιράσου το