Kontakti

Računalna filologija. Povijest, razvoj i formiranje računalne lingvistike kao znanstvenog pravca. Program prijamnog ispita i intervjua za disciplinu “Formalni modeli i metode suvremene lingvistike”

Računalna lingvistika(Također: matematički ili računalna lingvistika, engleski računalna lingvistika) - znanstveni smjer u području matematičkog i računalnog modeliranja intelektualnih procesa kod ljudi i životinja pri stvaranju sustava umjetne inteligencije, koji ima za cilj korištenje matematičkih modela za opisivanje prirodnih jezika.

Računalna lingvistika preklapa se s obradom prirodnog jezika. Međutim, u potonjem naglasak nije na apstraktnim modelima, već na primijenjenim metodama opisivanja i obrade jezika za računalne sustave.

Područje djelovanja računalnih lingvista je razvoj algoritama i aplikacijskih programa za obradu jezičnih informacija.

Porijeklo

Matematička lingvistika je grana znanosti o umjetnoj inteligenciji. Njegova povijest započela je u Sjedinjenim Američkim Državama 1950-ih. Izumom tranzistora i pojavom nove generacije računala, kao i prvih programskih jezika, započeli su eksperimenti sa strojnim prevođenjem, posebice ruskih znanstvenih časopisa. U 1960-ima slična su istraživanja provedena u SSSR-u (na primjer, članak o prijevodu s ruskog na armenski u zborniku "Problemi kibernetike" za 1964.). Međutim, kvaliteta strojnog prijevoda još uvijek je mnogo lošija od kvalitete ljudskog prijevoda.

Od 15. do 21. svibnja 1958. održana je prva Svesavezna konferencija o strojnom prevođenju na I. Moskovskom državnom pedagoškom institutu za strane jezike. Organizacijski odbor vodili su V. Yu. Rosenzweig i izvršni tajnik Organizacijskog odbora G. V. Chernov. Cjeloviti program konferencije objavljen je u zborniku “Strojno prevođenje i primijenjena lingvistika”, sv. 1, 1959. (aka “Bilten Udruženja strojnog prevođenja br. 8”). Kako se prisjeća V. Yu. Rosenzweig, objavljena zbirka sažetaka konferencije stigla je u SAD i tamo ostavila veliki dojam.

U travnju 1959. u Lenjingradu je održan Prvi svesavezni sastanak o matematičkoj lingvistici, koji su sazvali Lenjingradsko sveučilište i Odbor za primijenjenu lingvistiku. Glavni organizator Susreta bio je N.D.Andrejev. Na skupu je sudjelovao niz istaknutih matematičara, posebice S. L. Sobolev, L. V. Kantorovich (kasnije nobelovac) i A. A. Markov (posljednja dvojica govorila su u raspravi). V. Yu. Rosenzweig održao je uvodni govor na dan otvaranja skupa, “Opća lingvistička teorija prevođenja i matematička lingvistika.”

Područja računalne lingvistike

  • Obrada prirodnog jezika obrada prirodnog jezika; sintaktička, morfološka, ​​semantička analiza teksta). Ovo također uključuje:
  1. Korpusna lingvistika, izrada i uporaba elektroničkih korpusa tekstova
  2. Izrada elektroničkih rječnika, tezaurusa, ontologija. Na primjer, Lingvo. Rječnici se koriste, primjerice, za automatsko prevođenje i provjeru pravopisa.
  3. Automatski prijevod tekstova. Promt je popularan među ruskim prevoditeljima. Među besplatnima je Google Translate.
  4. Automatsko izdvajanje činjenica iz teksta (ekstrakcija informacija) (eng. ekstrakcija činjenica, rudarenje teksta)
  5. Automatsko referenciranje automatsko sažimanje teksta). Ova je značajka uključena, na primjer, u Microsoft Word.
  6. Izgradnja sustava upravljanja znanjem. Vidi Ekspertni sustavi
  7. Izrada sustava pitanja i odgovora sustavi odgovora na pitanja).
  • Optičko prepoznavanje znakova OCR). Na primjer, program FineReader
  • Automatsko prepoznavanje govora ASR). Postoji plaćeni i besplatni softver
  • Automatska sinteza govora

Glavna udruženja i konferencije

Studijski programi u Rusiji

Vidi također

Napišite recenziju o članku "Računalna lingvistika"

Bilješke

Linkovi

  • (sažetak)
  • - baza znanja jezičnih resursa za ruski jezik
  • - otvoreni izvorni kodovi nekih pomoćnih programa računalne lingvistike
  • - online pristup programima računalne lingvistike

Izvadak koji karakterizira računalnu lingvistiku

- Uzmi, uzmi dijete - reče Pierre predajući djevojčicu i obraćajući se ženi zapovjednički i žurno. - Daj im, daj im! - viknuo je gotovo na ženu, spustivši djevojku koja je vrištala na zemlju, i opet se osvrnuo na Francuze i armensku obitelj. Starac je već sjedio bos. Mali je Francuz izuo posljednju čizmu i pljesnuo čizmama jednu o drugu. Starac je, jecajući, nešto rekao, ali Pierre je to samo nakratko vidio; sva njegova pozornost bila je usmjerena na Francuza s kapuljačom, koji je u to vrijeme, polako se njišući, krenuo prema mladoj ženi i, izvadivši ruke iz džepova, uhvatio je za vrat.
Lijepa Armenka nastavila je sjediti u istom nepomičnom položaju, spuštenih dugih trepavica, i kao da nije vidjela niti osjetila što joj vojnik radi.
Dok je Pierre trčao tih nekoliko koraka koji su ga dijelili od Francuza, dugi pljačkaš s kapuljačom već je trgao ogrlicu koju je nosila s vrata Armenke, a mlada je žena, držeći se rukama za vrat, vrištala reskim glasom. .
– Laissez cette femme! [Ostavi ovu ženu!] - graknuo je Pierre izbezumljenim glasom, zgrabivši dugog, pogrbljenog vojnika za ramena i odbacivši ga. Vojnik je pao, ustao i pobjegao. Ali njegov drug je, odbacivši čizme, izvadio nož i prijeteći krenuo prema Pierreu.
- Voyons, pas de betises! [Pa, dobro! Ne budi glup!] – vikao je.
Pierre je bio u onom zanosu bijesa u kojem se ničega nije sjećao i u kojem mu se snaga udeseterostručila. Jurnuo je na bosonogog Francuza i, prije nego što je uspio izvaditi sataru, već ga je oborio i udarao po njemu šakama. Začuo se povik odobravanja iz okolne gomile, au isto vrijeme iza ugla se pojavila konjička patrola francuskih kopljanika. Kopljanici su dotrčali do Pierrea i Francuza i okružili ih. Pierre se nije sjećao ničega od onoga što se zatim dogodilo. Sjećao se da je nekoga tukao, da je bio tučen, da je na kraju osjetio da su mu ruke vezane, da gomila francuskih vojnika stoji oko njega i pretresa njegovu haljinu.
“Il a un poignard, poručniče, [poručniče, on ima bodež,”] bile su prve riječi koje je Pierre razumio.
- Ah, une arme! [Ah, oružje!] - rekao je časnik i okrenuo se bosonogom vojniku koji je bio odveden s Pierreom.
“C"est bon, vous direz tout cela au conseil de guerre, [U redu, u redu, sve ćeš reći na suđenju," rekao je časnik i nakon toga se okrenuo prema Pierreu: "Parlez vous francais vous?" Govorite li francuski?
Pierre je pogledao oko sebe krvavih očiju i nije odgovorio. Lice mu je vjerojatno djelovalo vrlo strašno, jer je časnik nešto rekao šaptom, a još četiri kopljanika su se odvojila od ekipe i stala s obje strane Pierrea.
– Parlez vous francais? – ponovio mu je pitanje časnik, držeći se podalje od njega. - Faites venir l "interprete. [Pozovite prevoditelja.] - Iza redova je izašao mali čovjek u ruskoj civilnoj nošnji. Pierre ga je po odjeći i govoru odmah prepoznao kao Francuza iz jedne od moskovskih radnji.
“Il n"a pas l"air d"un homme du peuple, [On ne izgleda kao običan čovjek", rekao je prevoditelj, gledajući u Pierrea.
– Oh, oh! ca m"a bien l"air d"un des incendiaires," zamaglio je časnik "Demandez lui ce qu"il est? [Oh, oh! dosta liči na piromana. Pitajte ga tko je on?] dodao je.
-Tko si ti – upitao je prevoditelj. "Vlasti moraju odgovarati", rekao je.
– Je ne vous dirai pas qui je suis. Je suis votre prisonnier. Emmenez moi, [Neću ti reći tko sam. Ja sam tvoj zarobljenik. Odvedi me”, Pierre je odjednom rekao na francuskom.
- Ah, Ah! – mršteći se rekao je policajac. - Marčoni!
Gomila se okupila oko kopljanika. Najbliže Pierreu stajala je kragava žena s djevojkom; Kad je obilaznica krenula, krenula je naprijed.
- Kamo te vode, dušo moja? - rekla je. - Ova cura, što ću s ovom curom, ako nije njihova! - rekla je žena.
– Qu"est ce qu"elle veut cette femme? [Što ona želi?] - upitao je policajac.
Pierre je izgledao kao da je pijan. Njegovo ekstatično stanje još se više pojačalo pri pogledu na djevojku koju je spasio.
“Ce qu"elle dit?" rekao je. "Elle m"apporte ma fille que je viens de sauver des flammes," rekao je. - Zbogom! [Što ona želi? Nosi moju kćer koju sam spasio od požara. Zbogom!] - i on, ne znajući kako mu je ta besciljna laž izmakla, odlučnim, svečanim korakom krenu među Francuze.
Francuska patrola bila je jedna od onih koje su po naredbi Duronela poslane na razne ulice Moskve da suzbiju pljačku, a posebno da uhvate piromane, koji su, prema općem mišljenju koje se tog dana pojavilo među francuskim najvišim činovima, bili uzrok požara. Obišavši nekoliko ulica, patrola je pokupila još pet sumnjivih Rusa, jednog trgovca, dvojicu sjemeništaraca, jednog seljaka i slugu te nekoliko pljačkaša. Ali od svih sumnjivih ljudi Pierre se činio najsumnjivijim. Kad su svi dovedeni da provedu noć u velikoj kući na Zubovskom dolu, u kojoj je bila postavljena stražarnica, Pierrea su zasebno smjestili pod strogu stražu.

U Petrogradu se u to vrijeme, u najvišim krugovima, s većim žarom nego ikad, odvijala složena borba između stranaka Rumjanceva, Francuza, Marije Fjodorovne, Carevića i drugih, zagušena, kao i uvijek, trubljenjem dvorskih trutova. Ali miran, raskošan, zaokupljen samo duhovima, odrazima života, život u Petrogradu tekao je kao i prije; a zbog tijeka ovog života bilo je potrebno uložiti velike napore da se spozna opasnost i teška situacija u kojoj se nalazio ruski narod. Bili su isti izlasci, balovi, isti francuski teatar, isti interesi dvorova, isti interesi služenja i intriga. Samo se u najvišim krugovima nastojalo podsjetiti na težinu sadašnje situacije. Šapatom se pričalo kako su se dvije carice ponašale suprotno jedna drugoj u tako teškim okolnostima. Carica Marija Fjodorovna, zabrinuta za dobrobit dobrotvornih i obrazovnih ustanova pod svojom jurisdikcijom, izdala je naredbu da se sve ustanove pošalju u Kazan, a stvari tih ustanova već su bile spakirane. Carica Elizaveta Aleksejevna, upitana kakva naređenja želi izdati, sa svojim svojstvenim ruskim patriotizmom, udostojila se odgovoriti da ne može naređivati ​​o državnim institucijama, jer se to tiče suverena; o istoj stvari koja osobno ovisi o njoj, udostojila se reći da će posljednja napustiti Petrograd.

Novoselova Irina

Zašto nisu svi strojni prijevodi savršeni? Što određuje kvalitetu prijevoda? Ima li autor dovoljno znanja za korištenje i proširenje postojećih računalnih rječnika? Na ova pitanja autorica je svojim radom nastojala dati odgovore. Izvješće o temi nalazi se u privitku, produkt projektne aktivnosti na školskom portalu

preuzimanje:

Pregled:

Otvoriti

Međunarodni

istraživanje

konferencija

srednjoškolci i studenti

"Obrazovanje. Znanost. Struka"

Sekcija “Strana lingvistika”

"Računalna lingvistika"

Izvodi Novoselova Irina

Općinska obrazovna ustanova Gimnazija br. 39 “Klasična”

10 "B" razred

Znanstveni voditelji:

Chigrinyova Tatyana Dmitrievna,

Profesor engleskog jezika najviše kategorije

Osipova Svetlana Leonidovna,

učitelj informatike najviše kategorije

Otradny

2011

  1. Engleske riječi u ICT-u

Pogledajte na web stranici

  1. Moj eksperiment

Jedan od zadataka je provesti eksperiment koji uključuje usporedbu mogućnosti različitih računalnih lingvističkih rječnika za točniji i približniji prijevod s engleskog na ruski.

Testirane su sljedeće stranice:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Radi čistoće eksperimenta odabrao sam rečenice s različitim stupnjevima složenosti stilskog prijevoda. Ulazni izrazi su sljedeći:

1. Novo izvješće kaže da su današnji tinejdžeri sebičniji nego što su bili prije 20 godina

(Novo izvješće kaže da su tinejdžeri danas sebičniji nego prije 20 godina)

2. Ona vjeruje da su videoigre i internet najveći razlozi ove povećane sebičnosti.

(Ona smatra da su video igrice i internet najvažniji razlozi ove rastuće sebičnosti)

3. Žele biti bolji od drugih

(Oni žele biti bolji od ostalih)

4. Otkrila je da je veliki porast počeo od 2000. godine, kada su nasilne video igre postale jako popularne.

(Uočila je veliki porast počevši od 2000. kada su nasilne video igre postale jako popularne)

Nakon što sam preveo ove rečenice na stranicama online prevoditelja, dobio sam sljedeće rezultate:

  1. http://translate.eu/

Filološki fakultet Visoke ekonomske škole pokreće novi magistarski program posvećen računalnoj lingvistici: prima pristupnike s temeljnim humanističkim i matematičkim obrazovanjem te sve one koji su zainteresirani za rješavanje problema u jednoj od najperspektivnijih grana znanosti. . Njegova direktorica, Anastasia Bonch-Osmolovskaya, ispričala je Theories and Practitioners što je računalna lingvistika, zašto roboti neće zamijeniti ljude i što će predavati na HSE magistarskom programu računalne lingvistike.

Ovaj program je gotovo jedini takve vrste u Rusiji. Gdje ste studirali?

Studirao sam na Moskovskom državnom sveučilištu na Odsjeku za teorijsku i primijenjenu lingvistiku Filološkog fakulteta. Nisam odmah stigla, prvo sam upisala ruski odsjek, ali onda sam se ozbiljno zainteresirala za lingvistiku i privukla me atmosfera koja je na odsjeku i dan danas. Najvažniji je dobar kontakt nastavnika i učenika i njihov obostrani interes.

Kad sam dobila djecu i trebala zaraditi za život, otišla sam u područje komercijalne lingvistike. Godine 2005. nije bilo baš jasno koje je to područje djelovanja kao takvo. Radio sam u različitim lingvističkim tvrtkama: započeo sam s malom tvrtkom na stranici Public.ru - to je neka vrsta medijske knjižnice, gdje sam počeo raditi na lingvističkim tehnologijama. Zatim sam godinu dana radio u Rosnanotechu, gdje je postojala ideja da se napravi analitički portal kako bi se podaci na njemu automatski strukturirali. Zatim sam vodio lingvistički odjel u tvrtki Avicomp - to je već ozbiljna proizvodnja u području računalne lingvistike i semantičkih tehnologija. U isto sam vrijeme predavao kolegij računalne lingvistike na Moskovskom državnom sveučilištu i pokušao ga učiniti modernijim.

Dva izvora za jezikoslovca: - stranica koju su stvorili jezikoslovci za znanstvena i primijenjena istraživanja vezana uz ruski jezik. Ovo je model ruskog jezika, predstavljen pomoću velikog niza tekstova iz različitih žanrova i razdoblja. Tekstovi su opremljeni jezičnim oznakama pomoću kojih se mogu dobiti podaci o učestalosti pojedinih jezičnih pojava. Wordnet je ogromna leksička baza podataka engleskog jezika; glavna ideja Wordneta je povezati ne riječi, već njihova značenja u jednu veliku mrežu. Wordnet možete preuzeti i koristiti za vlastite projekte.

Što radi računalna lingvistika?

Ovo je najinterdisciplinarno područje. Ovdje je najvažnije razumjeti što se događa u elektroničkom svijetu i tko će vam pomoći u određenim stvarima.

Okruženi smo jako velikom količinom digitalnih informacija, postoji mnogo poslovnih projekata čija uspješnost ovisi o procesuiranju informacija, ti projekti mogu se odnositi na područje marketinga, politike, ekonomije i bilo čega drugog. I vrlo je važno biti u mogućnosti učinkovito rukovati tim informacijama - glavna stvar nije samo brzina obrade informacija, već i lakoća s kojom možete, nakon filtriranja buke, dobiti podatke koji su vam potrebni i stvoriti potpunu slika iz njega.

Prije su se neke globalne ideje povezivale s računalnom lingvistikom, na primjer: ljudi su mislili da će strojno prevođenje zamijeniti ljudsko prevođenje, da će roboti raditi umjesto ljudi. Ali sada se to čini kao utopija, a strojno prevođenje koristi se u tražilicama za brzo pretraživanje na nepoznatom jeziku. Odnosno, sada se lingvistika rijetko bavi apstraktnim problemima – uglavnom nekim sitnicama koje se mogu ubaciti u veliki proizvod i na tome zaraditi.

Jedan od velikih zadataka moderne lingvistike je semantički web, kada se pretraga ne odvija samo po podudaranju riječi, već po značenju, a sva su mjesta na ovaj ili onaj način obilježena semantikom. To može biti korisno, na primjer, za policijska ili liječnička izvješća koja se pišu svaki dan. Analiza internih veza daje puno potrebnih informacija, ali njihovo ručno čitanje i izračunavanje oduzima nevjerojatno puno vremena.

Ukratko, imamo tisuću tekstova, trebamo ih razvrstati u grupe, prikazati svaki tekst u obliku strukture i dobiti tablicu s kojom već možemo raditi. To se zove obrada nestrukturiranih informacija. S druge strane, računalna lingvistika bavi se, primjerice, stvaranjem umjetnih tekstova. Postoji tvrtka koja je osmislila mehanizam za generiranje tekstova o temama o kojima je čovjeku dosadno pisati: promjene cijena nekretnina, vremenska prognoza, izvještaji s nogometnih utakmica. Mnogo je skuplje naručiti te tekstove za osobu, a računalni tekstovi o takvim temama napisani su koherentnim ljudskim jezikom.

Yandex je aktivno uključen u razvoj na području pretraživanja nestrukturiranih informacija u Rusiji; Kaspersky Lab angažira istraživačke grupe koje proučavaju strojno učenje. Pokušava li netko na tržištu smisliti nešto novo u području računalne lingvistike?

**Knjige o računalnoj lingvistici:**

Daniel Jurafsky, Obrada govora i jezika

Christopher Manning, Prabhakar Raghavan, Heinrich Schuetze, "Uvod u pronalaženje informacija"

Yakov Testelets, “Uvod u opću sintaksu”

Većina lingvističkih dostignuća vlasništvo je velikih tvrtki; gotovo ništa se ne može naći u javnoj domeni. To usporava razvoj industrije, nemamo slobodno lingvističko tržište niti pakirana rješenja.

Osim toga, nedostaju sveobuhvatni izvori informacija. Postoji takav projekt kao Nacionalni korpus ruskog jezika. Ovo je jedna od najboljih nacionalnih građevina na svijetu, koja se brzo razvija i otvara nevjerojatne mogućnosti za znanstvena i primijenjena istraživanja. Razlika je otprilike ista kao u biologiji – prije i poslije istraživanja DNK.

Ali mnogi resursi ne postoje na ruskom. Dakle, ne postoji analogija tako divnom izvoru na engleskom jeziku kao što je Framenet - ovo je konceptualna mreža u kojoj su formalno predstavljene sve moguće veze određene riječi s drugim riječima. Na primjer, postoji riječ "letjeti" - tko može letjeti, gdje, s kojim se prijedlogom ova riječ koristi, s kojim se riječima kombinira i tako dalje. Ovaj resurs pomaže povezati jezik sa stvarnim životom, odnosno pratiti kako se određena riječ ponaša na razini morfologije i sintakse. Ovo je vrlo korisno.

Tvrtka Avicomp trenutno razvija dodatak za pretraživanje članaka sličnog sadržaja. Odnosno, ako vas zanima članak, možete brzo pogledati povijest priče: kada je tema nastala, što je napisano i kada je bio vrhunac interesa za ovaj problem. Na primjer, uz pomoć ovog dodatka bit će moguće, počevši od članka posvećenog događajima u Siriji, vrlo brzo vidjeti kako su se događaji tamo razvijali tijekom protekle godine.

Kako će biti strukturiran proces učenja na diplomskom studiju?

Obrazovanje na HSE organizirano je u zasebnim modulima, baš kao i na zapadnim sveučilištima. Studenti će biti podijeljeni u male timove, mini-startupe – odnosno na kraju bismo trebali dobiti nekoliko gotovih projekata. Želimo dobiti prave proizvode, koje ćemo onda otvoriti ljudima i ostaviti u javnosti.

Osim neposrednih voditelja projekta studenata, želimo im pronaći kustose među potencijalnim poslodavcima - iz istog Yandexa, na primjer, koji će također igrati ovu igricu i dati studentima neke savjete.

Nadam se da će na magistarski studij dolaziti ljudi iz raznih područja: programeri, lingvisti, sociolozi, marketingaši. Imat ćemo nekoliko tečajeva prilagodbe iz lingvistike, matematike i programiranja. Zatim ćemo imati dva ozbiljna kolegija iz lingvistike, a oni će biti vezani uz najaktualnije lingvističke teorije; želimo da naši maturanti znaju čitati i razumjeti suvremene lingvističke članke. Isto je i s matematikom. Imat ćemo kolegij pod nazivom "Matematičke osnove računalne lingvistike", koji će ocrtati one grane matematike na kojima se temelji moderna računalna lingvistika.

Za upis na magistarski studij potrebno je položiti prijemni ispit iz jezika i proći portfolio natječaj.

Uz glavne kolegije, predvidjeli smo i niz izbornih predmeta – dva su usmjerena na dublje proučavanje pojedinih tema, a to su, primjerice, strojno prevođenje i korpusna lingvistika. a jedan je, naprotiv, povezan sa srodnim područjima: kao što su , društvene mreže, strojno učenje ili digitalne humanističke znanosti - tečaj za koji se nadamo da će se predavati na engleskom jeziku.

Računalni lingvisti bave se razvojem algoritama za prepoznavanje teksta i govora, sintezom umjetnog govora, stvaranjem sustava semantičkog prevođenja i samim razvojem umjetne inteligencije (u klasičnom smislu riječi – kao zamjene za ljudsku inteligenciju – to je malo je vjerojatno da će se ikada pojaviti, ali različiti ekspertni sustavi temeljeni na analizi podataka).

Algoritmi za prepoznavanje govora sve će se više koristiti u svakodnevnom životu – pametne kuće i elektronički uređaji neće imati daljinske upravljače i tipke, već će se umjesto njih koristiti glasovno sučelje. Ova se tehnologija usavršava, ali još uvijek ima mnogo izazova: računalu je teško prepoznati ljudski govor jer različiti ljudi govore vrlo različito. Stoga, u pravilu, sustavi za prepoznavanje dobro rade bilo kada su osposobljeni za jednog govornika i već prilagođeni njegovim izgovornim osobinama, bilo kada je broj fraza koje sustav može prepoznati ograničen (kao, na primjer, u glasovnim naredbama za TV).

Pred stručnjacima za izradu programa za semantičko prevođenje još je puno posla: trenutno su dobri algoritmi razvijeni samo za prevođenje na engleski i s engleskog. Ovdje postoji mnogo problema - različiti jezici semantički su strukturirani drugačije, to se razlikuje čak i na razini konstrukcije fraza, a sva značenja jednog jezika ne mogu se prenijeti pomoću semantičkog aparata drugog. Osim toga, program mora razlikovati homonime, ispravno prepoznati dijelove govora i odabrati ispravno značenje višeznačne riječi koja odgovara kontekstu.

Sinteza umjetnog govora (na primjer, za kućne robote) također je mukotrpan posao. Teško je učiniti da umjetno stvoreni govor zvuči prirodno ljudskom uhu, jer postoje milijuni nijansi na koje ne obraćamo pažnju, ali bez kojih sve više nije “isto” - lažni startovi, pauze, oklijevanja itd. Tijek govora je kontinuiran, au isto vrijeme diskretan: govorimo bez pauze između riječi, ali nam nije teško razumjeti gdje završava jedna riječ, a počinje druga, ali za stroj bi to bio veliki problem.

Najveći smjer računalne lingvistike vezan je za Big Data. Uostalom, postoje golemi korpusi tekstova kao što su news feedovi, iz kojih je potrebno izdvojiti određene informacije - primjerice, istaknuti news feedove ili skrojiti RSS prema ukusu pojedinog korisnika. Takve tehnologije već postoje i nastavit će se razvijati jer računalna snaga brzo raste. Jezična analiza teksta također se koristi za osiguranje internetske sigurnosti i traženje potrebnih informacija za obavještajne službe.

Gdje učiti za računalnog lingvista? Kod nas su, nažalost, dosta razdvojene specijalnosti vezane uz klasičnu lingvistiku i programiranje, statistiku i analizu podataka. A da biste postali digitalni lingvist, morate razumjeti oboje. Inozemna sveučilišta imaju visokoškolske programe računalne lingvistike, no nama je za sada najbolja opcija steći osnovno lingvističko obrazovanje, a zatim svladati osnove informatike. Dobro je što sada postoji mnogo različitih online tečajeva; nažalost, to nije bio slučaj tijekom mojih studentskih godina. Studirao sam na Fakultetu primijenjene lingvistike Moskovskog državnog lingvističkog sveučilišta, gdje smo imali tečajeve o umjetnoj inteligenciji i prepoznavanju govora - ali još uvijek ne u dovoljnom obimu. Sada IT tvrtke aktivno pokušavaju komunicirati s institucijama. Moji kolege iz Kaspersky Laba i ja također pokušavamo sudjelovati u obrazovnom procesu: držimo predavanja, održavamo studentske konferencije i dodjeljujemo stipendije studentima diplomskih studija. Ali zasad inicijativa više dolazi od poslodavaca nego od sveučilišta.

NASTAVNI RAD

u disciplini "Informatika"

na temu: “Računalna lingvistika”


UVOD

1. Mjesto i uloga računalne lingvistike u lingvističkim istraživanjima

2. Suvremena sučelja za računalnu lingvistiku

ZAKLJUČAK

KNJIŽEVNOST


Uvod

Automatizirane informacijske tehnologije igraju važnu ulogu u životu modernog društva. S vremenom njihov značaj stalno raste. No, razvoj informacijske tehnologije vrlo je neujednačen: ako je suvremena razina računalne tehnologije i komunikacija nevjerojatna, onda su u području semantičke obrade informacija uspjesi mnogo skromniji. Ti uspjesi ovise prije svega o postignućima u proučavanju procesa ljudskog mišljenja, procesa verbalne komunikacije među ljudima i sposobnosti modeliranja tih procesa na računalu.

Kada je riječ o stvaranju perspektivnih informacijskih tehnologija, problemi automatske obrade tekstualnih informacija prikazanih na prirodnim jezicima dolaze do izražaja. To je određeno činjenicom da je čovjekovo razmišljanje usko povezano s njegovim jezikom. Štoviše, prirodni jezik je alat za razmišljanje. Također je univerzalno sredstvo komunikacije među ljudima – sredstvo percepcije, akumulacije, pohrane, obrade i prijenosa informacija. Problemima uporabe prirodnog jezika u sustavima za automatsku obradu informacija bavi se znanost računalna lingvistika. Ova znanost nastala je relativno nedavno - na prijelazu pedesetih i šezdesetih godina prošlog stoljeća. U proteklih pola stoljeća postignuti su značajni znanstveni i praktični rezultati u području računalne lingvistike: sustavi za strojno prevođenje tekstova s ​​jednog prirodnog jezika na drugi, sustavi za automatizirano pronalaženje informacija u tekstovima, sustavi za automatsku analizu i sintezu usmenog jezika. govor, a stvoreni su i mnogi drugi. Ovaj rad posvećen je konstrukciji optimalnog računalnog sučelja korištenjem računalne lingvistike pri provođenju lingvističkih istraživanja.


U suvremenom svijetu računalna lingvistika se sve više koristi za provođenje raznih lingvističkih studija.

Računalna lingvistika je područje znanja povezano s rješavanjem problema automatske obrade informacija prikazanih prirodnim jezikom. Središnji znanstveni problemi računalne lingvistike su problem modeliranja procesa razumijevanja značenja tekstova (prijelaz s teksta na formalizirani prikaz njegova značenja) i problem sinteze govora (prijelaz s formaliziranog prikaza značenja na tekstove u prirodnom obliku). jezik). Ovi problemi nastaju pri rješavanju niza primijenjenih problema, a posebice problema automatskog otkrivanja i ispravljanja pogrešaka pri unosu teksta u računalo, automatske analize i sinteze usmenog govora, automatskog prevođenja tekstova s ​​jednog jezika na drugi, komunikacije s računalo na prirodnom jeziku, automatska klasifikacija i indeksiranje tekstualnih dokumenata, njihovo automatsko apstrahiranje, pretraživanje dokumenata u bazama podataka punog teksta.

Lingvistički alati stvoreni i korišteni u računalnoj lingvistici mogu se podijeliti u dva dijela: deklarativni i proceduralni. Deklarativni dio uključuje rječnike jezičnih i govornih jedinica, tekstove i razne vrste gramatičkih tablica, proceduralni dio uključuje sredstva za rukovanje jezičnim i govornim jedinicama, tekstove i gramatičke tablice. Računalno sučelje odnosi se na proceduralni dio računalne lingvistike.

Uspjeh u rješavanju primijenjenih problema računalne lingvistike ovisi prije svega o cjelovitosti i točnosti prikaza deklarativnih sredstava u računalnoj memoriji te o kvaliteti proceduralnih sredstava. Do danas još nije postignuta potrebna razina rješavanja ovih problema, iako se radovi na području računalne lingvistike provode u svim razvijenim zemljama svijeta (Rusija, SAD, Engleska, Francuska, Njemačka, Japan itd.). ).

Ipak, mogu se uočiti ozbiljna znanstvena i praktična postignuća u području računalne lingvistike. Tako su u nizu zemalja (Rusija, SAD, Japan itd.) izgrađeni eksperimentalni i industrijski sustavi za strojno prevođenje tekstova s ​​jednog jezika na drugi, izgrađen je niz eksperimentalnih sustava za komunikaciju s računalima na prirodnom jeziku. , u tijeku je rad na stvaranju terminoloških banaka podataka, tezaurusa, dvojezičnih i višejezičnih strojnih rječnika (Rusija, SAD, Njemačka, Francuska itd.), grade se sustavi za automatsku analizu i sintezu usmenog govora (Rusija, SAD, Japan itd.). .), provode se istraživanja u području konstruiranja modela prirodnog jezika.

Važan metodološki problem primijenjene računalne lingvistike ispravna je procjena potrebnog odnosa između deklarativne i proceduralne komponente sustava za automatsku obradu tekstualnih informacija. Čemu dati prednost: snažnim računalnim postupcima koji se temelje na relativno malim vokabularnim sustavima s bogatim gramatičkim i semantičkim informacijama ili snažnoj deklarativnoj komponenti s relativno jednostavnim računalnim sučeljima? Većina znanstvenika smatra da je drugi način poželjniji. Brže će dovesti do postizanja praktičnih ciljeva, jer će biti manje slijepih ulica i teško premostivih prepreka, a ovdje će biti moguće koristiti računala u širim razmjerima za automatizaciju istraživanja i razvoja.

Potrebu za mobiliziranjem napora, prije svega, na razvoju deklarativne komponente sustava za automatsku obradu tekstualnih informacija potvrđuje polustoljetno iskustvo u razvoju računalne lingvistike. Uostalom, ovdje, unatoč neospornim uspjesima ove znanosti, strast prema algoritamskim postupcima nije donijela očekivani uspjeh. Bilo je čak i izvjesnog razočaranja u sposobnosti proceduralnih sredstava.

U svjetlu navedenog čini se obećavajućim razviti takav put razvoja računalne lingvistike, kada će glavni napori biti usmjereni na stvaranje snažnih rječnika jezičnih i govornih jedinica, proučavanje njihove semantičko-sintaktičke strukture i stvaranje osnovnih postupaka za morfološke, semantičko-sintaktička i pojmovna analiza i sinteza tekstova. To će nam omogućiti rješavanje širokog spektra primijenjenih problema u budućnosti.

Računalna lingvistika prije svega se suočava sa zadaćama lingvističke potpore procesima prikupljanja, akumulacije, obrade i dohvaćanja informacija. Najvažniji od njih su:

1. Automatizacija kompilacije i jezične obrade strojnih rječnika;

2. Automatizacija procesa otkrivanja i ispravljanja grešaka prilikom unosa tekstova u računalo;

3. Automatsko indeksiranje dokumenata i zahtjeva za informacijama;

4. Automatska klasifikacija i sažetak dokumenata;

5. Jezična podrška procesima traženja informacija u jednojezičnim i višejezičnim bazama podataka;

6. Strojno prevođenje tekstova s ​​jednog prirodnog jezika na drugi;

7. Izgradnja lingvističkih procesora koji osiguravaju komunikaciju korisnika s automatiziranim inteligentnim informacijskim sustavima (osobito ekspertnim sustavima) na prirodnom jeziku ili jeziku bliskom prirodnom;

8. Izdvajanje činjeničnih informacija iz neformalnih tekstova.

Zadržimo se detaljno na problemima koji su najrelevantniji za temu istraživanja.

U praktičnom djelovanju informacijskih centara javlja se potreba rješavanja problema automatizirane detekcije i ispravljanja pogrešaka u tekstovima pri njihovom unosu u računalo. Ovaj složeni zadatak može se uvjetno podijeliti na tri zadatka - zadaće pravopisne, sintaktičke i semantičke kontrole tekstova. Prvi od njih može se riješiti pomoću postupka morfološke analize koji koristi prilično moćan referentni strojni rječnik korijena riječi. U procesu pravopisne kontrole, riječi teksta podliježu morfološkoj analizi, a ako se njihove osnove poistovjećuju s osnovama referentnog rječnika, tada se smatraju točnima; ako nisu identificirani, onda se, popraćeni mikrokontekstom, daju osobi na uvid. Osoba otkriva i ispravlja iskrivljene riječi, a odgovarajući softverski sustav te ispravke unosi u ispravljeni tekst.

Zadaća sintaktičke kontrole tekstova radi otkrivanja pogrešaka u njima mnogo je složenija od zadaće njihove pravopisne kontrole. Prvo, zato što kao svoju obaveznu sastavnicu uključuje zadatak kontrole pravopisa, a drugo, zato što problem sintaktičke analize neformalnih tekstova još nije u potpunosti riješen. Međutim, djelomična sintaktička kontrola tekstova sasvim je moguća. Tu možete ići na dva načina: ili sastaviti prilično reprezentativne strojne rječnike referentnih sintaktičkih struktura i s njima usporediti sintaktičke strukture analiziranog teksta; ili razviti složeni sustav pravila za provjeru gramatičke dosljednosti elemenata teksta. Prvi put nam se čini izglednijim, iako, naravno, ne isključuje mogućnost korištenja elemenata drugog puta. Sintaktičku strukturu teksta treba opisati u terminima gramatičkih klasa riječi (točnije, u obliku nizova skupova gramatičkih informacija za riječi).

Zadatak semantičke kontrole tekstova radi otkrivanja semantičkih pogrešaka u njima treba svrstati u klasu zadataka umjetne inteligencije. Ona se u potpunosti može riješiti samo na temelju modeliranja procesa ljudskog mišljenja. U ovom slučaju bit će, čini se, potrebno stvoriti moćne enciklopedijske baze znanja i softverske alate za manipulaciju znanjem. Ipak, za ograničena tematska područja i za formalizirane informacije, ovaj zadatak je potpuno rješiv. Treba ga postaviti i riješiti kao problem semantičko-sintaktičke kontrole tekstova.



Svidio vam se članak? Podijelite to