Kontakter

Datorfilologi. Beräkningslingvistiks historia, utveckling och etablering som vetenskaplig riktning. Program för inträdesprov och intervju för disciplinen "Formella modeller och metoder för modern lingvistik"

Beräkningslingvistik(Också: matematisk eller beräkningslingvistik, engelska beräkningslingvistik) - en vetenskaplig riktning inom området matematisk och datormodellering av intellektuella processer hos människor och djur vid skapande av artificiell intelligens, som syftar till att använda matematiska modeller för att beskriva naturliga språk.

Beräkningslingvistik överlappar naturlig språkbehandling. I det senare ligger dock inte tyngdpunkten på abstrakta modeller, utan på tillämpade metoder för att beskriva och bearbeta språk för datorsystem.

Datorlingvisternas verksamhetsområde är utvecklingen av algoritmer och applikationsprogram för bearbetning av språklig information.

Ursprung

Matematisk lingvistik är en gren av vetenskapen om artificiell intelligens. Dess historia började i USA på 1950-talet. Med uppfinningen av transistorn och tillkomsten av en ny generation datorer, såväl som de första programmeringsspråken, började experiment med maskinöversättning, särskilt av ryska vetenskapliga tidskrifter. På 1960-talet utfördes liknande studier i Sovjetunionen (till exempel en artikel om översättning från ryska till armeniska i samlingen "Problems of Cybernetics" för 1964). Men kvaliteten på maskinöversättning är fortfarande mycket sämre än kvaliteten på mänsklig översättning.

Från den 15 maj till den 21 maj 1958 hölls den första fackliga konferensen om maskinöversättning vid I Moscow State Pedagogical Institute of Foreign Languages. Organisationskommittén leddes av V. Yu Rosenzweig och den verkställande sekreteraren för Organisationskommittén G.V. Chernov. Hela konferensprogrammet publiceras i samlingen "Machine Translation and Applied Linguistics," vol. 1, 1959 (alias "Machine Translation Association Bulletin No. 8"). Som V. Yu Rosenzweig minns kom den publicerade samlingen av konferenssammandrag till USA och gjorde ett stort intryck där.

I april 1959 ägde det första fackliga mötet om matematisk lingvistik, sammankallat av Leningrads universitet och kommittén för tillämpad lingvistik, rum i Leningrad. Huvudarrangören av mötet var N.D. Andreev. Ett antal framstående matematiker deltog i mötet, i synnerhet S. L. Sobolev, L. V. Kantorovich (senare nobelpristagare) och A. A. Markov (de två sista talade i debatten). V. Yu Rosenzweig höll ett huvudtal på mötets öppningsdag, "Allmän lingvistisk teori om översättning och matematisk lingvistik."

Områden för beräkningslingvistik

  • Naturlig språkbehandling naturlig språkbehandling; syntaktisk, morfologisk, semantisk textanalys). Detta inkluderar även:
  1. Korpuslingvistik, skapande och användning av elektroniska korpus av texter
  2. Skapande av elektroniska ordböcker, tesaurier, ontologier. Till exempel Lingvo. Ordböcker används till exempel för automatisk översättning och stavningskontroll.
  3. Automatisk översättning av texter. Promt är populärt bland ryska översättare. Bland de gratis finns Google Translate.
  4. Automatisk extraktion av fakta från text (informationsextraktion) (eng. faktaextraktion, textutvinning)
  5. Automatisk referens automatisk textsammanfattning). Denna funktion ingår till exempel i Microsoft Word.
  6. Bygga kunskapshanteringssystem. Se Expertsystem
  7. Skapande av fråge- och svarssystem system för svar på frågor).
  • Optisk teckenigenkänning OCR). Till exempel programmet FineReader
  • Automatisk taligenkänning ASR). Det finns betald och gratis programvara
  • Automatisk talsyntes

Stora föreningar och konferenser

Studieprogram i Ryssland

Se även

Skriv en recension om artikeln "Computational Linguistics"

Anteckningar

Länkar

  • (abstrakt)
  • - Kunskapsbas av språkliga resurser för det ryska språket
  • - Öppna källkoder för vissa beräkningslingvistiska verktyg
  • - Tillgång online till datorlingvistikprogram

Ett utdrag som karakteriserar beräkningslingvistik

"Ta, ta barnet," sa Pierre och överlämnade flickan och tilltalade kvinnan ihärdigt och hastigt. - Ge det till dem, ge det till dem! - skrek han nästan mot kvinnan, satte den skrikande flickan på marken och såg återigen tillbaka på den franska och den armeniska familjen. Gubben satt redan barfota. Den lille fransmannen tog av sig sin sista stövel och klappade stövlarna mot varandra. Den gamle mannen snyftande sa något, men Pierre fick bara en skymt av det; all hans uppmärksamhet riktades mot fransmannen i huvan, som vid den tiden, sakta svajande, rörde sig mot den unga kvinnan och tog händerna ur fickorna och tog tag i hennes hals.
Den vackra armeniska kvinnan fortsatte att sitta i samma orörliga ställning, med sina långa ögonfransar sänkta, och som om hon inte såg eller kände vad soldaten gjorde mot henne.
Medan Pierre sprang de där få stegen som skilde honom från fransmännen, höll en lång marodör i huva redan på att slita halsbandet som hon bar från den armeniska kvinnans hals, och den unga kvinnan, som höll om halsen med händerna, skrek med gäll röst. .
– Laissez cette femme! [Lämna den här kvinnan!] - kvetade Pierre med frenetisk röst, tog den långa, krökta soldaten i axlarna och kastade iväg honom. Soldaten föll, reste sig och sprang iväg. Men hans kamrat, som slängde sina stövlar, tog fram en klyfta och gick hotfullt fram mot Pierre.
- Voyons, pas de betises! [Tja, väl! Var inte dum!] – skrek han.
Pierre befann sig i den hänryckning av raseri där han inte mindes något och där hans styrka tiodubblades. Han rusade mot den barfota fransmannen och innan han hann ta fram klyven hade han redan slagit ner honom och hamrade på honom med knytnävarna. Ett gillande rop hördes från den omgivande folkmassan och samtidigt dök en beriden patrull franska lanser upp runt hörnet. Lansarna travade fram till Pierre och fransmannen och omringade dem. Pierre kom inte ihåg något av vad som hände sedan. Han kom ihåg att han hade slagit någon, han hade blivit slagen och att han till slut kände att hans händer var bundna, att en skara franska soldater stod runt honom och sökte igenom hans klänning.
"Il a un poignard, löjtnant, [löjtnant, han har en dolk,"] var de första orden som Pierre förstod.
- Ah, une arme! [Ah, vapen!] - sa officeren och vände sig mot barfotasoldaten som togs med Pierre.
"C"est bon, vous direz tout cela au conseil de guerre, [Okej, okej, du kommer att berätta allt under rättegången," sa officeren och efter det vände han sig till Pierre: "Parlez vous francais vous?" Talar du franska?
Pierre såg sig omkring med blodsprängda ögon och svarade inte. Hans ansikte verkade förmodligen väldigt läskigt, för officeren sa något viskande, och ytterligare fyra lancerar separerade från laget och stod på båda sidor om Pierre.
– Parlez vous francais? – Polisen upprepade frågan till honom och höll sig borta från honom. - Faites venir l "tolkar. [Ring en tolk.] - En liten man i rysk civil klänning kom ut bakom raderna. Pierre, genom sin klädsel och tal, kände omedelbart igen honom som en fransman från en av butikerna i Moskva.
"Il n"a pas l"air d"un homme du peuple, [han ser inte ut som en gemene man", sa översättaren och tittade på Pierre.
– Åh, åh! ca m"a bien l"air d"un des incendiaires," suddig polisen "Demandez lui ce qu"il est? [Åh, åh! han ser mycket ut som en mordbrännare. Fråga honom vem han är?] tillade han.
-Vem är du? – frågade översättaren. "Myndigheterna måste svara", sa han.
– Je ne vous dirai pas qui je suis. Je suis votre prisonnier. Emmenez moi, [Jag kommer inte att berätta vem jag är. Jag är din fånge. Ta bort mig”, sa Pierre plötsligt på franska.
- Ah, Ah! – sa officeren och rynkade pannan. - Marchons!
En folkmassa samlades runt lansarna. Närmast Pierre stod en pockad kvinna med en flicka; När omvägen började röra sig gick hon framåt.
-Vart tar de dig, min älskling? - sa hon. - Den här tjejen, vad ska jag göra med den här tjejen om hon inte är deras! - sa kvinnan.
– Qu"est ce qu"elle veut cette femme? [Vad vill hon?] - frågade officeren.
Pierre såg ut som han var full. Hans extatiska tillstånd intensifierades ännu mer vid åsynen av flickan han hade räddat.
"Ce qu"elle dit?" sa han. "Elle m"apporte ma fille que je viens de sauver des flammes," sa han. - Adieu! [Vad vill hon? Hon bär på min dotter, som jag räddade från elden. Farväl!] - och han, utan att veta hur denna planlösa lögn undgick honom, gick med ett avgörande, högtidligt steg bland fransmännen.
Den franska patrullen var en av dem som skickades på order av Duronel till olika gator i Moskva för att undertrycka plundring och särskilt för att fånga mordbrännare, som enligt den allmänna uppfattning som framkom den dagen bland fransmän i de högsta rangen var de orsaken till bränderna. Efter att ha rest runt flera gator, plockade patrullen upp ytterligare fem misstänkta ryssar, en butiksinnehavare, två seminarister, en bonde och en tjänare och flera plundrare. Men av alla misstänksamma personer verkade Pierre den mest misstänksamma av alla. När de alla fördes för att övernatta i ett stort hus på Zubovsky Val, där ett vakthus var etablerat, ställdes Pierre separat under strikt bevakning.

I S:t Petersburg vid denna tid, i de högsta kretsarna, med större glöd än någonsin, pågick en komplex kamp mellan partierna Rumyantsev, fransmännen, Maria Feodorovna, Tsarevich och andra, som som alltid drunknade av trumpetandet av hovdrönarna. Men lugnt, lyxigt, bara ägnat sig åt spöken, reflektioner av livet, fortsatte livet i S:t Petersburg som förut; och på grund av detta livs förlopp var det nödvändigt att göra stora ansträngningar för att erkänna faran och den svåra situation som det ryska folket befann sig i. Det fanns samma utgångar, baler, samma franska teater, samma intressen hos domstolarna, samma intressen av service och intriger. Endast i de högsta kretsarna gjordes försök att påminna om svårigheten i den nuvarande situationen. Det berättades i viskningar hur de två kejsarinnorna agerade mitt emot varandra under så svåra omständigheter. Kejsarinnan Maria Feodorovna, oroad över välfärden för välgörenhets- och utbildningsinstitutioner under hennes jurisdiktion, gav en order att skicka alla institutioner till Kazan, och sakerna från dessa institutioner var redan packade. Kejsarinnan Elizaveta Alekseevna, på frågan om vilka order hon ville ge, med sin karaktäristiska ryska patriotism, förhärligade sig att svara att hon inte kunde ge order om statliga institutioner, eftersom det rörde suveränen; ungefär samma sak som personligen beror på henne, hon förhärligade att säga att hon kommer att bli den sista att lämna St. Petersburg.

Novoselova Irina

Varför är inte alla maskinöversättningar perfekta? Vad avgör kvaliteten på översättningen? Har författaren tillräckligt med kunskap för att använda och utöka befintliga datorlexikon? Författaren försökte ge svar på dessa frågor i sitt arbete. Rapporten om ämnet finns i den bifogade filen, produkten av projektaktiviteten finns på skolportalen

Ladda ner:

Förhandsvisning:

Öppna

Internationell

forskning

konferens

gymnasieelever och elever

"Utbildning. Vetenskap. Yrke"

Avsnittet "Främmande lingvistik"

"Beräkningslingvistik"

Framförd av Novoselova Irina

Kommunal läroanstalt gymnasium nr 39 ”Klassisk”

10 "B" klass

Vetenskapliga handledare:

Chigrinyova Tatyana Dmitrievna,

Engelsklärare av högsta kategori

Osipova Svetlana Leonidovna,

datavetenskapslärare av högsta kategori

Otradny

2011

  1. Engelska ord i IKT

Titta på hemsidan

  1. Mitt experiment

En av uppgifterna är att genomföra ett experiment, som går ut på att jämföra kapaciteten hos olika datorlingvistiska ordböcker för en mer exakt och ungefärlig översättning från engelska till ryska.

Följande webbplatser testades:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

För experimentets renhet valde jag meningar med varierande grad av komplexitet i stilistisk översättning. Inmatningsfraserna är följande:

1. En ny rapport säger att dagens tonåringar är mer själviska än de var för 20 år sedan

(Ny rapport säger att tonåringar idag är mer själviska än de var för 20 år sedan)

2. Hon tror att tv-spel och internet är de största orsakerna till denna ökade själviskhet.

(Hon tror att tv-spel och internet är de viktigaste orsakerna till denna ökande själviskhet)

3. De vill vara bättre än andra

(De vill vara bättre än resten)

4. Hon fann att den stora ökningen började från år 2000, då våldsamma tv-spel blev riktigt populära.

(Hon fann en stor ökning från och med 2000 när våldsamma videospel blev riktigt populära)

Efter att ha översatt dessa meningar på webbsidor för översättare fick jag följande resultat:

  1. http://translate.eu/

Filologiska fakulteten vid Handelshögskolan lanserar ett nytt masterprogram dedikerat till datorlingvistik: det välkomnar sökande med en grundläggande utbildning inom humaniora och matematik och alla som är intresserade av att lösa problem inom en av de mest lovande vetenskapsgrenarna . Dess direktör, Anastasia Bonch-Osmolovskaya, berättade för teorier och utövare vad beräkningslingvistik är, varför robotar inte kommer att ersätta människor och vad som kommer att läras ut i HSE-masterprogrammet i beräkningslingvistik.

Detta program är nästan det enda i sitt slag i Ryssland. Var studerade du?

Jag studerade vid Moscow State University i Institutionen för teoretisk och tillämpad lingvistik, Filologiska fakulteten. Jag kom inte dit direkt, först gick jag in på den ryska avdelningen, men sedan blev jag seriöst intresserad av lingvistik, och jag attraherades av atmosfären som finns kvar på avdelningen än i dag. Det viktigaste där är god kontakt mellan lärare och elever och deras ömsesidiga intresse.

När jag fick barn och behövde försörja mig gick jag in på kommersiell lingvistik. 2005 var det inte särskilt tydligt vad detta verksamhetsområde som sådant var. Jag arbetade i olika språkföretag: Jag började med ett litet företag på webbplatsen Public.ru - det här är ett slags mediebibliotek, där jag började arbeta med språkteknik. Sedan jobbade jag ett år på Rosnanotech där det fanns en idé om att skapa en analytisk portal så att datan på den automatiskt skulle struktureras. Sedan ledde jag den språkliga avdelningen på företaget Avicomp - det här är redan en seriös produktion inom området datorlingvistik och semantisk teknologi. Samtidigt undervisade jag i en kurs i beräkningslingvistik vid Moscow State University och försökte göra den mer modern.

Två resurser för en lingvist: - en webbplats skapad av lingvister för vetenskaplig och tillämpad forskning relaterad till det ryska språket. Detta är en modell av det ryska språket, presenterad med ett stort utbud av texter från olika genrer och perioder. Texterna är utrustade med språklig uppmärkning, med hjälp av vilken man kan få information om frekvensen av vissa språkliga fenomen. Wordnet är en enorm lexikalisk databas för det engelska språket; huvudidén med Wordnet är att inte koppla ihop ord utan deras betydelser till ett stort nätverk. Wordnet kan laddas ner och användas för dina egna projekt.

Vad gör beräkningslingvistik?

Detta är det mest tvärvetenskapliga området. Det viktigaste här är att förstå vad som händer i den elektroniska världen och vem som hjälper dig att göra specifika saker.

Vi är omgivna av en mycket stor mängd digital information, det finns många affärsprojekt vars framgång beror på bearbetningen av information, dessa projekt kan relatera till området marknadsföring, politik, ekonomi och allt annat. Och det är mycket viktigt att kunna hantera denna information effektivt - det viktigaste är inte bara hastigheten för att bearbeta information, utan också den lätthet med vilken du kan, efter att ha filtrerat bort bruset, få den data du behöver och skapa en komplett bild från den.

Tidigare förknippades vissa globala idéer med datorlingvistik, till exempel: folk trodde att maskinöversättning skulle ersätta mänsklig översättning, att robotar skulle fungera istället för människor. Men nu verkar det som en utopi, och maskinöversättning används i sökmotorer för att snabbt söka på ett okänt språk. Det vill säga, nu sysslar lingvistik sällan med abstrakta problem – mest med några småsaker som kan infogas i en stor produkt och tjäna pengar på den.

En av den moderna lingvistikens stora uppgifter är den semantiska webben, när sökningen inte bara sker genom att matcha ord, utan av betydelse, och alla sajter på ett eller annat sätt är markerade av semantik. Detta kan vara användbart till exempel för polis- eller läkarrapporter som skrivs varje dag. Analys av interna kopplingar ger mycket nödvändig information, men att läsa och beräkna den manuellt är otroligt tidskrävande.

I ett nötskal har vi tusen texter, vi behöver sortera dem i grupper, presentera varje text i form av en struktur och få en tabell som vi redan kan arbeta med. Detta kallas ostrukturerad informationsbehandling. Å andra sidan handlar beräkningslingvistik till exempel om skapandet av konstgjorda texter. Det finns ett företag som har kommit på en mekanism för att generera texter om ämnen som är tråkiga för en person att skriva om: förändringar i fastighetspriser, väderprognoser, rapporter om fotbollsmatcher. Det är mycket dyrare att beställa dessa texter åt en person, och datortexter om sådana ämnen är skrivna på ett sammanhängande mänskligt språk.

Yandex är aktivt involverat i utvecklingen inom området för att söka efter ostrukturerad information i Ryssland. Kaspersky Lab anlitar forskargrupper som studerar maskininlärning. Försöker någon på marknaden komma på något nytt inom beräkningslingvistik?

**Böcker om beräkningslingvistik:**

Daniel Jurafsky, Tal- och språkbehandling

Christopher Manning, Prabhakar Raghavan, Heinrich Schuetze, "Introduktion till informationssökning"

Yakov Testelets, "Introduktion till allmän syntax"

De flesta språkliga utvecklingar är stora företags egendom; Detta bromsar utvecklingen av branschen. Vi har ingen fri språkmarknad eller paketerade lösningar.

Dessutom saknas heltäckande informationsresurser. Det finns ett sådant projekt som National Corpus of the Russian Language. Detta är en av de bästa nationella byggnaderna i världen, som utvecklas snabbt och öppnar för otroliga möjligheter för vetenskaplig och tillämpad forskning. Skillnaden är ungefär densamma som inom biologi – före DNA-forskning och efter.

Men många resurser finns inte på ryska. Det finns alltså ingen analog till en så underbar engelskspråkig resurs som Framenet - detta är ett konceptuellt nätverk där alla möjliga kopplingar av ett visst ord med andra ord presenteras formellt. Till exempel finns ordet "flyga" - vem kan flyga, var, med vilken preposition detta ord används, vilka ord det kombineras med, och så vidare. Denna resurs hjälper till att koppla samman språket med det verkliga livet, det vill säga att spåra hur ett specifikt ord beter sig på morfologinivå och syntaxnivå. Detta är mycket användbart.

Avicomp-företaget utvecklar för närvarande ett plugin för att söka artiklar med liknande innehåll. Det vill säga, om du är intresserad av en artikel kan du snabbt titta på historien om handlingen: när ämnet uppstod, vad skrevs och när var intresset för detta problem. Till exempel, med hjälp av denna plugin kommer det att vara möjligt, från en artikel som ägnas åt händelser i Syrien, att mycket snabbt se hur händelserna där har utvecklats under det senaste året.

Hur kommer inlärningsprocessen på masterprogrammet att struktureras?

Utbildningen vid HSE är organiserad i separata moduler, precis som vid västerländska universitet. Eleverna kommer att delas in i små team, ministartups – det vill säga i slutet ska vi få flera färdiga projekt. Vi vill få riktiga produkter, som vi sedan öppnar för människor och lämnar till allmän egendom.

Utöver elevernas omedelbara projektledare vill vi hitta dem som kuratorer bland deras potentiella arbetsgivare – från till exempel samma Yandex, som också kommer att spela det här spelet och ge eleverna några råd.

Jag hoppas att folk från en mängd olika områden kommer till masterprogrammet: programmerare, lingvister, socionomer, marknadsförare. Vi kommer att ha flera anpassningskurser inom lingvistik, matematik och programmering. Sedan kommer vi att ha två rigorösa kurser i lingvistik, och de kommer att vara relaterade till de mest aktuella språkliga teorierna. Vi vill att våra studenter ska kunna läsa och förstå moderna språkliga artiklar. Det är samma sak med matematik. Vi kommer att ha en kurs som heter "Mathematical Foundations of Computational Linguistics", som kommer att beskriva de grenar av matematik som modern datorlingvistik bygger på.

För att anmäla dig till ett masterprogram behöver du klara ett inträdesprov i språk och klara en portfoliotävling.

Utöver huvudkurserna kommer det att finnas en rad valbara ämnen. Vi har planerat flera cykler – två av dem är inriktade på en mer fördjupad studie av enskilda ämnen, som inkluderar till exempel maskinöversättning och korpuslingvistik. och en, tvärtom, är relaterad till relaterade områden: som , sociala nätverk, maskininlärning eller Digital Humanities - en kurs som vi hoppas kommer att undervisas på engelska.

Datorlingvister är engagerade i utvecklingen av text- och taligenkänningsalgoritmer, syntesen av artificiellt tal, skapandet av semantiska översättningssystem och själva utvecklingen av artificiell intelligens (i ordets klassiska mening - som en ersättning för mänsklig intelligens - det är osannolikt att någonsin dyka upp, men olika expertsystem baserade på dataanalys).

Taligenkänningsalgoritmer kommer att användas allt mer i vardagen – smarta hem och elektroniska enheter kommer inte att ha fjärrkontroller och knappar utan istället kommer ett röstgränssnitt att användas. Denna teknik håller på att förfinas, men det finns fortfarande många utmaningar: det är svårt för en dator att känna igen mänskligt tal eftersom olika människor talar väldigt olika. Därför fungerar igenkänningssystem som regel bra antingen när de är tränade för en talare och redan är anpassade till hans uttalsegenskaper, eller när antalet fraser som systemet kan känna igen är begränsat (som till exempel i röstkommandon för en TV).

Specialister på att skapa semantiska översättningsprogram har fortfarande mycket arbete framför sig: för närvarande har bra algoritmer utvecklats endast för översättning till och från engelska. Det finns många problem här - olika språk är strukturerade olika semantiskt, detta skiljer sig även på nivån för att konstruera fraser, och inte alla betydelser av ett språk kan förmedlas med hjälp av en annans semantiska apparat. Dessutom måste programmet särskilja homonymer, korrekt känna igen orddelar och välja den korrekta betydelsen av ett polysemantiskt ord som passar sammanhanget.

Syntes av konstgjort tal (till exempel för hemrobotar) är också mödosamt arbete. Det är svårt att få artificiellt skapat tal att låta naturligt för det mänskliga örat, eftersom det finns miljontals nyanser som vi inte uppmärksammar, men utan vilka allt inte längre är "samma" - falska starter, pauser, tvekan, etc. Talflödet är kontinuerligt och samtidigt diskret: vi talar utan att pausa mellan orden, men det är inte svårt för oss att förstå var ett ord slutar och ett annat börjar, men för en maskin skulle detta vara ett stort problem.

Den största riktningen inom beräkningslingvistik är relaterad till Big Data. Det finns trots allt enorma korpuser av texter som nyhetsflöden, från vilka det är nödvändigt att isolera viss information - till exempel lyfta fram nyhetsflöden eller skräddarsy RSS efter en viss användares smak. Sådan teknik finns redan och kommer att fortsätta att utvecklas, eftersom datorkraften växer snabbt. Språklig textanalys används också för att säkerställa internetsäkerhet och söka efter nödvändig information för underrättelsetjänster.

Var ska man studera för att bli datalingvist? I vårt land är tyvärr specialiteterna relaterade till klassisk lingvistik och programmering, statistik och dataanalys ganska åtskilda. Och för att bli en digital lingvist måste du förstå båda. Utländska universitet har högskoleutbildningar i datalingvistik, men just nu är det bästa alternativet för oss att skaffa en grundläggande språklig utbildning och sedan behärska grunderna i IT. Det är bra att det nu finns många olika onlinekurser, tyvärr, så var det inte under mina studentår. Jag studerade vid fakulteten för tillämpad lingvistik vid Moscow State Linguistics University, där vi hade kurser om artificiell intelligens och taligenkänning – men fortfarande inte i tillräcklig volym. Nu försöker IT-företag aktivt interagera med institutioner. Mina kollegor från Kaspersky Lab och jag försöker också delta i utbildningsprocessen: vi håller föreläsningar, håller studentkonferenser och ger stipendier till doktorander. Men än så länge kommer initiativet mer från arbetsgivare än från universitet.

KURSARBETE

inom disciplinen "Informatik"

på ämnet: "Beräkningslingvistik"


INTRODUKTION

1. Beräkningslingvistikens plats och roll i språkforskningen

2. Moderna gränssnitt för beräkningslingvistik

SLUTSATS

LITTERATUR


Introduktion

Automatiserad informationsteknik spelar en viktig roll i det moderna samhällets liv. Med tiden ökar deras betydelse kontinuerligt. Men utvecklingen av informationsteknik är mycket ojämn: om den moderna nivån av datorteknik och kommunikation är fantastisk, är framgångarna mycket mer blygsamma inom området semantisk bearbetning av information. Dessa framgångar beror först och främst på prestationer i studiet av processerna för mänskligt tänkande, processerna för verbal kommunikation mellan människor och förmågan att modellera dessa processer på en dator.

När det gäller att skapa lovande informationsteknik kommer problemen med automatisk bearbetning av textinformation som presenteras på naturliga språk i förgrunden. Detta bestäms av det faktum att en persons tänkande är nära kopplat till hans språk. Dessutom är naturligt språk ett verktyg för att tänka. Det är också ett universellt sätt att kommunicera mellan människor - ett medel för uppfattning, ackumulering, lagring, bearbetning och överföring av information. Vetenskapen om datorlingvistik behandlar problemen med att använda naturligt språk i automatiska informationsbehandlingssystem. Denna vetenskap uppstod relativt nyligen - i början av femtio- och sextiotalet av förra seklet. Under det senaste halvseklet har betydande vetenskapliga och praktiska resultat erhållits inom området datorlingvistik: system för maskinöversättning av texter från ett naturligt språk till ett annat, system för automatisk informationssökning i texter, system för automatisk analys och syntes av muntlig tal, och många andra har skapats. Detta arbete ägnas åt att bygga ett optimalt datorgränssnitt med hjälp av datorlingvistik när man bedriver språklig forskning.


I den moderna världen används beräkningslingvistik alltmer för att genomföra olika språkstudier.

Beräkningslingvistik är ett kunskapsområde förknippat med att lösa problem med automatisk bearbetning av information som presenteras på naturligt språk. De centrala vetenskapliga problemen inom datorlingvistik är problemet med att modellera processen att förstå texters betydelse (övergång från text till en formaliserad representation av dess betydelse) och problemet med talsyntes (övergång från en formaliserad representation av mening till texter i naturliga texter). språk). Dessa problem uppstår när man löser ett antal tillämpade problem och i synnerhet problem med automatisk upptäckt och korrigering av fel vid inmatning av texter i en dator, automatisk analys och syntes av muntligt tal, automatisk översättning av texter från ett språk till ett annat, kommunikation med en dator i naturligt språk, automatisk klassificering och indexering av textdokument, deras automatiska abstraktion, sökning efter dokument i fulltextdatabaser.

Språkliga verktyg som skapas och används inom beräkningslingvistik kan delas in i två delar: deklarativa och procedurella. Den deklarativa delen omfattar ordböcker över språk- och talenheter, texter och olika sorters grammatiktabeller, den processuella delen omfattar medel för att manipulera språk- och talenheter, texter och grammatiktabeller. Datorgränssnitt avser den processuella delen av beräkningslingvistik.

Framgång med att lösa tillämpade problem inom datorlingvistik beror först och främst på fullständigheten och noggrannheten i representationen av deklarativa medel i datorns minne och på kvaliteten på procedurmedel. Hittills har den erforderliga nivån för att lösa dessa problem ännu inte uppnåtts, även om arbete inom beräkningslingvistik utförs i alla utvecklade länder i världen (Ryssland, USA, England, Frankrike, Tyskland, Japan, etc.). ).

Icke desto mindre kan allvarliga vetenskapliga och praktiska landvinningar inom området beräkningslingvistik noteras. Sålunda har man i ett antal länder (Ryssland, USA, Japan, etc.) byggt upp experimentella och industriella system för maskinöversättning av texter från ett språk till ett annat, ett antal experimentella system för att kommunicera med datorer på naturligt språk har byggts upp. , arbete pågår för att skapa terminologiska databanker, synonymordböcker, tvåspråkiga och flerspråkiga maskinordböcker (Ryssland, USA, Tyskland, Frankrike, etc.), system för automatisk analys och syntes av muntligt tal byggs (Ryssland, USA, Japan, etc.) .), bedrivs forskning inom området konstruktion av naturliga språkmodeller.

Ett viktigt metodologiskt problem för tillämpad beräkningslingvistik är den korrekta bedömningen av det nödvändiga förhållandet mellan de deklarativa och procedurmässiga komponenterna i automatiskam. Vad bör föredras: kraftfulla beräkningsprocedurer baserade på relativt små ordförrådssystem med rik grammatisk och semantisk information, eller en kraftfull deklarativ komponent med relativt enkla datorgränssnitt? De flesta forskare tror att det andra sättet är att föredra. Det kommer att leda till att praktiska mål uppnås snabbare, eftersom det blir färre återvändsgränder och svåra hinder att övervinna, och här kommer det att vara möjligt att använda datorer i större skala för att automatisera forskning och utveckling.

Behovet av att mobilisera ansträngningar, först och främst, för utvecklingen av den deklarativa komponenten i automatiska tbekräftas av ett halvt sekels erfarenhet av utvecklingen av datorlingvistik. Trots allt, här, trots de obestridliga framgångarna för denna vetenskap, har passionen för algoritmiska procedurer inte gett den förväntade framgången. Det fanns till och med en viss besvikelse över möjligheterna med processuella medel.

I ljuset av ovanstående verkar det lovande att utveckla en sådan väg för utveckling av datorlingvistik, när huvudinsatserna kommer att inriktas på att skapa kraftfulla ordböcker över språk- och talenheter, studera deras semantisk-syntaktiska struktur och skapa grundläggande procedurer för morfologiska, semantisk-syntaktisk och konceptuell analys och syntes av texter. Detta kommer att tillåta oss att lösa ett brett spektrum av tillämpade problem i framtiden.

Datorlingvistik står först och främst inför uppgiften att språkligt stödja processerna för att samla in, ackumulera, bearbeta och hämta information. De viktigaste av dem är:

1. Automatisering av sammanställning och språklig bearbetning av maskinordböcker;

2. Automatisering av processerna för att upptäcka och korrigera fel vid inmatning av texter i en dator;

3. Automatisk indexering av dokument och informationsförfrågningar;

4. Automatisk klassificering och abstraktion av dokument;

5. Språkligt stöd för processer för informationssökning i enspråkiga och flerspråkiga databaser.

6. Maskinöversättning av texter från ett naturligt språk till ett annat;

7. Konstruktion av språkliga processorer som säkerställer användarkommunikation med automatiserade intelligenta informationssystem (särskilt expertsystem) på naturligt språk eller på ett språk nära naturligt.

8. Extrahera faktainformation från informella texter.

Låt oss uppehålla oss i detalj vid de problem som är mest relevanta för forskningsämnet.

I informationscentralernas praktiska verksamhet finns ett behov av att lösa problemet med automatisk upptäckt och korrigering av fel i texter när de skrivs in i en dator. Denna komplexa uppgift kan villkorligt delas in i tre uppgifter - uppgifter för ortografisk, syntaktisk och semantisk kontroll av texter. Den första av dem kan lösas med en morfologisk analysprocedur som använder en ganska kraftfull referensmaskinordbok över ordstammar. I processen med stavningskontroll är textens ord föremål för morfologisk analys, och om deras baser identifieras med baserna i referensordboken, anses de vara korrekta; om de inte identifieras, då de, åtföljda av en mikrokontext, presenteras för en person för visning. En person upptäcker och korrigerar förvrängda ord, och motsvarande programvarusystem gör dessa korrigeringar till den korrigerade texten.

Uppgiften att syntaktisk kontroll av texter för att upptäcka fel i dem är mycket mer komplicerad än uppgiften med deras stavningskontroll. För det första för att det inkluderar uppgiften att kontrollera stavning som sin obligatoriska komponent, och för det andra för att problemet med syntaktisk analys av informella texter ännu inte är helt löst. Partiell syntaktisk kontroll av texter är dock fullt möjlig. Här kan du gå på två sätt: antingen sammanställa ganska representativa maskinordböcker över syntaktiska referensstrukturer och jämföra den analyserade textens syntaktiska strukturer med dem; eller utveckla ett komplext system av regler för att kontrollera den grammatiska konsistensen av textelement. Den första vägen förefaller oss mer lovande, även om den naturligtvis inte utesluter möjligheten att använda delar av den andra vägen. Texternas syntaktiska struktur bör beskrivas i termer av grammatiska klasser av ord (mer exakt, i form av sekvenser av uppsättningar av grammatisk information för ord).

Uppgiften med semantisk kontroll av texter för att upptäcka semantiska fel i dem bör klassificeras som en klass av artificiell intelligensuppgifter. Det kan lösas i sin helhet endast på basis av modellering av processerna för mänskligt tänkande. I det här fallet kommer det uppenbarligen att bli nödvändigt att skapa kraftfulla encyklopediska kunskapsbaser och mjukvaruverktyg för kunskapsmanipulation. Ändå, för begränsade ämnesområden och för formaliserad information, är denna uppgift helt lösbar. Det bör ställas och lösas som ett problem med semantisk-syntaktisk kontroll av texter.



Gillade du artikeln? Dela det