HSE arvutuslingvistika: Anastasia Bonch-Osmolovskaya uuel magistriprogrammil. Arvutuslingvistika: meetodid, ressursid, rakendused

24.09.2019

Lingvistiline informaatika on osa infoteenuste teooriast. Infoteenuse teooria tekkis seoses kõne arvutiseerimisega ehk seoses arvutite kasutamisega keelelise teabe salvestamise, salvestamise ja säilitamise vahendina. Tänu tehnoloogiale oli võimalik ühendada raamatukogu, arhiivi ja kontori funktsioonid.

Suuri tekstiklasse töödeldakse automaatse viitamise teel. Pidevalt kasvav teadus- ja tehnikainfo hulk, mille otsimine muutub järjest töömahukamaks, tekitas mõtte otsida läbi nn sekundaarsed tekstid, mis on algdokumendi volditud info: bibliograafiline kirjeldus, annotatsioon, abstraktne, teaduslik tõlge.

Põhiteksti voltimine toimub selle tihendamise, tihendamise teel. Põhiteksti voltimiseks on välja töötatud spetsiaalsed meetodid:

a) statistilis-jaotusmeetodid tähendavad seda, et välja tuuakse kõige informatiivsemad laused, millesse on koondatud antud teksti jaoks olulisemad keelelised märgid;

b) semantiliste näitajate kasutamise meetodid, kui on märgitud teksti kõige tähendusrikkamad "punktid" - uurimisobjekt, eesmärk, meetodid, asjakohasus, ulatus, järeldused, tulemused; c) tekstilinkide meetod, mis seisneb selles, et fraasidevaheliste linkide arvestamine muudab abstrakti terviklikuks.

3. Praktiline terminoloogia.
Praktiline terminoloogia sisaldab jaotisi:

a) leksikograafiline terminoloogia, mis käsitleb erisõnastike loomise teooriat ja praktikat, terminisüsteemide ühendamist, terminite tõlkimist, terminoloogiliste andmepankade loomist, nende säilitamise ja töötlemise automatiseerimist.

b) leksikograafiast endast sai rakenduslingvistika kui praktilise keeleteaduse üks aeganõudvamaid liike. Sõnaraamatuid on loodud aastakümneid. Seetõttu on teadlaste soov leksikograafilist tegevust automatiseerida täiesti mõistetav. Seal on automaatsed sõnastikud. Nende eesmärk on tõsta tööviljakust tekstidega töötamisel, erinevate keeleüksuste kogumisel, talletamisel ja töötlemisel. Seda tüüpi sõnaraamatuid kasutatakse automaatsetes tekstitöötlussüsteemides.

Automaattõlge.

Automaat- ehk masintõlge lähtub eeldusest, et tüpoloogiliselt erinevaid keelestruktuure (sõnavara, sõnajärg, kääne, süntaktilised struktuurid) on võimalik ühtlustada. Tõlke keeleline põhimõte on võrrelda kahe või enama keele keeleühikuid, mis on tähenduselt samaväärsed.

Automaattõlkesüsteemide väljatöötamisel on kaks etappi. Esimeses etapis lahendati sellised masintõlke põhiprobleemid nagu automaatsete sõnaraamatute loomine, vahekeele arendamine, grammatika formaliseerimine, homonüümia ületamine ja idiomaatiliste moodustiste töötlemine. Teises etapis arenevad grammatika hulgateoreetilised mudelid, sõltuvuste grammatika mudelid, otsesed koostisosad ja generatiivse grammatika mudelid üsna viljakalt edasi ja kehastuvad praktikas. Sel perioodil on rakenduslingvistikas üha aktiivsemalt kaasatud semantika mudeli „tähendus – tekst” järgi. Kodu- ja välisülikoolides tekkinud rakenduslingvistika keskused töötavad välja masintõlke strateegiaid. Nende hulka kuuluvad Peterburi ülikooli matemaatilise lingvistika labor, Venemaa Teaduste Akadeemia rakendusmatemaatika instituudis; üleliiduline tõlkekeskus; Leningradi Pedagoogilise Instituudi kõnestatistika rühm Raymond Genrihhovitš Piotrovski juhtimisel; rühm süntaktilise modelleerimise "meele – teksti" uurimisele Igor Aleksandrovitš Meltšuki juhtimisel.

Masintõlke täiustamise uus etapp on seotud vahekeele – teadmiste esituskeele – kasutamisega. See põhineb sisendlause mõistmisel saadud lause tähenduse analüüsil, mida täiendatakse ja märgitakse teadmistebaasi teabe abil ja selle terminites. Tõlkeprotsess on keele X sisendlause muutmine keele Y väljundstruktuuriks. Teisisõnu ei ole masintõlke tulemuseks tõlge ise, vaid pigem lähteteksti (X) ümberjutustus. Tõlke kvaliteet sõltub teadmiste esituskeele efektiivsusest. Masintõlke kõrge kvaliteedi saab tagada vaid usaldusväärsete keeleliste aluste ja tarkvaravahendite loomisega automatiseeritud leksikonidel põhinevate võimsate semantiliste võrkude loomiseks.

IV. Etnolingvistika.

Etnolingvistika (etnosemantika, antropolingvistika) on keeleteaduse valdkond, mis uurib keele seost konkreetse etnilise rühma kultuuriga. Etnolingvistika alused pandi 20. sajandi esimesel veerandil Franz Boasi ja Edward Sapiri töödesse. 20. sajandi teisel poolel etnolingvistika kujunes iseseisvaks keeleteaduse haruks. 20. sajandi teise poole etnolingvistilised uurimused. mida iseloomustavad sellised tunnused nagu: eksperimentaalpsühholoogia meetodite ligitõmbamine; erinevate keelte semantiliste mudelite võrdlemine; rahvaste taksonoomia probleemide uurimine; paralingvistilised uuringud; vaimse etnilise kultuuri rekonstrueerimine keeleandmete põhjal; tähelepanu taaselustamine folkloorile.

Etnolingvistika kesksel kohal on kaks omavahel tihedalt seotud probleemi, mida võib nimetada "kognitiivseks" ja "kommunikatiivseks":

1. Kuidas, milliste vahendite abil ja millisel kujul peegelduvad seda keelt kõnelevate inimeste kultuurilised (kodused, religioossed, sotsiaalsed jne) ettekujutused ümbritsevast maailmast ja inimese kohast selles maailmas. keel?

2. Millised suhtlusvormid ja -vahendid – eelkõige keeleline suhtlus – on konkreetsele etnilisele või sotsiaalsele rühmale omased?

Nende probleemidega kooskõlas on etnolingvistikas tekkinud kaks suunda: kognitiivse suunitlusega etnolingvistika ja kommunikatiivse suunitlusega keeleteadus.

a) Kognitiivselt orienteeritud etnolingvistika.

Kognitiivse suunitlusega etnolingvistika on omane Ameerika keeleteadusele. Seda nimetatakse antropoloogiliseks lingvistikaks. Algselt keskendus antropoloogiline lingvistika Euroopa omast järsult erinevate rahvaste, eelkõige Ameerika indiaanlaste kultuuri uurimisele. Nende keeltevaheliste perekondlike sidemete loomine ja nende praeguse olukorra kirjeldamine oli nende rahvaste kultuuri terviklik kirjeldamine ja nende ajaloo, sealhulgas rändeteede rekonstrueerimine. Argi- ja rahvaluuletekstide jäädvustamine ja tõlgendamine oli antropoloogilise kirjelduse lahutamatu osa.

Järgides Franz Boast antropoloogilises lingvistikas, arvatakse, et reaalsuse klassifikatsiooni murdosalised fragmendid vastavad antud kultuuri olulisematele aspektidele. Nagu märgib Ameerika keeleteadlane ja antropoloog Harry Hoyer: „Jahi- ja korilusrahvastel, näiteks Ameerika edelaosas asuvatel apatšide hõimudel, on ulatuslik loomade ja taimede ning ka ümbritseva maailma nähtuste nimede sõnavara. Rahvastel, kelle peamiseks elatusallikaks on kalapüük (eelkõige Vaikse ookeani põhjaranniku indiaanlased), on oma sõnavaras üksikasjalik kalanimede kogum, samuti kalapüügivahendid ja -võtted.

Etnolingvistide suurimat tähelepanu pälvisid sellised taksonoomilised süsteemid nagu kehaosade tähistused, sugulusterminid, nn etno-bioloogilised klassifikatsioonid, see tähendab taimede ja loomade nimetused (inglise teadlane B. Berlin, Anna Vežbitskaja), ja eriti värvitähistused (B. Berlin ja P .Kay, A.Vežbitskaja).

Kaasaegses antropoloogilises etnolingvistikas võib tinglikult eristada “relativistlikke” ja “universalistlikke” suundi: esimese jaoks on prioriteediks kultuuriliste ja keeleliste eripärade uurimine kõneleja maailmapildis, teise jaoks universaalsete omaduste otsimine. loomulike keelte sõnavarast ja grammatikast.

Juri Derenikovitš Apresjani, Nina Davidovna Arutjunova, Anna Vežbitskaja, Tatjana Vjatšeslavovna Bulygina, Aleksei Dmitrijevitš Šmelevi, E. S. Jakovleva teosed, mis on pühendatud venekeelse maailmapildi eripäradele, võivad olla eeskujuks suhtelise suuna uurimisest. etnolingvistika. Need autorid analüüsivad sõnade tähendust ja kasutust, mis kas tähistavad unikaalseid mõisteid, mis ei ole tüüpilised maailma kontseptualiseerimiseks teistes keeltes (igatsus ja julge, võib-olla ja tõenäoliselt) või vastavad mõistetele, mis eksisteerivad teistes kultuurides, kuid on eriti olulised vene kultuuri jaoks või saavad eritõlgenduse (tõde ja tõde, vabadus ja tahe, saatus ja osa). Näiteks toome fragmendi sõna "võib-olla" kirjeldusest T. V. Bulygina ja A. D. Shmelevi raamatust "Maailma keeleline kontseptualiseerimine":

«<...>võib-olla ei tähenda sugugi sama, mis lihtsalt "võimalik" või "võib-olla".<...>Enamasti kasutatakse võibolla ettekäändeks ettevaatamatust, kui loodetakse mitte niivõrd mõne soodsa sündmuse toimumisele, vaid mõne äärmiselt soovimatute tagajärgede ärahoidmisele. Inimese kohta, kes loteriipileti ostab, ei ütle nad, et ta tegutseb juhuslikult. Nii et pigem võib öelda inimese kohta, kes<...>säästab raha sellega, et ei osta ravikindlustust ja loodab, et midagi hullu ei juhtu<...>Seetõttu ei ole lootus võimalusele ainult lootus heale õnnele. Kui õnne sümboliks on rulett, siis lootust võimalusele võib sümboliseerida “Vene rulett”.

Etnolingvistika universalistliku suuna uurimistöö näide on Poola teadlase Anna Wierzbicka töö, mis on pühendatud keeleliste tähenduste kirjeldamise põhimõtetele. A. Wiezhbitskaja ja tema järgijate aastatepikkuse uurimistöö eesmärk on luua nn semantiliste primitiivide, universaalsete elementaarmõistete kogum, mida kombineerides saab iga keel luua lõpmatu hulga konkreetsele keelele omaseid konfiguratsioone ja konfiguratsioone. kultuur. Semantilised primitiivid on leksikaalsed universaalid ehk teisisõnu sellised elementaarsed mõisted, mille kohta igas keeles on neid tähistav sõna. Need mõisted on iga keele emakeelena kõnelejale intuitiivselt selged ja nende põhjal saab koostada tõlgendusi mis tahes meelevaldselt keerukatest keeleüksustest. Uurides maailma geneetiliselt ja kultuuriliselt erinevate keelte, sealhulgas Paapua Uus-Guinea, austroneesia keelte, Aafrika keelte ja Austraalia aborigeenide ainestikku, täiendab A. Vežbitskaja pidevalt semantiliste primitiivide nimekirja. Tema töös Emotsionaalsete mõistete tõlgendamine loetletakse need järgmiselt:

"sisulised" - mina, sina, keegi, midagi, inimesed;
"determinaatorid ja kvantorid" - see, sama, sama, teine, üks, kaks, palju, kõik / kõik;
"mentaalsed predikaadid" - mõtle (umbes), räägi, tea, tunne, taha;
"tegevused ja sündmused" - tegema, juhtuma / juhtuma;
"hinnangud" - hea, halb;
"deskriptorid" - suured, väikesed;
"aeg ja koht" - millal, kus, pärast / enne, all / üle;
"metapredikaadid" - ei / ei / eitus, sest / tõttu, kui, et saaks;
"intensiivistaja" - väga;
"taksonoomia ja partonoomia" - liik / sort, osa;
“mitterangus / prototüüp” - sarnane / meeldib.

Semantilistest primitiividest nagu "tellistest" paneb A. Vežbitskaja kokku tõlgendusi isegi sellistest peentest mõistetest nagu emotsioonid. Näiteks õnnestub tal demonstreerida peent erinevust Ameerika kultuuri mõiste, mida tähistatakse sõnaga "õnnelik" ja venekeelse sõnaga "happy" (ja sarnaste poola, prantsuse ja saksa omadussõnade) vahel. Sõnal "õnnelik", nagu kirjutab A. Vežbitskaja, kuigi seda peetakse tavaliselt ingliskeelse sõna "happy" sõnastikus vasteks, on vene kultuuris kitsam tähendus, "tavaliselt kasutatakse seda haruldaste täieliku õndsuse või täiusliku seisundite tähistamiseks. rahulolu sellistest tõsistest asjadest nagu armastus, perekond, elu mõte jne. Siin on see erinevus sõnastatud semantiliste primitiivide keeles (tõlgenduse B komponendid, mis tõlgenduses A puuduvad, on esile tõstetud suurtähtedega).

Tõlgendus A: X tunneb end õnnelikuna
X tunneb midagi
minuga juhtus midagi head
ma tahtsin seda
Ma ei taha midagi muud
X tunneb midagi sellist

Tõlgendus B: X on õnnelik
X tunneb midagi
mõnikord mõtlevad inimesed nii:
minuga juhtus midagi väga head
ma tahtsin seda
KÕIK ON KORRAS
MA EI TAHA midagi muud
nii et see inimene tunneb midagi head
X tunneb midagi sellist

A. Vežbitskaja uurimisprogrammi jaoks on oluline, et universaalsete semantiliste primitiivide otsimine toimuks empiiriliselt, kasutades välilingvistika meetodeid – töötades koos informandiga: esiteks igas üksikus keeles, millist rolli see kontseptsioon mängib selgitatakse teiste mõistete tõlgendusi ja teiseks leitakse iga kontseptsiooni jaoks keelekomplekt, milles see mõiste on leksikaliseeritud, see tähendab, et seda mõistet väljendab spetsiaalne sõna.

B) Kommunikatiivse suunitlusega etnolingvistika.

Kommunikatiivselt orienteeritud etnolingvistika kõige olulisemad tulemused on seotud suunaga, mida nimetatakse "kõne etnograafiaks" või "kommunikatsiooni etnograafiaks". Kõneetnograafia kui teooria ja meetod keelekasutuse analüüsimiseks sotsiaalkultuurilises kontekstis pakuti välja 1960. aastate alguses. aastal D. Himesi ja John J. Gamperzi töödes ning arendasid välja Ameerika teadlase Aron Sikureli, J. Baumani, A.U. Corsaro. Ütlust uuritakse ainult seoses mõne kõne või suhtlussündmusega, mille raames see genereeritakse. Rõhutatakse mis tahes kõnesündmuste (jutlus, kohtuistung, telefonivestlus jne) kultuurilist tinglikkust. Keelekasutuse reeglid kehtestatakse olevikuvaatluse (kõneüritusel osalemise), spontaansete andmete analüüsi, antud keelt emakeelena kõnelejate intervjueerimise teel.

Selle suuna raames uuritakse konkreetses kultuuris, konkreetses etnilises või sotsiaalses rühmas omaks võetud kõnekäitumise mudeleid. Nii näiteks eeldab “Kesk-Euroopa standardi” kultuuris mitme inimese mitteametlik vestlus selles kogukonnas omaksvõetud etiketireeglite kohaselt, et osalejad ei sega üksteist, igaühele antakse võimalus räägi kordamööda, kes rääkida tahab, annab sellest tavaliselt märku sõnadega “las ma vaatan” , “Las ma küsin” jne. Need, kes soovivad vestluses osalejate hulgast lahkuda, annavad oma kavatsusest teada sõnadega “kahjuks pean minema”, “Pean korraks lahkuma” jne. Hoopis erinevad avaliku kõne käitumise normid on aktsepteeritud näiteks mitmetes Austraalia aborigeenide kultuurides. Vestluses osaleja individuaalsete õiguste austamine nendes kogukondades ei ole kohustuslik reegel: korraga võib rääkida mitu vestluskaaslast, teise väitele ei ole vaja reageerida, kõneleja räägib välja ilma konkreetselt kellegi poole pöördumata. , vestluskaaslased ei pruugi üksteisele otsa vaadata jne. Selline kõnekäitumise mudel lähtub esialgsest eeldusest, et kõik lausungid kuhjuvad kuidagi ümbritsevasse maailma ning seetõttu ei pea sõnumi “vastuvõtt” ilmtingimata kohe järgnema selle “edastamisele”.

Suhtlemise etnograafias on aktuaalne teema ka vestluspartnerite suhtelise sotsiaalse staatuse keelelise väljenduse uurimine: vestluspartneri poole pöördumise reeglid, sealhulgas pealkirjade kasutamine, pöördumised nime-, perekonnanime-, ees- ja isanime järgi, ametialane. pöördumised (näiteks “arst”, “seltsimees major”, “professor”), pöördumiste sobivus “teile” ja “teile” jne. Eriti tähelepanelikult on uuritud selliseid keeli, milles kõneleja ja kuulaja sotsiaalse positsiooni suhe on fikseeritud mitte ainult sõnavaras, vaid ka grammatikas. Näitena võib tuua jaapani keele, kus verbi grammatilise vormi valik sõltub sellest, kas kuulaja on sotsiaalses hierarhias kõnelejast kõrgemal või madalamal ning ka sellest, kas kõneleja ja kuulaja on samas sotsiaalses rakus või mitte. Lisaks võetakse arvesse ka kõneleja ja kõnealuse isiku vahelisi suhteid. Nende piirangute keerulise toime tulemusena kasutab üks ja sama isik alluvale viidates ja ülemusele viidates, kolleegile ja võõrale viidates, oma naisele viidates verbi erinevaid vorme ja naabri naine.

Grammatikas kajastub ka selline Jaapani kõneetiketi tunnusjoon nagu soov vältida sekkumist vestluspartneri mõtete ja tunnete sfääri. Jaapani keeles on verbil eriline grammatiline vorm - nn "soovitav meeleolu". Kasutades soovitava meeleolu järelliidet -tai, väljendab kõneleja soovi sooritada algverbiga näidatud tegevus: "lugema" + tai = "ma tahan lugeda", "lahkuda" + tai = "ma tahan lahkuda" . Siiski on ihaldusväärse meeleolu vormid võimalikud ainult siis, kui kõneleja kirjeldab oma soovi. Vestluspartneri või kolmanda isiku soov väljendatakse spetsiaalse konstruktsiooni abil, mis ligikaudu tähendab "välismärkide järgi võib järeldada, et isik X soovib sooritada toimingut Y". Seega saab jaapani keele kõneleja grammatika nõuete kohaselt anda hinnanguid ainult oma kavatsuste kohta. Otseseid väiteid teise inimese sisemise seisundi kohta, näiteks tema soovide kohta, keel lihtsalt ei võimalda. Võite öelda "Ma tahan ...", kuid te ei saa öelda "Kas sa tahad ..." või "Ta tahab ...", vaid ainult "Mulle tundub (mul on mulje), et sa tahad ..." .” või “Mulle tundub (mul on mulje), et ta tahab ...”.

Lisaks kõneetiketi normidele uurib suhtlusetnograafia ka teatud kultuurides ritualiseeritud kõnesituatsioone, nagu kohtuistung, väitekirja kaitsmine, kaubandustehing jms; keelevaliku reeglid keeltevahelises suhtluses; keelekonventsioonid ja klišeed, mis annavad märku, et tekst kuulub teatud žanrisse (“on kord” - muinasjuttudes, “kuulas ja otsustas” - koosoleku protokollis).

Kaasaegne etnolingvistika on tihedalt seotud sotsioloogia, psühholoogia ja semiootikaga. Vene etnolingvistikas on eriline koht etnolingvistika, rahvaluule ja võrdleva ajaloolise keeleteaduse ristumiskohas toimuval uurimistööl. Esiteks on see slaavi rahvaste (Nikita Iljitš Tolstoi, Svetlana Mihhailovna Tolstaja, Vladimir Nikolajevitš Toporov) etnokeelelisele ja etnokultuurilisele ajaloole pühendatud uurimisprogramm. Selle programmi raames koostatakse etnolingvistilisi atlaseid, kaardistatakse rituaale, uskumusi, folkloori; uuritakse teatud žanrite kodifitseeritud slaavi tekstide, sh loitsutekstide, mõistatuste, matuse- ja ehitusrituaalide jms ülesehitust seoses võrdleva ajaloo- ja arheoloogilise uurimistöö andmetega.

Süstematiseerimine keeleteaduses ja maailma rahvaste keeleline klassifikatsioon

Keelte ja kõnevormide sotsiolingvistiline (või funktsionaalne) klassifikatsioon

Arvutilingvistika(ka: matemaatilised või arvutuslingvistika, Inglise arvutuslingvistika) - tehisintellektisüsteemide loomisel inimeste ja loomade intellektuaalsete protsesside matemaatilise ja arvutimodelleerimise alane teadussuund, mille eesmärk on kasutada matemaatilisi mudeleid loomulike keelte kirjeldamiseks.

Arvutuslingvistika kattub loomuliku keele töötlemisega. Viimases aga ei ole rõhk abstraktsetel mudelitel, vaid arvutisüsteemide keele kirjeldamiseks ja töötlemiseks rakendatavatel meetoditel.

Arvutuslingvistide tegevusalaks on lingvistilise informatsiooni töötlemise algoritmide ja rakendusprogrammide väljatöötamine.

päritolu

Matemaatiline lingvistika on tehisintellekti teaduse haru. Selle ajalugu sai alguse Ameerika Ühendriikides 1950. aastatel. Transistori leiutamisega ja uue põlvkonna arvutite, aga ka esimeste programmeerimiskeelte tulekuga algasid katsed masintõlkega, eriti vene teadusajakirjade puhul. 1960. aastatel tehti sarnaseid uuringuid ka NSV Liidus (näiteks artikkel vene keelest armeenia keelde tõlkimisest 1964. aasta kogumikus "Küberneetika probleemid"). Masintõlke kvaliteet on aga endiselt palju halvem kui inimtõlke kvaliteet.

15. maist 21. maini 1958 toimus I Moskva Riiklikus Võõrkeelte Instituudis I üleliiduline masintõlkekonverents. Korralduskomiteed juhtisid V. Yu Rozentsveig ja korralduskomitee täitevsekretär G. V. Tšernov. Konverentsi täisprogramm on avaldatud kogumikus "Masintõlge ja rakenduslingvistika", kd. 1, 1959 (teise nimega Masintõlkeühingu bülletään nr 8). Nagu meenutab V. Yu Rozentsweig, jõudis avaldatud konverentside kokkuvõtete kogumik USA-sse ja jättis seal suure mulje.

1959. aasta aprillis toimus Leningradis esimene üleliiduline matemaatilise lingvistika konverents, mille kutsusid kokku Leningradi ülikool ja rakenduslingvistika komitee. Konverentsi peakorraldaja oli N. D. Andrejev. Koosolekust võtsid osa mitmed silmapaistvad matemaatikud, eelkõige S. L. Sobolev, L. V. Kantorovich (hilisem Nobeli preemia laureaat) ja A. A. Markov (kaks viimast kõnelesid debatis). Konverentsi avapäeval esines V. Yu Rozentsveig peaettekandega "Üldkeeleline tõlketeooria ja matemaatiline lingvistika".

Arvutuslingvistika suunad

Loomuliku keele töötlemine loomuliku keele töötlemine; teksti süntaktiline, morfoloogiline, semantiline analüüs). See hõlmab ka:

Korpuslingvistika, elektrooniliste tekstikorpuste loomine ja kasutamine
Elektrooniliste sõnaraamatute, tesauruste, ontoloogiate loomine. Näiteks Lingvo. Sõnaraamatuid kasutatakse näiteks automaattõlkeks, õigekirjakontrolliks.
Tekstide automaattõlge. Promt on vene tõlkijate seas populaarne. Google'i tõlge on tuntud tasuta tõlkija.
Faktide automaatne ekstraheerimine tekstist (teabe ekstraheerimine) fakti väljavõte, teksti kaevandamine)
autorefereerimine (inglise keeles) automaatne tekstikokkuvõte). See funktsioon sisaldub näiteks Microsoft Wordis.
Teadmusjuhtimise süsteemide loomine. Vaadake jaotist Ekspertsüsteemid
Küsimus-vastus süsteemide loomine küsimustele vastamise süsteemid).

optiline märgituvastus OCR). Näiteks FineReader
Automaatne kõnetuvastus ASR). Seal on tasuline ja tasuta tarkvara
Automaatne kõne süntees

Suuremad ühendused ja konverentsid

Õppeprogrammid Venemaal

Vaata ka

Kirjutage ülevaade artiklist "Arvutuslingvistika"

Märkmed

Lingid

(essee)
- vene keele keeleressursside teadmistebaas
- mõnede arvutuslingvistika utiliitide avatud lähtekoodiga
- Interneti-juurdepääs arvutuslingvistika programmidele

Arvutuslingvistikat iseloomustav väljavõte

"Võta, võta laps," ütles Pierre, andis tüdrukule ning pöördus tungivalt ja kiirustades naise poole. Andke need tagasi, andke tagasi! karjus ta peaaegu naise peale, pannes karjuva tüdruku pikali ja vaatas uuesti prantslastele ja armeenlaste perekonnale. Vanamees istus juba paljajalu. Väike prantslane võttis jalast viimase saapa ja patsutas saapaid üksteise vastu. Vanamees ütles nuttes midagi, kuid Pierre nägi seda vaid pilgu; kogu tema tähelepanu oli suunatud kapuutsis prantslasele, kes sel hetkel aeglaselt õõtsudes noore naise poole liikus ja käed taskust välja võttes naise kaelast kinni võttis.
Kaunis armeenlanna jätkas samas liikumatus asendis istumist, pikad ripsmed alla lastud ja justkui ei näeks ega tunneks, mida sõdur temaga teeb.
Samal ajal kui Pierre jooksis neid paar sammu, mis teda prantslastest eraldasid, rebis kapuutsis pikk marodöör juba armeenlanna kaelast kaelakeed, mis oli tal seljas ja kätega kaelast kinni hoidev noor naine karjus sisse. läbistav hääl.
– Laissez cette femme! [Jätke see naine maha!] Pierre krooksus meeletu häälega, haaras pika ümarõlgalise sõduri õlgadest ja viskas ta minema. Sõdur kukkus, tõusis püsti ja jooksis minema. Kuid tema seltsimees, kes viskas saapad alla, võttis välja kliki ja astus ähvardavalt Pierre'i poole.
Voyons, pas de betises! [Oh noh! Ära ole loll!] hüüdis ta.
Pierre oli selles raevu ekstaasis, milles ta ei mäletanud midagi ja milles ta jõud kümnekordistus. Ta sööstis paljajalu prantslase poole ja enne, kui ta jõudis oma nooli tõmmata, oli ta juba pikali löönud ja rusikatega peksnud. Ümbritsevast rahvahulgast kostis heakskiitvaid heakskiitvaid hüüdeid, samal ajal ilmus nurga taha prantsuse lantserite hobupatrull. Lancerid sõitsid Pierre'i ja prantslase juurde traaviga ning piirasid nad ümber. Pierre ei mäletanud järgnevast midagi. Talle meenus, et ta peksis kedagi, teda peksti ja et lõpuks tundis ta, et ta käed on seotud, et Prantsuse sõdurite hulk seisis tema ümber ja otsis tema kleiti.
– Il a un poignard, leitnant, [leitnant, tal on pistoda] – olid esimesed sõnad, millest Pierre aru sai.
Ah, une arm! [Ah, relvad!] - ütles ohvitser ja pöördus Pierre'iga kaasa võetud paljajalu sõduri poole.
- C "est bon, vous direz tout cela au conseil de guerre, [Olgu, okei, sa räägid kõik kohtuistungil] - ütles ohvitser. Ja siis pöördus ta Pierre'i poole: - Parlez vous francais vous? [Kas sa räägid prantsuse keelt?]
Pierre vaatas enda ümber verised silmadega ega vastanud. Tõenäoliselt tundus tema nägu väga hirmutav, sest ohvitser ütles midagi sosinal ja veel neli lanseri eraldusid meeskonnast ja seisid Pierre'i mõlemal küljel.
Parlez vous francais? kordas ohvitser talle küsimust, hoides temast eemale. - Faites venir l "interprete. [Kutsuge tõlk.] - Ridade tagant ratsutas välja väikemees vene tsiviilkleidis. Pierre tundis oma riietuse ja kõne järgi ta kohe ära kui prantslase ühest Moskva poest. .
- Il n "a pas l" air d "un homme du peuple, [Ta ei näe välja nagu tavainimene]," ütles tõlkija Pierre'i vaadates.
— Oh, oh! ca m "a bien l" air d "un des incendiaires," määris ohvitser. "Demandez lui ce qu" il est? [Oh oh! ta näeb välja nagu süütaja. Küsi temalt, kes ta on?] lisas ta.
- Kes sa oled? küsis tõlk. "Ametivõimud peaksid teile vastama," ütles ta.
- Je ne vous dirai pas qui je suis. Je suis votre vang. Emmenez moi, [ma ei ütle teile, kes ma olen. Olen teie vang. Vii mind ära, ütles Pierre äkki prantsuse keeles.
- Ah ah! ütles ohvitser kulmu kortsutades. — Marchons!
Lantserite ümber oli kogunenud rahvahulk. Pierre'ile kõige lähemal oli naine tüdrukuga; kui ümbersõit algas, liikus ta edasi.
"Kuhu nad sind viivad, mu kallis?" - ta ütles. - Tüdruk, kuhu ma siis tüdruku panen, kui ta pole nende oma! - ütles vanaema.
- Qu "est ce qu" elle veut cette femme? [Mida ta tahab?] küsis ohvitser.
Pierre oli nagu joodik. Tema vaimustunud olek süvenes veelgi, nähes tüdrukut, kelle ta oli päästnud.
"Ce qu" elle dit? - ütles ta. - Elle m "apporte ma fille que je viens de sauver des flammes," ütles ta. – Adieu! [Mida ta tahab? Ta kannab mu tütart, kelle ma tulest päästsin. Hüvasti!] - ja ta, ise teadmata, kuidas see sihitu vale temast välja pääses, läks otsustava, pühaliku sammuga prantslaste vahele.
Prantsuse patrull oli üks neist, kes saadeti Duroneli käsul läbi Moskva erinevate tänavate rüüstamisi maha suruma ja eelkõige tabama süütajaid, kes tol päeval kõrgemate auastmete prantslaste seas levinud üldise arvamuse kohaselt põhjustasid tulekahjud. Mitmel tänaval ringi rännanud patrull võttis kaasa veel viis kahtlast venelast, ühe poepidaja, kaks seminaristi, talu- ja õuemehe ning mitu marodööri. Kuid kõigist kahtlastest inimestest tundus Pierre kõige kahtlustavam. Kui nad kõik toodi ööbima Zubovsky Vali suurde majja, kus rajati valvemaja, pandi Pierre eraldi range valve alla.

Sel ajal käis Peterburis kõrgeimates ringkondades tulihingelisemalt kui kunagi varem Rumjantsevi, prantslaste, Maria Fjodorovna, Tsarevitši jt parteide vahel keerukas võitlus, mida uputas nagu alati nn. kohtudroonide trompet. Kuid rahulik, luksuslik, ainult kummitustest, elupeegeldustest hõivatud, läks Peterburi elu nagu enne; ja selle elukäigu tõttu tuli teha suuri jõupingutusi, et mõista ohtu ja keerulist olukorda, millesse vene rahvas sattus. Seal olid samad väljapääsud, ballid, sama prantsuse teater, samad kohtuhuvid, samad teenimis- ja intriigihuvid. Praeguse olukorra keerukust püüti meenutada ainult kõrgeimates ringkondades. Räägiti sosinal, kuidas vastastikku käitusid nii rasketes oludes mõlemad keisrinnad. Temale alluvate heategevus- ja õppeasutuste käekäigu pärast mures keisrinna Maria Feodorovna andis korralduse saata kõik asutused Kaasanisse ning nende asutuste asjad olid juba pakitud. Keisrinna Elizaveta Aleksejevna küsimusele, milliseid korraldusi ta tahab anda, vastas oma tavapärase vene patriotismiga, et ta ei saa anda korraldusi riigiasutuste kohta, kuna see puudutas suverääni; umbes sama asja kohta, mis temast isiklikult sõltub, kohus ta ütlema, et lahkub Peterburist viimasena.

KURSUSETÖÖ

erialal "informaatika"

teemal: "Arvutilingvistika"

SISSEJUHATUS

2. Arvutuslingvistika kaasaegsed liidesed

KOKKUVÕTE

KIRJANDUS

Sissejuhatus

Automatiseeritud infotehnoloogiad mängivad kaasaegse ühiskonna elus olulist rolli. Aja möödudes suureneb nende väärtus pidevalt. Kuid infotehnoloogia areng on väga ebaühtlane: kui arvutitehnoloogia ja kommunikatsiooni kaasaegne tase on hämmastav, siis semantilise teabe töötlemise valdkonnas on edu palju tagasihoidlikum. Need edusammud sõltuvad ennekõike saavutustest inimmõtlemise protsesside, inimestevahelise kõnesuhtluse protsesside uurimisel ja võimest neid protsesse arvutis simuleerida.

Täiustatud infotehnoloogiate loomisel tõusevad esile loomulikes keeltes esitatava tekstilise teabe automaatse töötlemise probleemid. Selle määrab asjaolu, et inimese mõtlemine on tema keelega tihedalt seotud. Pealegi on loomulik keel mõtlemise tööriist. See on ka universaalne suhtlusvahend inimeste vahel – info tajumise, kogumise, salvestamise, töötlemise ja edastamise vahend. Loomuliku keele kasutamise probleemidega automaatsetes infotöötlussüsteemides tegeleb arvutuslingvistika teadus. See teadus tekkis suhteliselt hiljuti - eelmise sajandi viiekümnendate ja kuuekümnendate aastate vahetusel. Viimase poole sajandi jooksul on arvutuslingvistika valdkonnas saavutatud olulisi teaduslikke ja praktilisi tulemusi: süsteemid tekstide masintõlkeks ühest loomulikust keelest teise, süsteemid tekstidest teabe automaatseks otsimiseks, süsteemid suulise keele automaatseks analüüsiks ja sünteesiks. kõne ja paljud teised on loodud. See töö on pühendatud optimaalse arvutiliidese loomisele, kasutades lingvistiliseks uurimistööks arvutuslingvistikat.

1. Arvutuslingvistika koht ja roll keeleteaduses

Kaasaegses maailmas kasutatakse arvutuslingvistikat üha enam erinevates keeleteaduslikes uuringutes.

Arvutuslingvistika on teadmiste valdkond, mis on seotud loomulikus keeles esitatava teabe automaatse töötlemise probleemide lahendamisega. Arvutuslingvistika kesksed teaduslikud probleemid on tekstide tähenduse mõistmise protsessi modelleerimise probleem (üleminek tekstilt selle tähenduse formaliseeritud esitusviisile) ja kõnesünteesi probleem (üleminek tähenduse formaliseeritud esitusviisilt tekstidele loomulikus vormis). keel). Need probleemid tekivad mitmete rakendusülesannete lahendamisel ja eelkõige tekstide arvutisse sisestamisel tekkinud vigade automaatse tuvastamise ja parandamise, suulise kõne automaatse analüüsi ja sünteesi, tekstide automaatse tõlkimise ühest keelest teise, suhtlemise probleemidega. loomulikus keeles arvuti, tekstidokumentide automaatne klassifitseerimine ja indekseerimine, nende automaatne viitamine, dokumentide otsimine täisteksti andmebaasidest.

Arvutuslingvistikas loodud ja kasutatavad keelevahendid võib tinglikult jagada kaheks: deklaratiivseks ja protseduuriliseks. Deklaratiivne osa sisaldab keele- ja kõneühikute sõnastikke, tekste ja erinevaid grammatikatabeleid, protseduuriline aga keele- ja kõneüksuste, tekstide ja grammatikatabelite manipuleerimise vahendeid. Arvutiliides viitab arvutuslingvistika protseduurilisele osale.

Arvutuslingvistika rakendusprobleemide lahendamise edukus sõltub ennekõike deklaratiivsete vahendite esitamise täielikkusest ja täpsusest arvuti mälus ning protseduuriliste vahendite kvaliteedist. Tänaseks ei ole nende probleemide lahendamisel veel nõutud taset saavutatud, kuigi töö arvutilingvistika vallas käib kõigis maailma arenenud riikides (Venemaa, USA, Inglismaa, Prantsusmaa, Saksamaa, Jaapan jne.). ).

Sellegipoolest võib märkida tõsiseid teaduslikke ja praktilisi saavutusi arvutuslingvistika vallas. Nii on paljudes riikides (Venemaa, USA, Jaapan jne) ehitatud eksperimentaalseid ja tööstuslikke süsteeme tekstide masintõlkeks ühest keelest teise, ehitatud mitmeid eksperimentaalseid süsteeme arvutitega loomulikus keeles suhtlemiseks. , käib töö terminoloogiliste andmepankade, tesauruste, kaks- ja mitmekeelsete masinsõnastike (Venemaa, USA, Saksamaa, Prantsusmaa jt) loomisega, ehitatakse suulise kõne automaatse analüüsi ja sünteesi süsteeme (Venemaa, USA, Jaapan jne). .), käivad uuringud loomulike keelte mudelite ehitamise alal.

Rakendusarvutuslingvistika oluliseks metodoloogiliseks probleemiks on tekstiinfo automaatse töötlemise süsteemide deklaratiivse ja protseduurilise komponendi vahelise vajaliku korrelatsiooni õige hindamine. Mida tuleks eelistada: võimsaid arvutusprotseduure, mis põhinevad suhteliselt väikestel sõnavarasüsteemidel, millel on rikkalik grammatiline ja semantiline teave, või võimas deklaratiivne komponent, millel on suhteliselt lihtsad arvutiliidesed? Enamik teadlasi usub, et eelistatav on teine viis. See viib kiiremini praktiliste eesmärkide saavutamiseni, kuna sel juhul on vähem ummikuid ja raskesti ületatavaid takistusi ning siin on võimalik arvuteid suuremas mahus kasutada teadus- ja arendustegevuse automatiseerimiseks.

Vajadust koondada jõupingutusi, eelkõige automaatsete tekstitöötlussüsteemide deklaratiivse komponendi arendamiseks, kinnitab poole sajandi pikkune kogemus arvutilingvistika arendamisel. Lõppude lõpuks, vaatamata selle teaduse vaieldamatule edule, ei toonud algoritmiliste protseduuride entusiasm oodatud edu. Mõningane pettumus oli isegi menetluslike vahendite võimalustes.

Eelneva valguses tundub paljutõotav selline arvutuslingvistika arendusviis, kus põhilised jõupingutused suunatakse võimsate keele- ja kõneühikute sõnastike loomisele, nende semantilis-süntaktilise struktuuri uurimisele ja loomisele. tekstide morfoloogilise, semantilis-süntaktilise ja kontseptuaalse analüüsi ja sünteesi põhiprotseduurid. See võimaldab tulevikus lahendada paljusid rakendusprobleeme.

Arvutuslingvistika ees seisavad eelkõige teabe kogumise, akumuleerimise, töötlemise ja otsimise protsesside keelelise toe ülesanded. Neist olulisemad on:

1. Masinasõnastike koostamise ja keelelise töötlemise automatiseerimine;

2. Tekstide arvutisse sisestamisel vigade tuvastamise ja parandamise protsesside automatiseerimine;

3. Dokumentide ja teabepäringute automaatne indekseerimine;

4. Dokumentide automaatne klassifitseerimine ja viitamine;

5. Infootsingu protsesside keeleline tugi ühe- ja mitmekeelsetes andmebaasides;

6. Tekstide masintõlge ühest loomulikust keelest teise;

7. Keeleprotsessorite ehitamine, mis võimaldavad kasutajatel suhelda automatiseeritud intelligentsete infosüsteemidega (eelkõige ekspertsüsteemidega) loomulikus keeles või sellele lähedases keeles;

8. Faktilise teabe väljavõtmine vormistamata tekstidest.

Vaatleme üksikasjalikult uurimisteemat puudutavatel probleemidel.

Teabekeskuste praktilises tegevuses on vaja lahendada tekstide arvutisse sisestamisel esinevate vigade automatiseeritud tuvastamise ja parandamise probleem. Selle keeruka ülesande võib tinglikult jagada kolmeks ülesandeks – tekstide õigekirja, süntaktilise ja semantilise kontrolli ülesanded. Neist esimest saab lahendada morfoloogilise analüüsi protseduuriga, mis kasutab üsna võimsat sõnatüvede viitemasinasõnastikku. Õigekirjakontrolli käigus allutatakse teksti sõnad morfoloogilisele analüüsile ja kui nende alused identifitseeritakse viitesõnastiku alustega, siis loetakse need õigeks; kui neid ei tuvastata, antakse need koos mikrokontekstiga inimesele vaatamiseks välja. Inimene tuvastab ja parandab moonutatud sõnu ning vastav tarkvarasüsteem teeb need parandused parandatud tekstis.

Tekstide süntaktilise kontrolli ülesanne nendes vigade tuvastamiseks on palju keerulisem kui nende õigekirjakontrolli ülesanne. Esiteks seetõttu, et see sisaldab oma koostises kohustusliku komponendina õigekirjakontrolli ülesannet, ja teiseks seetõttu, et vormistamata tekstide süntaktilise analüüsi probleem pole veel täielikult lahendatud. Sellegipoolest on tekstide osaline süntaktiline kontroll täiesti võimalik. Siin on kaks võimalust: kas koostada piisavalt esinduslikud masinsõnastikud viitesüntaktiliste struktuuride kohta ja võrrelda nendega analüüsitava teksti süntaktilisi struktuure; või töötada välja keeruline reeglite süsteem tekstielementide grammatilise järjepidevuse kontrollimiseks. Esimene viis tundub meile paljutõotavam, kuigi loomulikult ei välista see võimalust kasutada teise viisi elemente. Tekstide süntaktilist struktuuri tuleks kirjeldada sõnade grammatiliste klasside kaudu (täpsemalt sõnade grammatilise teabe kogumite jadade kujul).

Tehisintellekti ülesannete klassile tuleks omistada tekstide semantilise juhtimise ülesanne nendes semantiliste vigade tuvastamiseks. Täielikult saab seda lahendada ainult inimliku mõtlemise protsesside modelleerimise põhjal. Samal ajal on ilmselt vaja luua võimsaid entsüklopeedilisi teadmistebaase ja tarkvaratööriistu teadmistega manipuleerimiseks. Piiratud teemavaldkondade ja vormistatud teabe puhul on see probleem siiski üsna lahendatav. See tuleks püstitada ja lahendada tekstide semantilis-süntaktilise kontrolli ülesandena.

Dokumentide ja päringute indekseerimise automatiseerimise probleem on automaatsete tekstiotsingusüsteemide puhul traditsiooniline. Algul mõisteti indekseerimise all dokumentidele ja päringutele klassifitseerimisindeksite määramise protsessi, mis peegeldab nende temaatilist sisu. Tulevikus seda mõistet muudeti ja mõiste "indekseerimine" hakkas viitama dokumentide ja päringute kirjelduste tõlkimise protsessile loomulikust keelest formaliseeritud keelde, eriti "otsingupiltide" keelde. Dokumentide otsingupilte hakati reeglina koostama märksõnade ja fraaside loendite kujul, mis kajastavad nende temaatilist sisu, ning päringute kujutiste otsimist - loogiliste struktuuride kujul, milles märksõnad ja fraasid olid omavahel ühendatud loogiliste ja süntaktiliste operaatorite abil.

Dokumentide automaatset indekseerimist on mugav teostada vastavalt nende kokkuvõtete tekstidele (kui neid on), kuna dokumentide põhisisu kajastub kokkuvõtetes kontsentreeritud kujul. Indekseerimist saab teha tesauruse juhtimisega või ilma. Esimesel juhul otsitakse viitemasina sõnastiku märksõnu ja fraase dokumendi ja selle kokkuvõtte pealkirjast ning DOD-i kaasatakse ainult need, mis sõnastikust leitakse. Teisel juhul võetakse märksõnad ja fraasid tekstist välja ja lisatakse POD-i, olenemata sellest, kas need kuuluvad mõnda viitesõnastikku. Rakendati ka kolmas variant, kus koos masintesauruse terminitega hõlmas AML ka dokumendi pealkirjast ja esimesest lausest välja võetud termineid. Katsed on näidanud, et dokumentide pealkirjade ja kokkuvõtete põhjal automaatselt koostatud POD-id tagavad otsingu suurema täielikkuse kui käsitsi koostatud POD-id. Seda seletatakse asjaoluga, et automaatne indekseerimissüsteem kajastab dokumentide sisu erinevaid aspekte paremini kui käsitsi indekseerimise süsteem.

Päringute automaatse indekseerimisega tekivad ligikaudu samad probleemid, mis dokumentide automaatse indekseerimisega. Siin tuleb tekstist välja võtta ka märksõnad ja fraasid ning päringutekstis sisalduvad sõnad normaliseerida. Loogilisi seoseid märksõnade ja fraaside vahel ning kontekstuaalseid operaatoreid saab sisestada käsitsi või automatiseeritud protseduuri abil. Päringu automaatse indekseerimise protsessi oluline element on selle märksõnade ja fraaside lisamine nende sünonüümide ja hüponüümidega (mõnikord ka hüpernüümid ja muud algsete päringuterminitega seotud terminid). Seda saab teha automaatselt või interaktiivselt, kasutades masinatesaurust.

Oleme osaliselt juba käsitlenud dokumentaalse teabe otsimise automatiseerimise probleemi seoses automaatse indekseerimise ülesandega. Kõige lootustandvam on siin dokumentide otsimine täistekstide järgi, kuna selleks otstarbeks igasuguste asenduste (bibliograafilised kirjeldused, dokumentide otsingupildid ja nende kokkuvõtete tekstid) kasutamine toob kaasa teabe kadumise otsingu käigus. Suurimad kaod tekivad siis, kui nende bibliograafilisi kirjeldusi kasutatakse esmaste dokumentide asendajana, väikseimad - abstraktide kasutamisel.

Infootsingu kvaliteedi olulised omadused on selle täielikkus ja täpsus. Otsingu täielikkuse saab tagada, võttes võimalikult palju arvesse paradigmaatilisi seoseid keele ja kõne üksuste (sõnade ja fraaside) vahel ning täpsust - võttes arvesse nende süntagmaatilisi seoseid. Arvatakse, et otsingu täielikkus ja täpsus on pöördvõrdelises seoses: ühe neist omadustest parandavad meetmed põhjustavad teise halvenemist. Kuid see kehtib ainult fikseeritud otsinguloogika puhul. Kui seda loogikat parandada, saab mõlemat omadust üheaegselt parandada.

Täistekstandmebaasidest teabe otsimise protsess on soovitatav üles ehitada kasutaja ja teabeotsingusüsteemi (IPS) vahelise interaktiivse suhtluse protsessina, mille käigus ta vaatab järjestikku läbi tekstifragmente (lõike, lõike), mis rahuldavad loogikat. taotluse tingimused ja valib need, mis talle huvi pakuvad. Lõplike otsingutulemustena saab kuvada nii dokumentide täistekste kui ka nende fragmente.

Nagu eelnevatest kaalutlustest nähtub, tuleb info automaatsel otsimisel ületada keelebarjäär, mis tekib kasutaja ja IPS-i vahel tekstides toimuva samatähendusliku esitusvormide mitmekesisuse tõttu. See takistus muutub veelgi olulisemaks, kui peate otsima mitmekeelsetest andmebaasidest. Probleemi kardinaalne lahendus võib siin olla dokumentide tekstide masintõlge ühest keelest teise. Seda saab teha kas eelnevalt, enne dokumentide otsingumootorisse üleslaadimist või teabe otsimise protsessis. Viimasel juhul tuleb kasutaja päring tõlkida selle dokumendimassiivi keelde, milles otsing tehakse, ja otsingutulemused päringu keelde. Seda tüüpi otsingumootorid juba töötavad Internetis. VINITI RASis ehitati ka Cyrillic Browser süsteem, mis võimaldab otsida venekeelsetest tekstidest infot ingliskeelsete päringute kohta, kusjuures otsingutulemused kuvatakse ka kasutaja keeles.

Arvutuslingvistika oluline ja paljutõotav ülesanne on lingvistiliste protsessorite ehitamine, mis võimaldab kasutajatel suhelda intelligentsete automatiseeritud infosüsteemidega (eelkõige ekspertsüsteemidega) loomulikus keeles või sellele lähedases keeles. Kuna kaasaegsetes intelligentsetes süsteemides salvestatakse teavet formaliseeritud kujul, peavad keeleprotsessorid, kes tegutsevad vahendajana inimese ja arvuti vahel, lahendama järgmised põhiülesanded: 1) sisendteabepäringute ja -sõnumite loomuliku keele tekstidest liikumise ülesanne. nende tähenduse esitamiseks formaliseeritud keeles (teabe sisestamisel arvutisse); 2) üleminek väljundsõnumite tähenduse formaliseeritud esitusviisilt selle esitamisele loomulikus keeles (kui inimesele antakse teavet). Esimene ülesanne tuleks lahendada sisendpäringute ja -sõnumite morfoloogilise, süntaktilise ja kontseptuaalse analüüsiga, teine - väljundsõnumite kontseptuaalse, süntaktilise ja morfoloogilise sünteesiga.

Infopäringute ja -sõnumite kontseptuaalne analüüs seisneb nende kontseptuaalse struktuuri (mõistete nimede piirid ja mõistetevahelised seosed tekstis) tuvastamises ja selle struktuuri tõlkimises formaliseeritud keelde. See viiakse läbi pärast päringute ja sõnumite morfoloogilist ja süntaktilist analüüsi. Sõnumite kontseptuaalne süntees seisneb üleminekus nende struktuuri elementide esitamiselt formaliseeritud keeles verbaalsele (verbaalsele) esitusele. Pärast seda antakse sõnumitele vajalik süntaktiline ja morfoloogiline kujundus.

Tekstide masintõlkeks ühest loomulikust keelest teise on vaja mõistete nimetuste tõlkevastavuste sõnastikke. Teadmised selliste tõlkevastavuste kohta kogusid paljud põlvkonnad inimesi ja need anti välja eriväljaannete - kaks- või mitmekeelsete sõnaraamatute - kujul. Mingil määral võõrkeeli valdavatele spetsialistidele olid need sõnastikud väärtuslikeks abivahenditeks tekstide tõlkimisel.

Traditsioonilistes kaks- ja mitmekeelsetes üldsõnaraamatutes märgiti tõlkeekvivalendid peamiselt üksikutele sõnadele ja fraasidele - palju harvemini. Fraaside tõlkeekvivalentide märkimine oli tüüpilisem spetsiaalsete terminoloogiasõnastike jaoks. Seetõttu tekkis õpilastel polüsemantilisi sõnu sisaldavate tekstilõikude tõlkimisel sageli raskusi.

Allpool on toodud tõlkevastavused mitme inglis- ja venekeelse fraasipaari vahel "kooli" teemadel.

1) Nahkhiir näeb välja nagu tiibadega hiir – nahkhiir näeb välja nagu tiibadega hiir.

2) Lastele meeldib rannas liivas mängida – lastele meeldib rannas liiva sees mängida.

3) Vihmapiisk langes mu käele - Vihmapiisk langes mu käele.

4) Kuiv puit põleb kergesti – kuiv puit põleb hästi.

5) Ta teeskles, et ei kuule mind – Ta teeskles, et ei kuule mind.

Siin ei ole ingliskeelsed fraasid idiomaatilised väljendid. Sellegipoolest võib nende tõlget vene keelde pidada vaid mõne venitusega lihtsaks sõna-sõnaks tõlkeks, kuna peaaegu kõik neis sisalduvad sõnad on polüseemsed. Seetõttu saavad siin tudengeid aidata vaid arvutuslingvistika saavutused.

1. Tegevused loomulikku keelt puudutavate teadmiste vormistamiseks selle erinevatel tasanditel eesmärgiga kasutada seda arvutitehnoloogiates. 2. Teadmiste valdkond, mis lahendab loomulikus keeles inimese ja arvuti suhtluse probleeme. 3. Lai arvutitööriistade kasutusala - programmid, arvutitehnoloogiad andmete organiseerimiseks ja töötlemiseks - keele toimimise modelleerimiseks teatud tingimustes, olukordades, probleemkohtades.

Tehisintellekt on informaatika haru, mille eesmärk on arendada arvutisüsteeme, mis on võimelised täitma traditsiooniliselt intelligentseks peetud funktsioone, nagu loomuliku keele mõistmine, loogiline järeldamine, kogutud teadmiste kasutamine, õppimine, tegevuste planeerimine jne.

3. Lingvistilise analüüsi algoritmide konstrueerimine - loomuliku keele tekstide analüüsi algoritmide väljatöötamine kõigil keeletasanditel: foneemiline, morfeemiline, morfoloogiline, süntaktiline, pragmaatiline. Sõltuvuste süntaksipuu loomine (automaatse tekstitöötluse projekt)

4. Korpuslingvistika - tegeleb teksti(keele)korpuste arendamise, loomise ja kasutamisega. Vene keele riikliku korpuse veebisaidi avaleht

5. Masintõlge - teadusliku uurimistöö suund, mis on seotud automaatsete süsteemide ehitamisega tekstide tõlkimiseks ühest loomulikust keelest teise. Saidi avaleht Google-tõlkija

6. Automaatne kokkuvõte - programmide loomine loomuliku keele tekstide tihendatud esitlemiseks. Essee loomise teenus Visual Worldi veebisaidil

7. Infootsing täistekstiga - infootsingusüsteemide arendamine koos infomassiivi tekstide ja kasutaja päringu keelelise analüüsiga. Teabe avaleht - otsingumootor Yandex

ARVUTILINGvistika (arvutus inglise arvutilingvistikast), üks rakenduslingvistika valdkondi, milles arendatakse ja kasutatakse keele uurimiseks ja keele toimimise modelleerimiseks teatud tingimustes, olukordades arvutiprogramme, arvutitehnoloogiaid andmete organiseerimiseks ja töötlemiseks. ja probleemsed piirkonnad. Teisest küljest on see arvutikeele mudelite rakendusvaldkond lingvistikas ja sellega seotud distsipliinides. Erilise teadusliku suunana kujunes arvutuslingvistika Euroopa-uuringutes 1960. aastatel. Kuna ingliskeelset omadussõna computational võib tõlkida ka kui “arvutuslik”, leidub kirjanduses ka mõiste “arvutuslingvistika”, kuid kodumaises teaduses omandab see kitsama tähenduse, lähenedes mõistele “kvantitatiivne lingvistika”.

Mõistet “kvantitatiivne lingvistika” nimetatakse sageli arvutuslingvistikaks, mis iseloomustab rakendusuuringutes interdistsiplinaarset suunda, kus keele ja kõne uurimisel kasutatakse peamise vahendina kvantitatiivseid või statistilisi analüüsimeetodeid. Mõnikord vastandub kvantitatiivne (või kvantitatiivne) keeleteadus kombinatoorsele lingvistikale. Viimases on domineeriv "mittekvantitatiivne" matemaatiline aparaat - hulgateooria, matemaatiline loogika, algoritmide teooria jne. Teoreetilisest vaatenurgast võimaldab statistiliste meetodite kasutamine keeleteaduses täiendada keele struktuurimudelit tõenäosuskomponendiga, s.t luua teoreetiline struktuur-tõenäosusmudel, millel on oluline seletuspotentsiaal. Rakendusvaldkonnas esindab kvantitatiivset lingvistikat eelkõige selle mudeli fragmentide kasutamine, mida kasutatakse keele toimimise lingvistiliseks jälgimiseks, kodeeritud teksti dekodeerimiseks, teksti autoriseerimiseks / omistamiseks jne.

Mõistet "arvutuslingvistika" ja selle valdkonna probleeme seostatakse sageli suhtluse modelleerimisega ja ennekõike inimese suhtlemise pakkumisega arvutiga loomulikus või piiratud loomulikus keeles (selleks luuakse spetsiaalsed loomuliku keele töötlemise süsteemid). ), samuti teabeotsingumootorite (IPS) teooria ja praktikaga. Inimese ja arvuti vahelise suhtluse tagamist loomulikus keeles nimetatakse mõnikord "loomuliku keele töötlemiseks" (inglise keelest tõlge terminist Natural Language Processing). See arvutuslingvistika valdkond tekkis 1960. aastate lõpus välismaal ja arenes tehisintellektiks nimetatud teadusliku ja tehnoloogilise distsipliini raames (R. Schenki, M. Lebovitsi, T. Winogradi jt tööd). Oma tähenduses peaks väljend "loomuliku keele töötlemine" hõlmama kõiki valdkondi, kus keeleandmete töötlemiseks kasutatakse arvuteid. Praktikas on aga kinnistunud kitsam mõiste mõiste - meetodite, tehnoloogiate ja spetsiifiliste süsteemide väljatöötamine, mis tagavad suhtluse inimese ja arvuti vahel loomulikus või piiratud loomulikus keeles.

Teatud määral võib arvutuslingvistika hõlmata töid hüpertekstisüsteemide loomise valdkonnast, mida peetakse teksti eriliseks organiseerimisviisiks ja isegi põhimõtteliselt uut tüüpi tekstiks, mis on paljude omaduste poolest vastandunud Gutenbergi traditsioonis kujunenud tavatekstile. trükkimisest (vt Gutenberg).

Arvutuslingvistika hõlmab ka automaattõlget.

Arvutuslingvistika raames on välja kujunenud suhteliselt uus suund, mis on aktiivselt arenenud juba 1980. ja 90. aastatest alates - korpuslingvistika, kus töötatakse välja üldpõhimõtted keeleliste andmekorpuste (eelkõige tekstikorpuste) koostamiseks tänapäevaste arvutitehnoloogiate abil. Tekstikorpused on spetsiaalselt valitud raamatute, ajakirjade, ajalehtede jms tekstide kogud, mis on kantud masinkandjale ja mõeldud automaatseks töötlemiseks. Üks esimesi tekstikorpusi Ameerika inglise keele jaoks loodi Browni ülikoolis (nn Brown Corpus) aastatel 1962-63 W. Francise juhtimisel. Venemaal on alates 2000. aastate algusest Vene Teaduste Akadeemia V. V. Vinogradovi Vene Keele Instituudis välja töötatud vene keele rahvuskorpust, mis koosneb venekeelsete tekstide esinduslikust valimist mahuga umbes 100 tükki. miljon sõna kasutust. Korpuslingvistika tegeleb lisaks tegelikule andmekorpuste ehitamisele arvutivahendite (arvutiprogrammide) loomisega, mis on mõeldud tekstikorpustest mitmesuguse informatsiooni ammutamiseks. Kasutaja seisukohalt esitatakse tekstikorpustele nõuded esinduslikkusele (esinduslikkusele), terviklikkusele ja ökonoomsusele.

Arvutuslingvistika areneb aktiivselt nii Venemaal kui ka välismaal. Väljaannete voog selles valdkonnas on väga suur. Lisaks temaatilistele kogumikele ilmub Ameerika Ühendriikides alates 1984. aastast kord kvartalis ajakiri Computational Linguistics alates 1984. aastast. Palju organisatsioonilist ja teaduslikku tööd teeb Arvutuslingvistika Liit, millel on piirkondlikud struktuurid üle maailma (eelkõige Euroopa haru). Iga kahe aasta tagant toimuvad rahvusvahelised konverentsid COLINT (2008. aastal toimus konverents Manchesteris). Arvutuslingvistika põhisuundi käsitletakse ka iga-aastasel rahvusvahelisel konverentsil "Dialoog", mida korraldavad Venemaa Tehisintellekti Uurimise Instituut, Moskva Riikliku Ülikooli filoloogiateaduskond, Yandex ja hulk teisi organisatsioone. Vastavad teemad on laialdaselt esindatud ka erinevatel tasanditel tehisintellekti käsitlevatel rahvusvahelistel konverentsidel.

Lit .: Zvegintsev V. A. Teoreetiline ja rakenduslingvistika. M., 1968; Piotrovsky R. G., Bektaev K. B., Piotrovskaya A. A. Matemaatiline lingvistika. M., 1977; Gorodetsky B. Yu. Rakenduslingvistika tegelikud probleemid // Uus võõrkeeleteaduses. M., 1983. Väljaanne. 12; Kibrik A.E. Rakenduslingvistika // Kibrik A.E. Esseesid keeleteaduse üldistest ja rakenduslikest küsimustest. M., 1992; Kennedy G. Sissejuhatus korpuslingvistikasse. L., 1998; Bolšakov I.A., Gelbukh A. Arvutuslingvistika: mudelid, ressursid, rakendused. Mekh., 2004; Vene keele rahvuskorpus: 2003-2005. M., 2005; Baranov A. N. Sissejuhatus rakenduslingvistikasse. 3. väljaanne M., 2007; Arvutuslingvistika ja intelligentsed tehnoloogiad. M., 2008. Väljaanne. 7.