Ibiyi, Iwe giga ati awọn egbelegbe
Ohun ti o jẹ koposi Linguistics?
O kan kan diẹ ewadun seyin lati automate awọn ede iwadi, sayensi le nikan ala ti. Awọn iṣẹ ti a ṣe nipa ọwọ, o attracts kan ti o tobi nọmba ti omo ile, nibẹ ni a idaran ti o ṣeeṣe "careless" aṣiṣe, ati pataki julọ - gbogbo awọn yi si mu a gun, igba pipẹ.
Pẹlu awọn idagbasoke ti kọmputa ọna ẹrọ ti di ṣee ṣe lati se iwadi lori awọn aṣẹ ti bii yiyara, ati loni ọkan ninu awọn julọ ni ileri itọnisọna ni awọn iwadi ti ede ti wa ni a koposi Linguistics. Awọn oniwe-akọkọ ẹya-ara ni awọn lilo ti tobi oye akojo ti ọrọ alaye, alaye sinu kan nikan database, ni ona pataki kan si pè awọn ti o ti samisi ara.
Lati ọjọ, nibẹ ni o wa ọpọlọpọ awọn ile da pẹlu o yatọ si ìdí lori ilana ti awọn orisirisi ede awọn ohun elo ti leta ti lati milionu to mewa ti ọkẹ àìmọye ti lexical sipo. Yi itọsọna ti wa ni mọ bi awọn kan ni ileri ati ki o se afihan significant itesiwaju si ọna awọn ohun elo ati iwadi ti a ni. Amoye, ona kan tabi miiran olugbagbọ pẹlu adayeba ede, ti o ti wa ni niyanju lati gba acquainted pẹlu awọn ara ti awọn ọrọ ni o kere ni a ipilẹ ipele.
Itan ti koposi Linguistics
Awọn Ibiyi ti yi aṣa jẹ nitori awọn ẹda ti awọn United States ni Brown body ni ibẹrẹ 60-ranşẹ ti o kẹhin orundun. Awọn gbigba pẹlu awọn ọrọ ti gbogbo 1 million ti ọrọ fọọmu, ati loni awọn ara ti yi iwọn ni yio jẹ nibe uncompetitive. Eleyi jẹ ibebe nitori awọn Pace ti idagbasoke ti kọmputa ọna ẹrọ, bi daradara bi awọn dagba wáà fun titun iwadi oro.
Ninu awọn 90s koposi Linguistics emerged sinu kan ni kikun ati ominira discipline, a gbigba ti awọn ọrọ ti a ti kale si oke ati samisi fun dosinni ti awọn ede. Ni asiko yi ti o ti da, fun apẹẹrẹ, awọn British National koposi 100 million àmi.
Pẹlu awọn idagbasoke ti yi agbegbe ti Linguistics, ọrọ ipele ti wa ni di siwaju ati siwaju sii (o si de ọdọ ọkẹ àìmọye ti itumọ sipo), ati awọn ifilelẹ ti wa ni di diẹ Oniruuru. Lati ọjọ, awọn Internet aaye le ṣee ri okú kọ ati sọ ede, multilingual, ati eko-Oorun ọna tabi omowe litireso, bi daradara bi ọpọlọpọ awọn miiran eya.
Ohun ti o wa ni ile
Ara orisi ninu awọn ara Linguistics le wa ni pese fun orisirisi idi. Ènìyàn, ni igba fun awọn classification le jẹ a ọrọ ede (Russian, German), awọn wiwọle mode (ìmọ orisun, ni pipade, owo), awọn oriṣi ti awọn orisun ohun elo (itan, itan, eko, ise iroyin).
Awon ona gbogbo ohun elo ti sọ ede. Niwon awọn moomo gbigbasilẹ ti iru oro lati ṣẹda ohun Oríkĕ ayika fun awọn idahun, ati awọn Abajade awọn ohun elo ti ko le wa ni a npe ni "lẹẹkọkan", igbalode koposi Linguistics ti lọ ni ona miiran. A iyọọda ti wa ni ipese pẹlu a gbohungbohun, ati nigba ọjọ yi ni a gba awọn ti gbogbo awọn ibaraẹnisọrọ, ninu eyi ti o participates. Eniyan ni ayika, dajudaju, o le ko mọ pe ninu papa ti lojojumo ibaraẹnisọrọ takantakan si idagbasoke ti Imọ.
Lẹyìn náà gba gba awọn ti o ti fipamọ ni awọn database ki o si ti wa ni de pelu tejede ọrọ tiransikiripiti iru. Bayi, o di ṣee ṣe díjítà nilo lati ṣẹda ohun roba ojoojumọ ọrọ ile.
ohun elo
Nibikibi ti ṣee ṣe awọn lilo ti ede, ati boya awọn lilo ti awọn ile awọn ọrọ. Awọn ọna lati waye awọn Hollu ni Linguistics le jẹ:
- Ṣiṣẹda a eto ti npinnu awọn bọtini, ti wa ni o gbajumo ni lilo ninu iselu ati owo lati tọju abala awọn rere ati odi ti şe ti oludibo ati awọn onibara, lẹsẹsẹ.
- Asopọ alaye eto to itumo ati atúmọ lati mu won iṣẹ.
- A orisirisi ti iwadi awọn iṣẹ-ṣiṣe ti o tiwon si oye ti awọn ede kuro, awọn itan ti awọn oniwe-idagbasoke ati p awọn ayipada ninu awọn sunmọ iwaju.
- Idagbasoke ti alaye igbapada awọn ọna šiše da lori awọn ẹkọ eto-ara, syntactic, atunmọ ati awọn miiran awọn ẹya ara ẹrọ.
- Dara ju ti awọn ti o yatọ ede awọn ọna šiše ati awọn miran.
Lilo ti awọn ile
iru awọn oluşewadi ni wiwo pẹlu kan aṣoju search engine, o si ta awọn olumulo lati tẹ a ọrọ tabi apapo ti ọrọ lati wa fun awọn alaye mimọ. Yato si dagba awọn gangan ìbéèrè le lo awọn ti mu dara si ti ikede, eyi ti o gba lati ri textual alaye lori fere eyikeyi ede àwárí mu.
àwárí mimọ ni o le wa:
- ẹgbẹ ti kan pato egbe ti awọn ẹya ara ti oro;
- Gírámọ awọn ẹya ara ẹrọ;
- oro ijora;
- stylistic ati awọn ẹdun kikun.
O tun le darapọ àwárí àwárí mu fun ọkọọkan kan ti ọrọ, fun apẹẹrẹ, lati ri gbogbo occurrences ti awọn ìse ni bayi nira, akọkọ eniyan okan, eyi ti o wa lẹhin ti awọn preposition "ni" àti ọrọ orúkọ náà ni akusétifù nla. Awọn ojutu si iru kan ti o rọrun-ṣiṣe gba awọn olumulo kan diẹ aaya ati ki o nilo nikan kan diẹ Asin jinna ninu awọn pato aaye.
Awọn ilana ti ṣiṣẹda
Awọn search ara le ti wa ni ti gbe jade lori gbogbo awọn subcorpus ati ọkan pataki yàn, ti o da lori awọn aini ni iyọrisi kan pato ìlépa:
- Ni igba akọkọ ti Igbese ni lati setumo eyi ti ọrọ o dagba ni igba fun awọn nla. Fun fun ilowo ìdí, o ti wa ni nigbagbogbo lo iroyin, awọn iroyin itan, online comments. Awọn iwadi ise agbese jẹ awọn lilo ti kan jakejado orisirisi ti package orisi, ṣugbọn awọn ọrọ yẹ ki o wa yan ni ibamu si diẹ ninu awọn wọpọ ilẹ.
- Abajade gbigba ti awọn ọrọ tunmọ si pretreatment, nibẹ ni atunse ti aṣiṣe, ti o ba eyikeyi, pese sile nipa bibliographic ati afikun-ede apejuwe ti awọn ọrọ.
- Ti wa ni eliminated gbogbo awọn ti kii-textual alaye: clears awọn eya, awọn aworan, tabili.
- Jẹ ẹya ipin ti àmi, eyi ti o wa ni ojo melo ọrọ, fun siwaju processing.
- Níkẹyìn, o ti gbe ẹkọ eto-ara, syntactical ati awọn miiran markings gba ọpọ ti eroja.
Awọn esi ti gbogbo awọn lẹkọ ṣe nipasẹ a syntactic be pẹlu pin ninu rẹ a ọpọ ti eroja, kọọkan ti eyi ti o ti mọ ara ti ọrọ, Gírámọ ati, ni awọn igba miiran, awọn atunmọ eroja.
Isoro ni ṣiṣẹda ile
O ti wa ni pataki lati ni oye ti o ni ko to lati fi papo a ti ṣeto ti ọrọ tabi gbolohun fun ara. Lori awọn ọkan ọwọ, a gbigba ti awọn ọrọ yẹ ki o wa iwontunwonsi, ti o ni, soju yatọ si orisi ti awọn ọrọ ninu awọn ti yẹ. Lori awọn miiran - awọn awọn akoonu ti ti apade yẹ ki o wa B ni ona pataki kan.
Ni igba akọkọ ti isoro wa ni re nipa adehun: fun apẹẹrẹ, ninu awọn gbigba pẹlu 60% ti mookomooka awọn ọrọ, 20% ti documentaries, a kan ogorun ti ni a fun a kọ oniduro ti awọn sọ èdè, ofin, sayensi ise, ati be be lo pipe ohunelo iwontunwonsi body loni ko ni tẹlẹ ...
Awọn keji ibeere, niti awọn akoonu akọkọ, yanju nija. Nibẹ ni o wa pataki awọn eto ati aligoridimu lo fun laifọwọyi siṣamisi ti awọn ọrọ, sugbon ti won ko fun a pipe esi, o le fa disruptions ati ki o beere Afowoyi rework. Anfani ati awọn italaya ni awọn olugbagbọ pẹlu isoro yi wa ni apejuwe ninu apejuwe awọn ni a iwe V. P. Zaharova ti koposi Linguistics.
Text díjítà ni muse ni orisirisi awọn ipele, eyi ti a akojö ni isalẹ.
ẹkọ eto-ara tagging
Lati ile-iwe, a ranti wipe ninu awọn Russian ede, nibẹ ni o wa orisirisi awọn ẹya ti ọrọ, ati kọọkan ti wọn ni o ni awọn oniwe-ara abuda. Fun apẹẹrẹ, awọn fãbù ni o ni isori ti tẹri ati awọn akoko ni eyi ti ko si nọun. a abinibi agbọrọsọ lai beju declines nouns ati conjugate aláìlèsọ, sugbon lati samisi awọn ara ti 100 million. àmi Afowoyi laala yoo ko sise. Gbogbo awọn pataki mosi le ṣiṣẹ awọn kọmputa, sibẹsibẹ, fun yi o nilo lati wa kọ.
Ẹkọ eto-ara tagging, awọn kọmputa gbọdọ "ni oye" ọrọ kọọkan bi kan awọn ara ti oro nini awọn Gírámọ ẹya ara ẹrọ. Niwon awọn Russian (ati awọn eyikeyi miiran ede) nṣiṣẹ awọn nọmba kan ti deede ofin, o jẹ ṣee ṣe lati kọ ohun laifọwọyi ilana fun awọn ẹkọ eto-ara onínọmbà, idoko ni awọn ọkọ ayọkẹlẹ fun nọmba kan ti aligoridimu. Sibẹsibẹ, nibẹ ni o wa awọn imukuro si awọn ofin, bi daradara bi orisirisi complicating ifosiwewe. Bi awọn kan abajade, net kọmputa igbekale ti loni ni jina lati bojumu, ati paapa 4% aṣiṣe egbin kan iye ti 4 mln. Words lori ara ti 100 million. Sipo, to nilo Afowoyi rework.
Alaye iwe apejuwe awọn isoro Zaharova V. P. "koposi Linguistics".
syntactic atọka
Ìbòmọlẹ tabi Ìbòmọlẹ - a ilana ti o ipinnu awọn ibasepo ti ọrọ ninu gbolohun ọrọ. Lilo kan ti ṣeto ti aligoridimu jẹ ṣee ṣe lati mọ awọn ọrọ ti koko, predicate, awọn afikun, ọpọ wa ti oro. Ri jade eyi ti ọrọ o wa ni akọkọ ọkọọkan, ati eyi ti - ti o gbẹkẹle, a le fe jade alaye lati ọrọ ati lati kọ awọn ẹrọ lati oro ni esi lati kan search ìbéèrè nikan ni alaye ti awon wa.
Nipa ona, igbalode àwárí enjini lo yi lati fun jade kan pato awọn nọmba dipo ti gigun ọrọ ni esi si o yẹ yoowu ti bi "bi ọpọlọpọ awọn kalori ni ohun apple" tabi "awọn ijinna lati Moscow to St. Petersburg." Sibẹsibẹ, lati ni oye ani awọn ni ibere ti awọn ilana apejuwe nipasẹ awọn ye lati kan si alagbawo awọn "Ifihan si awọn koposi Linguistics" tabi awọn miiran ipilẹ tutorial.
atunmọ díjítà
Awọn oro ijora ti awọn ọrọ - ni, ni o rọrun awọn ofin, awọn itumo. Ni opolopo wulo ona si atunmọ igbekale ti a ọrọ Attribution afi, afihan re ohun ini si kan ti ṣeto ti atunmọ isori ati ẹkà. Iru alaye ni o niyelori fun silẹ aligoridimu itupalẹ ọrọ orin, laifọwọyi summarization ati awọn miiran awọn iṣẹ-ṣiṣe awọn ọna ti koposi Linguistics.
Nibẹ ni o wa nọmba kan ti "root" ti awọn igi, o nsoju ohun áljẹbrà ọrọ pẹlu kan gan jakejado oro ijora. Bi awọn kan ti eka ti awọn igi apa ti wa ni akoso, ti o ni siwaju ati siwaju sii kan pato lexical eroja. Fun apẹẹrẹ, awọn ọrọ "ẹdá" le wa ni nkan ṣe pẹlu iru awọn agbekale bi "eda eniyan" ati "eranko". Ni igba akọkọ ti ọrọ yoo tesiwaju lati eka jade sinu yatọ si oojo, kinship awọn ofin, abínibí, ati awọn keji - lori kilasi ati orisi ti eranko.
Awọn lilo ti alaye igbapada awọn ọna šiše
Awọn agbegbe ti lilo ti koposi Linguistics bo Oniruuru aaye ti aṣayan iṣẹ-ṣiṣe. Housings wa ni lilo fun igbaradi ati atunse ti itumo, ṣẹda otomatiki translation awọn ọna šiše, annotating, retrieving mon, ti npinnu awọn ohun orin ati awọn miiran ọrọ processing.
Ni afikun, iru oro ti wa ni actively lo ninu awọn iwadi ti aye ede ati ise sise ti gbigb'oorun ti ede ni apapọ. Access to tobi ipele ti ami-pese alaye sise dekun ati ki o okeerẹ iwadi ti awọn po si ti idagbasoke ede, ati idurosinsin Ibiyi neologisms ọrọ iyara ayipada iye lexical sipo ati awọn miran.
Niwon awọn iṣẹ pẹlu iru awọn tobi oye akojo ti data nbeere adaṣiṣẹ, loni nibẹ ni sunmọ ibaraenisepo laarin awọn kọmputa ati koposi Linguistics.
Russian National koposi
Idi eyi (abbreviated NKRYA) pẹlu nọmba kan ti subcorpus, gbigba awọn lilo ti a oluşewadi fun kan jakejado orisirisi ti awọn iṣẹ-ṣiṣe.
Awọn ohun elo ninu awọn database ti wa ni pin NKRYA:
- to jẹ ninu awọn media '90s ati 2000., mejeeji abele ati ajeji;
- gbigbasilẹ ọrọ;
- aktsentologicheski samisi ọrọ (i.e., awọn aami bẹ ti wahala);
- dialect ọrọ;
- oríkì;
- Ohun elo pẹlu syntactic ati awọn miiran markings.
Awọn alaye eto tun ni Subcorpus pẹlu iru ogbufọ ti iṣẹ lati Russian sinu English, German, French ati ọpọlọpọ awọn miiran ede (ati idakeji).
Tun ni awọn database nibẹ ni a apakan ti itan awọn ọrọ, o nsoju awọn ti a kọ oro ni Russian ni orisirisi awọn akoko ti awọn oniwe-idagbasoke. Wa ti tun kan ikẹkọ ara, eyi ti o le jẹ wulo fun ajeji ilu ni mastering ni Russian ede.
Russian National koposi marundinlogun 400 million lexical sipo, ati ni ọpọlọpọ awọn ọna niwaju ti a significant apa ti awọn ede ti Europe ara.
asesewa
O daju ni ojurere ti awọn ti idanimọ ti yi aṣa ni wiwa ti seleri yàrá koposi Linguistics ni Russian egbelegbe, bi daradara bi ajeji. Pẹlu awọn lilo ti ati iwadi ni awọn ilana ti alaye yi ati àwárí oro entails awọn idagbasoke ti awọn agbegbe ni awọn aaye ti o ga imo, ibeere-dahun awọn ọna šiše, sugbon o ti wa ni sísọ loke.
Siwaju idagbasoke ti koposi Linguistics wa ni ti anro ni gbogbo ipele, orisirisi lati imọ ati ni awọn ofin ti imuse ti titun aligoridimu ti o je ki awọn ilana ti wiwa ati processing alaye, ifiagbara awọn kọmputa, diẹ Ramu, ati lati onibara, nitori olumulo ni o wa siwaju ati siwaju sii ona lati lo yi iru awọn oluşewadi ni won ojoojumọ aye ati ise.
ni paripari
Ni arin ti o kẹhin orundun ni 2017 dabi enipe jina ojo iwaju, ni ibi ti spaceships ajo nipasẹ Agbaye ati roboti ṣe gbogbo iṣẹ fun awọn enia. Ni o daju, Imọ jẹ replete pẹlu "funfun to muna" ati ṣiṣe awọn desperate igbiyanju lati dahun awọn ibeere ti eda eniyan fun sehin disturbing. Ìbéèrè gbigb'oorun èdè nibi kun okan kan ibi ti ọlá, ati minisita ati isiro Linguistics le ran wa lati dahun wọn.
Processing ti o tobi data tosaaju le ri elo, tẹlẹ inaccessible, asọtẹlẹ awọn idagbasoke ti kan pato ede ẹya ara ẹrọ lati orin awọn Ibiyi ti ọrọ ni fere akoko gidi.
Lori a wulo ipele, awọn agbaye enclosures le ri, fun apẹẹrẹ, bi awọn kan ti o pọju ọpa lati se ayẹwo awọn àkọsílẹ iṣesi - awọn Internet ni a nigbagbogbo imudojuiwọn ojoojumọ igba orisirisi awọn ọrọ da nipa gidi awọn olumulo: yi comments ati agbeyewo, ati awọn ìwé, ati ọpọlọpọ awọn miiran pupo ti ọrọ.
Ni afikun, ṣiṣẹ pẹlu ara takantakan si idagbasoke ti awọn kanna hardware, ti o ti wa ni lowo ninu alaye igbapada, a wa ni faramọ pẹlu awọn iṣẹ "Google" tabi "Yandex", ẹrọ translation, itanna itumo.
A lè fẹnu sọ pe awọn koposi Linguistics mu nikan ni akọkọ awọn igbesẹ, ati ni awọn sunmọ iwaju yoo gbà.
Similar articles
Trending Now