Моўная мадэль

З пляцоўкі testwiki
Перайсці да навігацыі Перайсці да пошуку

Шаблон:Short description

Моўная мадэль (Шаблон:Lang-en) — гэта імавернасная мадэль натуральнай мовы[1]. Першая значная статыстычная моўная мадэль была прапанавана ў 1980 годзе і цягам дзесяцігоддзя кампанія IBM правяла шэраг эксперыментаў у «стылі Шэнана» (Shannon-style), у якіх патэнцыйныя крыніцы для паляпшэння мадэлявання моў вызначаліся праз назіранне і аналіз здольнасці людскіх падвопытных прадказваць або выпраўляць тэксты[2].

Моўныя мадэлі карысныя для розных задач, у тым ліку для распазнаванне маўлення[3] (дапамагаючы прадухіліць прадказанні малаімаверных, напрыклад, бессэнсоўных, паслядоўнасцей), машыннага перакладу[4], Шаблон:Нп5 (стварэнне тэксту, найбольш падобнага на чалавечы), Шаблон:Нп5, Шаблон:Нп5[5], Шаблон:Нп5[6]. і Шаблон:Нп5[7][8].

Шаблон:Нп5 з’яўляюцца сёння найбольш прасунутай іх формай, з’яўляючыся камбінацыяй большых набораў даных (часта выкарыстоўваючы словы, узятыя з агульнадаступнага інтэрнэту), Шаблон:Нп5 і Шаблон:Нп5. Яны замянілі сабой мадэлі, заснаваныя на Шаблон:Нп5,якія раней замянілі чыста-статыстычныя мадэлі, такія як Шаблон:Нп5.

Чыста-статыстычныя мадэлі

Мадэлі, заснаваныя на слоўных n-грамах

Шаблон:Асноўны артыкул

Экспаненцыйныя

Моўныя мадэлі з Шаблон:Нп5 кадзіруюць узаемаадносіны паміж словам і гісторыяй n-грама, ужываючы функцыі адзнак. Ураўненне будзе мець наступны выгляд

P(wmw1,,wm1)=1Z(w1,,wm1)exp(aTf(w1,,wm))

дзе Z(w1,,wm1) — гэта Шаблон:Нп5, a — гэта вектар параметраў, а f(w1,,wm) — функцыя адзнак. У найпрасцейшым выпадку функцыя адзнак будзе індыкатарам прысутнасці пэўнага n-грама. Карысна ўжываць Шаблон:Нп5 на a або нейкую форму Шаблон:Нп5.

Лог-білінейная мадэль — яшчэ адзін прыклад экспаненцыйнай моўнай мадэлі.

Нейронныя мадэлі

Рэкурэнтныя нейронныя сеткі

Бесперарыўныя прадстаўленні або Шаблон:Нп5 ствараюцца ў моўных мадэлях, заснаваных на Шаблон:Нп5 (вядомыя таксама як моўныя мадэлі з бесперапыннай прасторай).[9] Такія ўбудаванні ў бесперапыннай прасторы дапамагаюць змякчыць Шаблон:Нп5, які з’яўляецца следствам таго, што колькасць магчымых паслядоўнасцей слоў павялічваецца ў Шаблон:Нп5 разам з памерам слоўнікавага запасу, што ў будучым выклікае праблему разрэджанасці даных. Нейронныя сеткі абыходзяць гэту праблему прадстаўляючы словы як нелінейныя камбінацыя вагаў у нейроннай сетцы.[10]

Вялікія моўныя мадэлі

Шаблон:Асноўны артыкул

Ацэнка і параўнаўчыя тэсты

Ацэнка якасці моўных мадэляў часцей робіцца праз параўнанне створаных чалавекам з тыпічных моўна-арыентаваных задач эталонаў. Іншыя, менш рэгламентаваныя тэсты якасці даследуюць унутраны характар моўнай мадэлі або параўноўваюць дзве такія мадэлі. Паколькі ў моўных мадэлях звычайна закладаецца іх дынамічнасць і навучанне з даных, якія яны бачаць, некаторыя прапанаваныя мадэлі даследуюць хуткасць навучання, напр., шляхам праверкі крывых навучання.[11]

Для ацэнкі сістэм апрацоўкі мовы былі распрацаваны розныя наборы даных[12]. Да іх адносяцца:

  • Корпус лінгвістычнай прымальнасці[13]
  • GLUE benchmark[14]
  • Microsoft Research Paraphrase Corpus[15]
  • Шматжанравае мадэляванне вываду на натуральнай мове
  • Пытанні праз інтэрфейсы на натуральнай мове
  • Пары пытанняў-адказаў Quora[16]
  • Распазнаванне імпліцытных ведаў у тэкстах[17]
  • Эталон семантычнага тэкставага падабенства
  • Тэст адказу на пытанні SQuAD[18]
  • Stanford Sentiment Treebank[19]
  • Winograd NLI
  • BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (Massive Multitask Language Understanding), BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs.[20] (LLaMa Benchmark)

Крыніцы

Шаблон:Reflist

Дадатковая літаратура

Шаблон:Refbegin

Шаблон:Refend Шаблон:Ізаляваны артыкул