Моўная мадэль
Моўная мадэль (Шаблон:Lang-en) — гэта імавернасная мадэль натуральнай мовы[1]. Першая значная статыстычная моўная мадэль была прапанавана ў 1980 годзе і цягам дзесяцігоддзя кампанія IBM правяла шэраг эксперыментаў у «стылі Шэнана» (Shannon-style), у якіх патэнцыйныя крыніцы для паляпшэння мадэлявання моў вызначаліся праз назіранне і аналіз здольнасці людскіх падвопытных прадказваць або выпраўляць тэксты[2].
Моўныя мадэлі карысныя для розных задач, у тым ліку для распазнаванне маўлення[3] (дапамагаючы прадухіліць прадказанні малаімаверных, напрыклад, бессэнсоўных, паслядоўнасцей), машыннага перакладу[4], Шаблон:Нп5 (стварэнне тэксту, найбольш падобнага на чалавечы), Шаблон:Нп5, Шаблон:Нп5[5], Шаблон:Нп5[6]. і Шаблон:Нп5[7][8].
Шаблон:Нп5 з’яўляюцца сёння найбольш прасунутай іх формай, з’яўляючыся камбінацыяй большых набораў даных (часта выкарыстоўваючы словы, узятыя з агульнадаступнага інтэрнэту), Шаблон:Нп5 і Шаблон:Нп5. Яны замянілі сабой мадэлі, заснаваныя на Шаблон:Нп5,якія раней замянілі чыста-статыстычныя мадэлі, такія як Шаблон:Нп5.
Чыста-статыстычныя мадэлі
Мадэлі, заснаваныя на слоўных n-грамах
Экспаненцыйныя
Моўныя мадэлі з Шаблон:Нп5 кадзіруюць узаемаадносіны паміж словам і гісторыяй n-грама, ужываючы функцыі адзнак. Ураўненне будзе мець наступны выгляд
дзе — гэта Шаблон:Нп5, — гэта вектар параметраў, а — функцыя адзнак. У найпрасцейшым выпадку функцыя адзнак будзе індыкатарам прысутнасці пэўнага n-грама. Карысна ўжываць Шаблон:Нп5 на або нейкую форму Шаблон:Нп5.
Лог-білінейная мадэль — яшчэ адзін прыклад экспаненцыйнай моўнай мадэлі.
Нейронныя мадэлі
Рэкурэнтныя нейронныя сеткі
Бесперарыўныя прадстаўленні або Шаблон:Нп5 ствараюцца ў моўных мадэлях, заснаваных на Шаблон:Нп5 (вядомыя таксама як моўныя мадэлі з бесперапыннай прасторай).[9] Такія ўбудаванні ў бесперапыннай прасторы дапамагаюць змякчыць Шаблон:Нп5, які з’яўляецца следствам таго, што колькасць магчымых паслядоўнасцей слоў павялічваецца ў Шаблон:Нп5 разам з памерам слоўнікавага запасу, што ў будучым выклікае праблему разрэджанасці даных. Нейронныя сеткі абыходзяць гэту праблему прадстаўляючы словы як нелінейныя камбінацыя вагаў у нейроннай сетцы.[10]
Вялікія моўныя мадэлі
Ацэнка і параўнаўчыя тэсты
Ацэнка якасці моўных мадэляў часцей робіцца праз параўнанне створаных чалавекам з тыпічных моўна-арыентаваных задач эталонаў. Іншыя, менш рэгламентаваныя тэсты якасці даследуюць унутраны характар моўнай мадэлі або параўноўваюць дзве такія мадэлі. Паколькі ў моўных мадэлях звычайна закладаецца іх дынамічнасць і навучанне з даных, якія яны бачаць, некаторыя прапанаваныя мадэлі даследуюць хуткасць навучання, напр., шляхам праверкі крывых навучання.[11]
Для ацэнкі сістэм апрацоўкі мовы былі распрацаваны розныя наборы даных[12]. Да іх адносяцца:
- Корпус лінгвістычнай прымальнасці[13]
- GLUE benchmark[14]
- Microsoft Research Paraphrase Corpus[15]
- Шматжанравае мадэляванне вываду на натуральнай мове
- Пытанні праз інтэрфейсы на натуральнай мове
- Пары пытанняў-адказаў Quora[16]
- Распазнаванне імпліцытных ведаў у тэкстах[17]
- Эталон семантычнага тэкставага падабенства
- Тэст адказу на пытанні SQuAD[18]
- Stanford Sentiment Treebank[19]
- Winograd NLI
- BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (Massive Multitask Language Understanding), BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs.[20] (LLaMa Benchmark)
Крыніцы
Дадатковая літаратура
Шаблон:Refend Шаблон:Ізаляваны артыкул
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Kuhn, Roland, and Renato De Mori (1990). "A cache-based natural language model for speech recognition". IEEE transactions on pattern analysis and machine intelligence 12.6: 570–583.
- ↑ Andreas, Jacob, Andreas Vlachos, and Stephen Clark (2013). "Semantic parsing as machine translation" Шаблон:Webarchive. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers).
- ↑ Pham, Vu, et al (2014). "Dropout improves recurrent neural networks for handwriting recognition" Шаблон:Webarchive. 14th International Conference on Frontiers in Handwriting Recognition. IEEE.
- ↑ Htut, Phu Mon, Kyunghyun Cho, and Samuel R. Bowman (2018). "Grammar induction with neural language models: An unusual replication" Шаблон:Webarchive. Шаблон:ArXiv.
- ↑ Шаблон:Cite conference
- ↑ Шаблон:Cite conference
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite encyclopedia
- ↑ Шаблон:Citation
- ↑ Шаблон:Cite arXiv
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Citation
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ Шаблон:Citation