Статыстычная класіфікацыя

З пляцоўкі testwiki
Перайсці да навігацыі Перайсці да пошуку

У статыстыцы класіфікацыя — задача вызначэння таго, да якой Шаблон:Нп5 адносіцца назіранне. Прыклады: аднясенне электроннага ліста да класа Шаблон:Нп5, а таксама прызначэнне дыягназу пацыенту на аснове яго характарыстык (пол, крывяны ціск, наяўнасць або адсутнасць пэўных сімптомаў і г.д.).

Часта асобныя назіранні аналізуюцца паводле набору ўласцівасцей, вядомых як тлумачальныя зменныя або прыкметы. Гэтыя ўласцівасці могуць быць катэгарыяльнымі (напрыклад, «A», «B», «AB» ці «O», для Шаблон:Нп5), Шаблон:Нп5 (напрыклад, «вялікі», «сярэдні» ці «маленькі»), цэлалікавымі (напрыклад, колькасць уваходжанняў пэўнага слова ў электронны ліст) або ў рэчаісназначнымі (напрыклад, крывяны ціск). Іншыя класіфікатары працуюць, параўноўваючы назіранні з папярэднімі назіраннямі з дапамогай функцыі Шаблон:Нп5 або Шаблон:Нп5.

Алгарытмы класіфікацыі, асабліва ў канкрэтнай рэалізацыі, завуцца класіфікатарамі. Тэрмін «класіфікатар» таксама часам адносіцца да матэматычнай функцыі, рэалізаванай у алгарытме класіфікацыі, якая суадносіць уваходныя даныя з катэгорыяй.

Тэрміналогія ў розных галінах можа розніцца. У статыстыцы, дзе класіфікацыя часта робіцца праз Шаблон:Нп5 ці падобную працэдуру, уласцівасці назіранняў завуцца тлумачальнымі зменнымі (або незалежнымі зменнымі, рэгрэсарамі, і г.д.), а прагназаваныя катэгорыі вядомыя як вынікі, якія прызнаюцца магчымымі значэннямі залежнай зменнай. У машынным навучанні, назіранні часта вядомыя як прыклады, тлумачальныя зменныя завуцца Шаблон:Нп5 (згуртаванымі ў вектары прыкмет), а магчымая катэгорыі класамі. Іншыя галіны могуць карыстацца іншай тэрміналогіяй, напрыклад у Шаблон:Нп5 тэрмінам «класіфікацыя» звычайна завецца Шаблон:Нп5.

Сувязь з іншымі задачамі

Класіфікацыя і кластарызацыя — прыклады больш агульнай праблемы Шаблон:Нп5, якая заключаецца ў прысваенні выхаднога значэння зададзенаму ўваходнаму значэнню. Іншыя прыклады — Шаблон:Нп5, якая прысвойвае рэчаіснае значэнне кожнаму запыту, Шаблон:Нп5, якая прысвойвае клас кожнаму элементу паслядоўнасці значэнняў (напрыклад, Шаблон:Нп5, якая вызначае часціну мовы кожнага слова ў сказе), Шаблон:Нп5, які будуе Шаблон:Нп5 сказа, і г.д.

Вядомы раздзел класіфікацыі — Шаблон:Нп5. Алгарытмы такога роду выкарыстоўваюць Шаблон:Нп5, каб класіфікаваць назіранне. У адрозненне ад іншых алгарытмаў, якія проста знаходзяць найбольш імаверны клас, імавернасны алгарытм вызначае імавернасць таго, што назіранне адносіцца да кожнага з магчымых класаў. Такі алгарытм мае мноства пераваг перад неімавернаснымі класіфікатарамі:

  • Паказвае ўзровень упэўненасці алгарытму ў выбраным класе.
  • Адпаведна, можа ўстрымацца ад выбару калі ўпэўненасць у кожным з класаў занадта нізкая.
  • Дзякуючы вызначаным імавернасцям, такі класіфікатар можа быць больш удала спалучаны з большымі сістэмамі машыннага навучання, часткова ці поўнасцю ўнікаючы праблемы пашырэння памылкі.

Частотныя метады

Першыя работы ў галіне статыстычнай класіфікацыі належаць Рональду Фішэру[1][2]. Ён працаваў над задачай класіфікацыі з двума класамі і стварыў метад лінейнага дыскрымінанта[3]. Фішэр дапускаў, што даныя кожнага з двух класаў маюць многавымернае нармальнае размеркаванне. Таксама разглядалася пашырэнне метаду на больш чым два класы з тым абмежаваннем, што функцыя класіфікацыі мусіць быць лінейнай[3][4]. Пазнейшыя працы для многавымернага нармальнага размеркавання дапускалі нелінейныя класіфікатары[5]: пэўныя правілы класіфікацыі могуць быць атрыманыя на аснове розных дапасаванняў Шаблон:Нп5, пры гэтым новае назіранне адносіцца да класу, цэнтр якога мае найменшую адлегласць ад назірання.

Баесаўскія метады

У адрозненне ад частотных метадаў, метады баесаўскай класіфікацыі забяспечваюць натуральны спосаб уліку любой даступнай інфармацыі аб адносных памерах розных класаў у генеральнай сукупнасці[6]. Баесаўскія працэдуры, як правіла, вылічальна дарагія, і да таго, як з’явіліся вылічэнні Шаблон:Нп5, былі распрацаваны набліжэнні для баесаўскіх правіл класіфікацыі[7].

Некаторыя баесаўскія метады знаходзяць Шаблон:Нп5: яны забяспечваюць больш інфарматыўны вынік, чым простае прысваенне адной меткі класа кожнаму новаму назіранню.

Бінарная і мнагакласавая класіфікацыя

Класіфікацыю можна разглядаць як дзве асобныя задачы — Шаблон:Нп5 і Шаблон:Нп5. У бінарнай класіфікацыі, больш зразумелай задачы, задзейнічаны толькі два класы, у той час як мнагакласавая класіфікацыя прадугледжвае прысваенне аб’екта аднаму з трох ці больш класаў[8]. Праз тое, што многія метады класіфікацыі былі распрацаваны адмыслова для бінарнай класіфікацыі, мнагакласавая класіфікацыя часта патрабуе супольнага выкарыстання некалькіх бінарных класіфікатараў.

Вектары прыкмет

Большасць алгарытмаў апісвае асобнае назіранне, клас якога павінны быць вызначаны з дапамогай вектара асобных, вымерных уласцівасцей назірання. Кожная ўласцівасць называецца Шаблон:Нп5, таксама вядомай у статыстыцы як тлумачальная зменная (або незалежная зменная, хоць прыкметы могуць быць статыстычна незалежнымі, а могуць і не быць). Прыкметы могуць быць Шаблон:Нп5 (напрыклад, «уключана» ці «выключана»), катэгарыяльнымі (напрыклад, «A», «B», «AB» ці «O», для Шаблон:Нп5), Шаблон:Нп5 (напрыклад, «вялікі», «сярэдні» ці «маленькі»), цэлалікавымі (напрыклад, колькасць уваходжанняў пэўнага слова ў электронны ліст) або ў рэчаісназначнымі (напрыклад, крывяны ціск). Калі назіранне гэта выява, значэнні прыкмет могуць адпавядаць яе пікселям; калі асобнік гэта фрагмент тэксту, значэннямі прыкмет могуць быць частоты з’яўлення розных слоў. Некаторыя алгарытмы працуюць толькі з дыскрэтнымі данымі і патрабуюць, каб рэчаісныя або цэлыя прыкметы былі разбіты на групы (напрыклад, менш за 5, паміж 5 і 10 або больш за 10).

Лінейныя класіфікатары

Вялікая колькасць алгарытмаў для класіфікацыі можа быць сфармулявана ў тэрмінах лінейнай функцыі, якая прысвойвае ацэнку кожнаму магчымаму класу k шляхам Шаблон:Нп5 вектара прыкмет назірання з вектарам вагаў, выкарыстоўваючы скалярны здабытак. У выніку назіранне адносіцца алгарытмам да класа з найбольшай ацэнкай. Гэты тып ацэначнай функцыі вядомы як Шаблон:Нп5 і мае наступны агульны выгляд: score(𝐗i,k)=βk𝐗i, дзе 𝐗i — вектар прыкмет для назірання i, βk — вектар вагаў, адпаведных класу k, а Шаблон:Math — ацэнка аднясення назірання i да класа k. У тэорыі Шаблон:Нп5, дзе назіранні ўяўляюць людзей, а класы ўяўляюць выбары, адзнака будзе карыснасцю выбару k чалавекам i. Алгарытмы з такой базавай устаноўкай вядомыя як Шаблон:Нп5. Іх адрознівае працэдура вызначэння (навучання) аптымальных вагаў/каэфіцыентаў і спосаб інтэрпрэтацыі ацэнак. Прыклады такіх алгарытмаў:

Алгарытмы

Ніводная форма класіфікацыі не падыходзіць для ўсіх набораў даных, таму быў распрацаваны вялікі набор алгарытмаў класіфікацыі. Найбольш часта выкарыстоўваюцца:

Ацэнка якасці

Эфектыўнасць класіфікатара ў значнай ступені залежыць ад характарыстык даных, якія трэба класіфікаваць. Не існуе адзінага класіфікатара, які лепш за ўсё працуе для ўсіх задач (феномен, які можна растлумачыць Шаблон:Нп5). Былі праведзены розныя эмпірычныя выпрабаванні для параўнання эфектыўнасці класіфікатараў і пошуку характарыстык даных, якія вызначаюць эфектыўнасць класіфікатара. Вызначэнне найлепшага класіфікатара для пэўнай задачы, аднак, больш мастацтва чым навука.

Шаблон:Нп5 — папулярныя паказчыкі, якія ўжываюцца для ацэнкі якасці сістэмы класіфікацыі. Шаблон:Нп5 прымяняюцца для ацэнкі кампрамісу паміж праўдзіва і хібна пазітыўнымі вынікамі алгарытмаў класіфікацыі.

У якасці меры эфектыўнасці Шаблон:Нп5 мае перавагу перад простай Шаблон:Нп5 ў тым, што на яго не ўплываюць адносныя памеры розных класаў[9]. Акрамя таго, гэты каэфіцыент не штрафуе алгарытм за перастаноўку класаў.

Сферы прымянення

Класіфікацыя мае шмат сфер прымянення. У некаторых з іх яна выкарыстоўваецца ў якасці працэдуры здабывання даных, у той час як у іншых праводзіцца больш дэталёвае статыстычнае мадэляванне.

Шаблон:Зноскі Шаблон:Бібліяінфармацыя

  1. Шаблон:Cite journal
  2. Шаблон:Cite journal
  3. 3,0 3,1 Gnanadesikan, R. (1977) Methods for Statistical Data Analysis of Multivariate Observations, Wiley. Шаблон:ISBN (p. 83—86)
  4. Rao, C.R. (1952) Advanced Statistical Methods in Multivariate Analysis, Wiley. (Section 9c)
  5. Anderson, T.W. (1958) An Introduction to Multivariate Statistical Analysis, Wiley.
  6. Шаблон:Cite journal
  7. Шаблон:Cite journal
  8. Har-Peled, S., Roth, D., Zimak, D. (2003) «Constraint Classification for Multiclass Classification and Ranking.» In: Becker, B., Thrun, S., Obermayer, K. (Eds) Advances in Neural Information Processing Systems 15: Proceedings of the 2002 Conference, MIT Press. Шаблон:ISBN
  9. Шаблон:Cite journal