Mudrost (odabrane) gomile

Sve više i više tvrtki iskorištava mudrost svojih kupaca i korisnika - vrlo probrane publike. To čine putem "velikih podataka" - prikupljajući riznice anonimnih podataka i zatim na njima provodeći post-hoc analize.

Taj napor može dovesti do nekih zanimljivih uvida. Također može uzrokovati da tvrtke sugeriraju da su rezultati uopćeni za cijelu populaciju.

I upravo je ovo posljednje pitanje problem. Jer ako započnete s uzorkom koji ste sami odabrali, vaši su podaci relevantni samo za ljude poput njih, a ne za cijelu populaciju. To je samo jedan od problema s mjerenjem i poduzimanjem radnji na temelju informacija odabrane gomile.

Web stranice već gotovo 20 godina vrše mjerenja "velikih podataka". Svaki put kada posjetite web mjesto, ono ostavlja mali trag podataka na poslužitelju web mjesta. Vlasnici poslužitelja uzimaju ove podatke i pokreću ih putem platforme za analizu podataka (poput Google Analyticsa). Vlasniku web mjesta daje zbirne informacije o vrstama ljudi koji posjećuju njihovo web mjesto.

Budući da je svako web mjesto jedinstveno, takvi su uvidi relevantni samo za to web mjesto. Korisnik koji posjeti CNN, na primjer, može imati malo zajedničkog s korisnikom koji posjeti Match.com.

Problem odabrane gužve

U analizi podataka, statističari takvo uzorkovanje nazivaju "sam odabranim uzorkom", što rezultira problemom "pristranosti prema samoizboru". Jednostavno rečeno, to znači da budući da vaši podaci dolaze samo od ljudi koji koriste određenu aplikaciju ili vrstu društvenih mreža, oni nisu reprezentativni za populaciju u cjelini. A budući da nije reprezentativan za populaciju u cjelini, ne možete generalizirati podatke.

To nazivam problemom "odabrane gužve". Jer ako steknete svoju mudrost iz gomile, radije se pobrinite da ta gomila predstavlja populaciju ako iz nje pokušavate steći uopštene uvide.

Postoje cijele tvrtke koje ne rade ništa drugo nego analiziraju trendove i podatke s Twittera. Ali ako pogledate tko koristi Twitter - i kako ga koriste - odmah biste se zabrinuli što takvi podaci stvarno znače. Primjerice, korisnici Twittera puno su mlađi od opće populacije, a stariji su u velikoj mjeri nedovoljno zastupljeni. Ako vodite tvrtku koja na Twitteru gleda zdravstvene trendove, vidjet ćete nešto sasvim drugačije nego da ste proveli randomiziranu telefonsku anketu.

Drugim riječima, koji trendovi na Twitteru mogu ili ne moraju imati nikakvo značenje za 80+ posto Amerikanaca koji ne koriste Twitter.

Aplikacije nisu bolje

Aplikacije često vole prikupljati podatke svojih korisnika, anonimizirati ih, a zatim ih koristiti za usporedbu vaše izvedbe s drugima koji također koriste aplikaciju. Zbog ovoga bi se trebali osjećati kao da ste dio društvene mreže koja ima zajedničku aplikaciju. To je sjajna ideja.

Jer što ako samo određena vrsta osobe koristi tu određenu aplikaciju? Što ako samo depresivni ljudi koriste aplikaciju za praćenje raspoloženja namijenjenu izvlačenju ljudi iz depresije pomažući im u praćenju raspoloženja, uspoređujući svoj napredak s drugima koji također koriste aplikaciju? Takvi bi rezultati sami po sebi mogli biti nenamjerno depresivni.

Možete li pozitivno motivirati nekoga putem socijalne usporedbe? Možete, ali prečesto, istraživanje također pokazuje da takve socijalne usporedbe dovode do toga da se ljudi osjećaju lošije nego prije. To mora biti učinjeno izuzetno pažljivo - nešto što većina tipičnih programera aplikacija ne razumije.

Izostavljajući važne stvari za mjerenje

Bilo koja aplikacija ili usluga toliko su dobre kao ono što odabere za mjerenje. Možete uvesti pristranost - namjerno ili nenamjerno - u svoje rezultate onim što odlučite mjeriti - a ne mjeriti.

Razmislite ovako: razmišljate o preseljenju u novi grad s manje kiše, pa gledate samo prosječnu godišnju količinu kiše za različite gradove. Pogledali biste grad poput Miamija i pomislili: "Znate, ne selim se u Miami - kiša im padne gotovo 62 inča godišnje! Usporedite to s oskudnih 37 centimetara kiše koju Seattle dobije. Seattle mora biti sunčanije, manje kišovito mjesto. " Budući da u mjerenje niste uključili druge važne mjerne podatke, napravili biste pogrešan izbor na temelju previše ograničenih podataka.

Ono što programer aplikacije ili web mjesta smatra važnim za mjerenje nečega, zapravo ne mora biti toliko važno kao nešto što su izostavili. Zamislite aplikaciju koja je mjerila samo vašu reakciju na lijekove, ali je izostavila sve ostale važne čimbenike koji pridonose vašem raspoloženju i liječenju.

Liječenje se ne odvija u vakuumu s vama i jednim lijekom. Odvija se u bogatom, složenom ekosustavu koji može uključivati ​​lijek, ali uključuje i puno drugih važnih stvari koje činite kako biste si pomogli da se oporavite. To može biti koliko vježbate, ili ne promišljate, ili prođete nekoliko dana bez napada panike ili pod stresom zbog člana obitelji ili posla.

Ukratko, postoji bezbroj stvari koje bi trebale pratiti aplikacije i druge dobronamjerne usluge, ali nisu. I to daje iskrivljenu perspektivu kako je nešto što se mjeri povezano s nečijim raspoloženjem ili napretkom oporavka. Lijekovi su doista važni u liječenju mnogih ljudi, ali možda nisu - a često i nisu - najvažnija stvar.

!-- GDPR -->