tgoop.com/linearaggression/33
Last Update:
Dan Aierly, ягоны сабака і фальсіфікацыя дадзеных
#science
На гэтым тыдні распавяду вам пра тое, як навукоўцы фальсіфікуюць дадзеныя.
Ёсць такі эканаміст і псіхолаг Dan Aierly. Дэн - навуковец папулярны, ягоныя TED размовы глядзяць мільёны людзей, размовы ў гугле - сотні тысяч. Там ён распавядае пра кагнітыўныя скажэнні, ірацыянальнасць, чаму людзі хлусяць, дурнаватых мэйнстрымавых эканамістаў, пра іншыя модныя рэчы. Ягоныя працы працытаваныя 58 тысяч разоў.
Выглядае, што Дэн таксама выдумляе свае дадзеныя.
Зразумелі гэта на прыкладзе ягонага даследавання пра хлусню з прабегам аўтамабіляў. Пры розных справах са страхоўкамі ў вас могуць спытаць пра прабег. Людзі схільныя прабег заніжаць - каб павысіць шанцы на атрыманне выплат, напрыклад. Таму часам у канцы дамовы вас просяць падпісаць нешта кшталту “дадзеныя, якія я прадставіў, праўдзівыя”. Дэн прыдумаў гіпотэзу, што калі прасіць людзей падпісаць гэта перад тым, як запытваць пра прабег, а не ў самым канцы, людзі перастаюць хлусіць. І даказаў! - прабег у сярэднім пачаў вырастаць на 10.3% альбо на 3.862 кіламетры.
Цяпер, пра вясёлае.
1. Па-першае, у эксэль файле роўна 50% дадзеных у шрыфце Calibri, а іншыя 50% - у Cambria. Пры гэтым, на любога кліента страхавой у Calibri, можна знайсці амаль такога ж кліента ў шрыфце Cambria. Тобок увесь эксэль файл складаецца з кіроўцаў-двайнікоў - проста ў розных шрыфтах
2. Любы кіроўца ў шрыфце Cambria адрозніваецца ад свайго двайніка з Calibri на выпадковую велічыню ад 0 да 1000. Ну, як калі б нехта зрабіў Ctrl+C -> Ctrl+V, а потым, каб яго не злавілі, дадаў выпадковы лік ад нуля да тысячы да копіі
3. Калі б не розныя шрыфты, гэтага маглі б і не заўважыць. Але чаму розныя шрыфты? Хутчэй за ўсё, арыгінальныя дадзеныя ад страхавой кампаніі былі ў Calibri, а ўсе маніпуляцыі Дэн праводзіў на сваім камп'ютары з Cambria у эксэль ці іншай праграме, якой карыстаўся
4. Лікі ў гэтым эксэль файле агулам выглядаюць, як вынік рандомнага генератара. Калі ў людзей спытаць, колькі яны праехалі, нашмат больш людзей адкажа “нуу, 200.000 кіламетраў”, чым “нууу, 201.034 кіламетры”. А ў гэтых дадзеных месцамі няма пікаў на круглых лічбах
Але гэта яшчэ ладна - трэба было лезці і капацца. Калі вы лічыце, што навукоўцы часта пераправяраюць адзін за адным працу - гэта вы дарма. Пісаць арыгінальныя працы нашмат больш карысна для кар’еры, чым за кімьсці нешта правяраць, а калі правяраць усялякіх навуковых зорак, яны могуць у адказ паламаць табе кар’еру
Але ёсць у гэтым эксэль файле яшчэ больш смешнае. Ці Дэн адчаяны, ці яму проста пляваць, мне сказаць складана. Там ёсць размеркаванне кіламетражу за ~2 гады. Як людзі ездзяць на машынах? - нехта забіў і зусім не ездзіць, нехта ездзіць вельмі шмат, большасць ж ездзіць з сярэдняй інтэнсіўнасцю. Але ў Дэна ў дадзеных раўнамернае размеркаванне. Ну, кажучы проста, тых, хто праехаў адзін кіламетр за два гады прыкладна столькі ж, колькі тых, хто праехаў 100, 1.000, 10.000, ці 80.467 кіламетры (50.000 міль). Тых, хто праехаў больш, няма. Ну, тобок, як быццам б дадзеныя атрыманыя рандомным генератарам ад 0 да 50.000. Для таго, каб гэта пабачыць, трэба пабудаваць роўна адзін просты графік.
Гісторыя скончылася даволі стандартна для сучаснай акадэміі: артыкул адклікалі, Дэн сказаў “гэт не я”, ну і з большага ўсё. Узніклі пытанні і да іншых ягоных прац, але цяпер ён проста адказвае, што дадзеныя з’еў сабака згубіліся. Такія справы.
Прыемных TED і Google Talks відэа!
BY Лінейная (аг | рэг) рэсія
Share with your friend now:
tgoop.com/linearaggression/33