Парадоксът на Симпсън "доказва", че пушенето е добро за вас
Как може да докажете, че пушенето не само не вреди, а дори помага на здравето ви? Като използвате Парадокса на Симпсън, разбира се.
Той показва, че големите масиви от събрани данни всъщност могат да имат много по-малка стойност отколкото сбора от техните части. Ако ние сме тютюнев производител и искаме да докажем, че пушенето е добро за вас, трябва да направим само две неща. Първо, да заглушим гузната си съвест и второ, да погледнем едно проучване, направено във Великобритания в началото на 70-те години.
Целта на проучването е да изследва как различните фактори влияят на здравето на хората. Покрай останалото то изследва и пушенето и това дали цигарите имат някакви ефекти върху здравето. В частност проучването е съсредоточено върху жените-пушачи и това каква е продължителността на живота им. Невероятно, но факт - оказва се, че 43 процента от непушачите починали в следващите 20 години докато за същия период това се случило само с 38 процента от пушачките. Или с други думи, пушенето спасява човешки животи.
Всъщност обяснението е свързано с Парадокса на Симпсън. Понякога в масивите от данни има определени тенденции, които обаче изчезват, когато информацията се съпостави с друга. В този случай когато жените били разделени по десетилетия, всяка отделна група показва, че смъртността при пушачите е по-висока отколкото при непушачите. Но младите жени пушели много повече от възрастните. Въпреки че тютюнопушенето като цяло увеличава смъртността, всъщност през следващите 20 години много млади пушачи ще живеят по-дълго отколкото възрастните непушачи. Съберете всички групи заедно и се оказва, че въпреки че е вреден за организма, тютюнът няма да отнеме 40 години от живота им и така данните се оказват в полза на положителния ефект от смъртността.
Парадоксът на Симпсън работи, когато в данните е включен трети фактор, който остава скрит за анализаторите на информацията. Понякога този трети фактор е разликата в представителните извадки между групите, друг път той е фактор като възрастта, който засяга резултатите по-силно, отколкото фактора, който всъщност е предмет на изследване. Парадоксът се проявява многократно в медицински изследвания, проучвания на производителността и половото равноправие. Всъщност той е и един добър начин да бъдат манипулирани данни и заблуждавани хора.
Източник: io9