از اعداد و ارقام ساختگی تا تقلب در مقالات علمی: چگونه ایده عجیب «معنیداری آماری» متولد شد؟
یک روش ریاضیاتی دهههاست که محققین را به بیراهه کشانده است. در اواسط قرن بیستم، رشته روانشناسی با مشکلاتی روبرو شد. در پی پروژه منهتن و در روزهای اولیه رقابت فضایی، اصطلاح «علوم سخت» با نتایج ملموس و عمومی همراه شد. روانشناسان و دیگر دانشمندان علوم اجتماعی متعجبانه شاهد آن وضعیت بودند. این درحالی بود که نتایج آنها پیچیده، دشوار و سخت بود.
روانشناسان بهطور خاص به دنبال یک بدنه آماری میگشتند تا بینشهای تجربی واقعی را براساس آن تفسیر کنند. کمک گرفتن از آمار غیرملموس بود اما در این مرحله نیاز به حضور ریاضیدانان عمیقا احساس شد. بنابراین یکی از نویسندگان و ناشران کتابهای درسی روانشناسی مفهومی با نام «معنیداری آماری» را مطرح کرد.
با محاسبه یک عدد از نتایج تجربی بدست آمده در هر آزمایش، که مقدار P نامیده میشود، محققان میتوانند نتایج را از لحاظ آماری معنیدار بدانند. این تنها کمیتی بود که لازم بود – حتی اگر به اشتباه- تا نشان دهد نتایج قابل اتکا هستند. این طرح اجرایی شد و در مدت زمان کوتاهی، تعداد زیادی از محققان نتایج آماری قابل توجهی را در مطالعات خود گزارش کردند.
پس از مدتی، مجلات روانشناسی تصمیم گرفتند تا تنها در صورتی مقالات را منتشر کنند که یافتههای آماری قابل توجهی را گزارش دهند. بدین ترتیب بسیاری از محققان دادههای خود را اصطلاحا ماساژ میدادند – چه با تغییر دادن نظریه و یا حتی تقلب کردن – تا به مقادیر کمتر از p = 0.05 برسند و اجازه کسب مقاله خود در مجلات را کسب کنند. در همین راستا، میزان دادههای ساختگی و ارتباطات تصادفی بیشتر شد.
به عنوان سردبیر مجلهای به نام Memory & Cognition از سال ۱۹۹۳ تا ۱۹۹۷، Geoffrey Loftus از دانشگاه واشنگتن سعی کرد با شجاعت روانشناسان را از دام دادههای ساختگی نجات داد. در ابتدا، او مقالهای را منتشر کرد و در آن به محققان تاکید کرد که محاسبات خود را در نهایت دقت انجام دهند تا از نتایج آزمایش از نظر معنیداری آماری به درستی مطمئن شوند. او هشدار داد که شیوه مرسوم شده، مانع پیشرفت علمی میشود.
Loftus توصیه کرد که در محاسبات دقیق باشند. او یادآور شد که حتی یک نتیجه صحیح هزاران بار با ارزشتر از معنیداری آماری است. او توصیه کرد که محققان میانگینهایی که به صورت مستقیم از نتایج آماری بدست آمده را گزارش کنند تا بتوان آزمایشهای گروههای مختلف روانشناسی را با یکدیگر مقایسه کرد. نمودارها میتوانند نشان دهند که آیا دادهها طیف گستردهای را پوشش میدهد و یا در محدوده میانگین تجمع دارد. بدین صورت میتوان مشخص کرد که آیا مقدار میانگین در طول محاسبات با تغییرات اندکی روبرو است و یا تغییرات آن گسترده است. در نتیجه محققان میتوانند ارزیابی کنند که آیا گروههای تحقیقاتی توانستهاند عملکرد صحیحی ارائه دهند و یا خیر.
Loftus تلاش کرد تا معنیداری آماری، ارزش خود را در این رویکرد از دست ندهد. اکثر محققان نیز معنیداری آماری را همچنان در کارهای تحقیقاتی خود ذکر میکردند.
Loftus بعدها، زمانی که نگاهی به تلاشهای گذشته خود در زمینه تغییر دادن زمینه تحقیقاتی در روانشناسی داشت، در اینباره گفت: «بررسی معنیداری آماری با این هدف انجام میشود که نشان دهیم دنیا بر پایه چه مسائلی نمیچرخد! معنیداری آماری هیچ اطلاعاتی راجع به چگونگی دنیا به ما نمیدهد.»
آنچه قابل توجه است، تنها این نیست که نویسندگان و ناشران کتابهای روانشناسی اواسط قرن بیستم با استفاده از مجموعهای از اصول آماری متناقض، آزمایشات مهمی را انجام دادند. بلکه نکته این است که نتایج بدست آمده توسط آنها تا چند دهه بعد مورد استقبال و توجه بسیاری از محققان رشتهای دیگر قرار گرفت. فرقی نمیکرد که آمارشناسان و روانشناسان برجسته آزمایشات را از پایه انجام داده بودند یا خیر. نتایج بدست آمده آنها در علومی مثل علوم اجتماعی، تحقیقات پزشکی، اپیدمولوژیک، علوم اعصاب و انسانشناسی بیولوژیکی مورد توجه قرار گرفت.
علاقه بشر برای اطمینان یافتن به نتایج، سبب گسترش تردیدها شد. به علت کمبود نظریه یکپارچهای که بتواند صحت پیشبینیها را بسنجد، دانشمندان به مطالعه موضوعات مختلف مرتبط با انسان حول مباحث آماری روی آوردند. تکرار فرآیندهای پیشین یک احساس کاذب اطمینان خاطر را با خود به همراه میآورد. این روش که به صورت رسمی به عنوان آزمون معنیداری تهی شناخته میشود، یک فرضیه صفر را به عنوان در نظر میگیرد (هیچ تفاوتی میان از نظر اندازهگیری میان گروههای مختلف و یا میزان همبستگی آنها وجود ندارد). اگر مقدار P برای دادههای مشاهده شده به کمتر از ۵% برسد، فرضیه مذکور فاقد اعتبار است.
اجبار بررسی مقدار p در محاسبات، سبب میشود تا محققان نظریههایی که پیشبینیهایی خاص و با ریسک بالا را ارائه میدهند، بررسی نکنند – درحالیکه این عناصر، پایه و اساس بررسی میزان مطلوبیت یک نظریه هستند. رد کردن فرضیه صفر، اطلاعات جدیدی به محقق نمیدهد و فقط فرصتی را برای گمانهزنی در مورد علت وقوع اثر پدید میآورد. نتایج بررسی معنیداری آماری به ندرت به عنوان دست یافتهای که میتواند دیگر یافتهها را تفسیر کند، مورد استفاده قرار میگیرد.
روانشناس Gerd Gigerenzer، مدیر مرکز سوادآموزی Harding Risk در برلین، عقیده دارد که بهتر است فرضیه صفر را آزمایش مهم صفر بنامیم.
در این بخش یک مثال ارائه میدهیم که فرضیه صفر را در عمل تفسیر میکند. در سال ۲۰۱۲، گروهی از محققان مطالعهای انجام دادند و آن را در Science به چاپ رساندند. آنها در طی تحقیقات خود دریافتند که سطح عقاید و باورهای داوطلبین پس از مشاهده برخی تصاویر مرتبط با مجسمه Auguste Rodin کاهش یافت. در این حالت تفکرات افراد سبب میشود که اعتقادشان به موجودات ماوراءالطبیعی زیر سوال برود. در این مطالعه، فرضیه صفر پیشبینی کرد که اعتقادات مذهبی داوطلبان به صورت میانگین باید بعد از دیدن فیلم ثابت بماند. همچنین دانشمندان مطابق با این فرضیه عقیده داشتند که تماشای مجسمه نباید تاثیری بر میزان اعتقادات افراد بگذارد.
پس از این، دانشمندان باید محاسبه کنند که آیا تفاوت در باورهای مذهبی گروهها پیش و پس از دیدن مجسمه، به صورت اتفاقی و تنها در کمتر از ۲۰ نمونه آزمایشی – و یا ۵% مواقع – دیده شده است یا خیر. همینجاست که P < 0.05 معنا پیدا میکند. با رسیدن به این آستانه، نتیجه از نظر آماری معنیدار تلقی میشود و احتمال اینکه صرفا به صورت اتفاقی رخ داده باشد، ناچیز میگردد.
اگر منطقی به نظر میرسد، اندکی صبر کنید. حتی پس از آنکه نتایج به آستانه ۵% برای نشان دادن میزان معنیداری آماری رسیدند، باز هم این مطالعه ثابت نکرد که داوطلبین پس از دیدن مجسمه به باورهای دینی خود شک میکنند. محققان فقط میتوانند در مورد علت این امر حدسهایی بزنند. زیرا تهیگرایی آنها را مجبور میسازد تا به سایر عوامل نگاهی نداشته باشند.
در تکمیل مطالعه صورت گرفته، تحقیق دیگری انجام شد که در آن هیچگونه کاهش قابل توجهی در باورهای مذهبی افراد پس از دیدن مجسمهها مشاهده نشد. شکستهای مکرر در تائید نتایج معنیداری آماری باعث شد تا محققان اعتماد خود نسبت به چنین آزمایشاتی که دربردارنده فرضیه صفر هستند را، از دست بدهند.
در حال حاضر، برخی مجلات از محققان میخواهند تا پیش از ارسال مقالات تحقیقی خود به منظور ارزیابی، طرحهای تحقیقاتی و دادهها را به صورت کامل جمعآوری کنند. هدف آنها از این کار این است که از جعل اطلاعات جلوگیری شود و شانس انتشار نتایج قابل تائید توسط داوران افزایش یابد.
Gigerenzer عقیده دارد که مشکل اصلی در خود فرضیه صفر نهفته شده است. در اوایل قرن بیستم، Wolfgang Köhler بدون در نظر گرفتن معنیداری آماری، قوانین Gestalt را توسعه داد، Jean Piaget نظریهای را در مورد نحوه رشد تفکر در کودکان تدوین کرد و Ivan Pavlov نیز اصول شرطیسازی کلاسیک را کشف کرد. این دانشمندان پیشگام معمولا با استفاده از انوادع آمارهای سادهای که دههها بعد توسط Loftus تائید شد، مطالعات بسیاری را انجام دادند.
از سال ۱۹۴۰ تا ۱۹۵۵، روانشناسانی که قصد داشتند ارزش علمی رشته خود را نشان دهند، به دنبال ابزاری برای تشخیص صحت یافتهها بودند. Gigerenzer میگوید: «نویسندگان و ناشران کتابهای درسی روانشناسی به جای پذیرفتن رویکردهای آماری متناقض، تمام این روشها را با یک مقدار p فرض میکنند.»
یکی از افراد الهامبخش دیگر در این زمینه، آمارشناس انگلیسی، Ronald Fisher بود. از دهه ۱۹۳۰، Fisher نوعی آزمایش معنیداری را برای تجزیه و تحلیل احتمال یک فرضیه صفر ابداع کرد. در این روش محقق میتواند اثری را در مطالعات خود مطرح کند و یا در صورت عدم تمایل، از طرح اثر بپرهیزد. Fisher میخواست معنیداری آماری را فارغ از بررسی نوع اثر اندازهگیری کند. به عبارت دیگر او قصد داشت محاسبات را استفاده شیوه متفاوت دیگری که احتمال رسیدن به نتیجه مطلوب در آن بیشتر بود، انجام دهد.
در همان زمان، آمارشناسان Jerzy Neyman و Egon Pearson نتیجه گرفتند که آزمایش فرضیه صفر بیاستفاده است و کارایی ندارد. در عوض، آنها تلاش داشتند تا مشخص کنند بهترین راههای جایگزین برای این فرضیه چیست. Neyman و Pearson فرضیهای که به اثبات رسیده بود را مورد مطالعه قرار دادند و احتمالات را در آن سنجیدند. بررسی احتمالات، کاری بود که در فرضیه صفر Fisher مورد بررسی قرار نگرفت.
روانشناسان پس از انجام این سری از مطالعات، هر دو رویکرد را به عنوان روشی گیجکننده تلقی کردند. آنها اغلب درک نمیکردند که چرا نتایج آماری نمیتواند به صورت قطعی، میزان واقعی بودن یک روخداد را تعیین کند.
حدود نیمی از محققان پزشکی، بیولوژیکی و روانشناسی به اشتباه تصور میکنند که اگر محققی معنیداری آماری را در مطالعات خود در نظر نگیرد، به این معناست که هیچ پدیده طبیعیای وجود ندارد. تجزیه و تحلیل دقیقتر نتایج هر تحقیق ممکن است یافتههای سازگار با یک اثر واقعی را آشکار سازد. این حالت به خصوص در زمانی اتفاق میافتد که معنیداری آماری اختلاف فاحشی با مقدارم مرسوم آن نداشته باشد.
خطاهای آماری
مطالعات یک روانشناس آلمانی و دانشجویان وی نشان داد که اکثر آنها با دست کم یکی از تفاسیر نادرست مقدار p موافق هستند.
Richard Morey از دانشگاه Cardiff در Wales میگوید: «دیگر زمان بررسی چنین نظریههایی به سر رسیده است. محققان باید بر توسعه نظریههای ذهن و رفتار که منجر به پیشبینیهای قابل آزمایش میشود، تمرکز کنند. بدین ترتیب آنها باید انتخاب کنند که کدام یک از ابزارهای آماری مناسب نیازها و مطالعات آنهاست. آمار راههایی برای تشخیص صحت شک و تردید در مطالعات را فراهم میآورد.
شکی نیست که تلاش برای یافتن حقیقت در معنیداری هنوز برای بسیاری از محققان جذاب است. امیدوار هستیم تا در چند دهه آینده، دوره سلطنت خطاهای بیهوده به سر برسد.