Neden Bazı Bilimsel Çalışmalar Yanlış Olabilir

Var tekrarlanabilirlik krizi bilimde - tanımlanamayan “yanlış pozitifler” en iyi araştırma dergilerimizde bile yaygınlaşma.

Sahte bir pozitiflik, gerçeklikte olmadığında bir etkinin var olduğu iddiasıdır. Hiç kimse yayınlanan makalelerin ne kadarının bu kadar yanlış veya abartısız sonuçlar içerdiğini bilmiyor, ancak bunlar var oranın küçük olmadığını gösterir.

Epidemiyolog John Ioannidis, bu fenomen için en iyi açıklamayı kışkırtıcı bir şekilde 2005'taki ünlü bir makalede verdi.Yayınlanan araştırma sonuçlarının çoğu neden yanlıştır?”. Ioannidis'in bu kadar çok yanlış sonuç vermesinin sebeplerinden biri de “p baskıcılıktan kaynaklanan hack ”, istatistiksel olarak önem kazandığını düşünüyor.

İstatistiksel önem nedir?

Veriden sonuç çıkarmak için araştırmacılar genellikle önem testi. Basit bir ifadeyle, bu “p gerçekten etkisi yoksa değer bizimki gibi sonuçların olasılığıdır. Eğer p değer yeterince küçük, sonucun istatistiksel olarak anlamlı olduğu bildirildi.

Geleneksel olarak, bir p .05 değerinden daha düşük bir değer, önem ölçütüdür. Eğer bir rapor edersen p<.05, okuyucuların gerçek bir etki bulduğunuza inanması muhtemeldir. Belki de aslında hiçbir etkisi yoktur ve yanlış bir pozitif bildirdiniz.


kendi kendine abone olma grafiği


Birçok dergi yalnızca bir veya daha fazla istatistiksel olarak anlamlı etki bildirebilecek çalışmalar yayınlayacaktır. Lisansüstü öğrenciler hızlı bir şekilde efsanevi başarmanın öğrenir p

Bu baskı elde etmek phack.

Cazibesi p hack

Göstermek için p hack, burada varsayımsal bir örnek.

Bruce yakın zamanda bir doktora yaptı ve kendi alanındaki en iyi araştırma ekiplerinden birine katılmak için prestijli bir bağışta bulundu. İlk deneyi iyi sonuç vermedi, ancak Bruce prosedürleri hızla iyileştiriyor ve ikinci bir çalışma yürütüyor. Bu daha umut verici görünüyor, ama yine de bir p .05 değerinden daha küçük bir değer.

Bir şey olduğuna ikna olmuş, Bruce daha fazla veri toplar. Açıkça görünen sonuçlardan birkaçını düşürmeye karar verdi.

Daha sonra önlemlerinden birinin daha net bir resim verdiğini fark eder, bu yüzden buna odaklanır. Birkaç tweaks ve Bruce nihayet başardı biraz şaşırtıcı ama gerçekten ilginç bir etki belirledi p

Bruce o etkiyi bulmak için çok çalıştı. biliyordu bir yerlere gizleniyordu. Ayrıca vurmak için baskı hissediyordu p

Sadece bir tane yakalama var: aslında bir etkisi olmadı. İstatistiksel olarak anlamlı sonuca rağmen, Bruce yanlış bir pozitif yayınladı.

Bruce, araştırmaya başladıktan sonra çeşitli adımlar attığında gizlenen etkisini ortaya çıkarmak için bilimsel görüşünü kullandığını düşünüyordu:

  • Daha fazla veri topladı.
  • Anormal görünen bazı verileri düşürdü.
  • Bazı tedbirlerini düşürdü ve en umut verici olana odaklandı.
  • Verileri biraz farklı bir şekilde analiz etti ve birkaç kez daha değişiklik yaptı.

Sorun şu ki tüm bu seçimler yapıldı sonra veriyi görmek Bruce, bilinçsiz bir şekilde sürtüşmeye başlamış olabilir - belirsiz olanı alana kadar seçme ve ayarlamalar yapma pp

İstatistikçilerin bir deyişi vardır: Verilere yeterince işkence yaparsanız itiraf edeceklerdir. Verileri gördükten sonra yapılan seçimler ve ince ayarlar sorgulanabilir araştırma uygulamalarıdır. Bunları kasten veya doğru istatistiksel sonucu elde etmek için kullanmak, p hackYayınlanan önemli bir nedeni, istatistiksel olarak anlamlı sonuçlar yanlış pozitif olabilir.

Yayınlanan sonuçların yüzde kaçı yanlıştır?

Bu iyi bir soru, ve son derece aldatıcı bir soru. Farklı araştırma alanlarında farklı olması muhtemel cevabı kimse bilmiyor.

Sosyal ve bilişsel psikoloji sorusunu cevaplamak için büyük ve etkileyici bir çaba 2015'ta yayınlandı. Brian Nosek ve meslektaşları tarafından Açık Bilim Merkezi’nde Yinelenebilirlik Projesi: Psikoloji (RP: P) Dünyadaki 100 araştırma gruplarının her birinin, yayınlanan 100 sonuçlarından birinin dikkatlice çoğaltılmasını sağladığı görülmüştür. Genel olarak, kabaca 40 oldukça iyi çoğaltıldıOysa 60 vakalarında replikasyon çalışmaları daha küçük veya daha küçük etkiler elde etmiştir.

100 RP: P replikasyon çalışmaları, orjinal çalışmalar tarafından rapor edilen etkilerin ortalama yarısı büyüklüğünde etkileri olduğunu bildirmiştir. Dikkatlice yürütülen kopyalar, muhtemelen tahmin edilenden daha doğru tahminler veriyor. p Orijinal çalışmaları hackledi, bu yüzden orijinal çalışmaların ortalama etkilerini ortalama olarak iki kat fazla tahmin ettiği sonucuna vardık. Bu endişe verici!

Nasıl önlenir p hack

Kaçınmanın en iyi yolu p hack, verileri gördükten sonra herhangi bir seçim veya tweaks yapmaktan kaçınmaktır. Başka bir deyişle, şüpheli araştırma uygulamalarından kaçının. Çoğu durumda, bunu yapmanın en iyi yolu kullanmaktır. Ön kayıt.

Ön kayıt, verilere uygulanacak istatistiksel analizi de içeren ayrıntılı bir araştırma planı hazırlamanızı gerektirir. Ardından, tarih damgalı plandaki planı önceden kaydedersiniz. Bilim Çerçevesini Aç veya başka bir çevrimiçi kayıt defteri.

Sonra Çalışmayı yapın, verileri plana göre analiz edin ve sonuçları ne olursa olsun raporlayın. Okuyucular önceden belirlenmiş planı kontrol edebilir ve bu nedenle analizin önceden belirlendiğinden emin olabilirler. p hacklendi. Ön kayıt, birçok araştırmacı için zorlu yeni bir fikirdir, ancak geleceğin yolu olabilir.

Tahmin yerine p değerlerimiz

Günaha p kesmek, güvenmenin en büyük dezavantajlarından biridir p değerler. Başka bir pBir etkinin var olduğunu ya da olmadığını söylemek gibi.

Fakat dünya siyah beyaz değil. Çok sayıdaki gri tonu tanımak için kullanımı çok daha iyi tahmin ziyade p değerler. Tahminin amacı, küçük veya büyük, sıfır veya olumsuz olabilecek bir etkinin boyutunu tahmin etmektir. Tahmin etme açısından, hatalı bir pozitif sonuç, bir etkinin gerçek değerinden daha büyük veya çok daha büyük bir tahmindir.

Terapinin etkisi üzerine varsayımsal bir çalışma yapalım. Örneğin, çalışma, tedavinin ortalama olarak kaygıda bir 7 puan düşüşü sağladığını tahmin edebilir. Verilerimizden hesapladığımızı varsayalım güven aralığı - [4, 10] için en iyi tahmininizin her iki tarafında bir dizi belirsizlik var. Bu bize, 7 tahminimizin büyük olasılıkla 3'in gerçek etkinin anksiyete ölçeği - terapinin yararının gerçek ortalama tutarı üzerinde olduğunu gösterir.

Başka bir deyişle, güven aralığı tahminimizin ne kadar kesin olduğunu gösterir. Böyle bir tahminin bilinmesi ve güven aralığının herhangi birinden çok daha fazla bilgilendirici olması p değeri.

Tahmini “yeni istatistiklerden” biri olarak adlandırıyorum. Tekniklerin kendileri yeni değildir, ancak bunları verilerden sonuç çıkarmanın ana yolu olarak kullanmak birçok araştırmacı için yeni ve ileriye doğru büyük bir adım olacaktır. Ayrıca, yol açtığı çarpıtmaların önlenmesine de yardımcı olacaktır. p hack.

Yazar hakkında

Geoff Cumming, Emeritus Profesörü, La Trobe Üniversitesi

Bu yazı orijinalinde Konuşma. Okumak Orijinal makale.

İlgili Kitaplar:

at InnerSelf Pazarı ve Amazon