İnsan Doğası ve Evrim: Olasılıksal Düşünme: İstatistik ve Psikoloji

Hasan G. Bahçekapılı'nın bu yazısı Bilim ve Ütopya Dergisi'nde Mart 2011'de yayınlandı.

Önünüze şu sorunun geldiğini düşünün:

40 yaşın üstündeki kadınlarda göğüs kanseri görülme oranı yüzde 1’dir. Göğüs kanserini tespit etmekte yaygın olarak kullanılan bir test olan mamografi göğüs kanseri olmayan kadınlarda yüzde 10, göğüs kanseri olan kadınlarda yüzde 80 pozitif sonuç vermektedir. Söz konusu yaş grubuna giren ve testten pozitif sonuç alan bir kadının gerçekten göğüs kanseri olma olasılığı nedir?

Çok zor bir soru gibi görünmüyor ama terimlere aşina değilim diyorsanız biraz açalım. Pozitif sonuç demek testin üzerinde test yapılan kişide hastalığın var olduğunu söylemesi demek. Elbette hiçbir tıbbi test yüzde 100 güvenilir değil. Bir testin güvenilirliğini iki olasılık değerine bakarak ölçeriz. Birincisi testin duyarlılığı. Yani gerçekten hasta olan birine pozitif teşhis koyma olasılığı. Yukarıdaki soruda bu değer yüzde 80 olarak verilmiş. İkincisi testin yanlış pozitif teşhis koyma olasılığı. Yukarıdaki soruda bu değer yüzde 10 olarak verilmiş. Bu iki değer birbirinden bağımsızdır ve iyi bir testte bunlardan birincinin yüksek, ikincinin düşük olmasını bekleriz.

Şimdi soruyu tekrar düşünün: Bu testten pozitif teşhis alan birinin gerçekten hasta olma olasılığı nedir? Yüzde 70 veya üstünde bir değer olduğunu düşünüyorsanız son 30 yılda bu soruya maruz kalan doktorların büyük çoğunluğu gibi düşünüyorsunuz demektir (Casscells, Schoenberger, & Graboys, 1978; Eddy, 1982). Oysa gerçek değer yaklaşık yüzde 7.5. Yani testin sonucuna bakarak testi alan kişiye kanser teşhisi koyup tedaviye başlayan bir doktor vahim bir hata yapıyor demektir.

Sadece sıradan insanlar değil konunun uzmanı olan doktorlar bile nasıl oluyor da soruya gerçek değerin tam 10 kat üstünde bir cevap verebiliyorlar? Matematiksel açıdan baktığımızda yapılan hata hastalığın popülasyonda görülme sıklığı olan yüzde 1’i hesaba katmamak. Standart Bayes teoremini kullanarak soruya doğru cevap vermek mümkün. Fakat teoremin standart halini bu soruda kullanmak karmaşık hesaplar gerektiriyor. Herkesin bu tür hesaplamalara alışık olmasını bekleyemeyiz. Oysa sorudaki değerleri olasılık değeri olarak değil sıklık olarak düşünürsek çözüm çok daha basit hale gelebilir. Sorudaki verilerden hareketle şöyle düşünelim:

40 yaşın üstünde kadınlardan oluşan 1000 kişilik bir grubumuz var diyelim.

Bunların 10 tanesi göğüs kanseri, 990 tanesi sağlıklıdır (yüzde 1 değerinden hareketle).

10 kanserli kadına test yapıldığında 8 tanesi pozitif, 2 tanesi negatif teşhis alır (yüzde 80 değerinden hareketle).

990 sağlıklı kadına test yapıldığında 99 tanesi pozitif, 891 tanesi negatif teşhis alır (yüzde 10 değerinden hareketle).

Yani test bu gruptaki kadınların 8+99=107 tanesine pozitif teşhis koyar. Bunların sadece 8 tanesi gerçekten kanserdir.

Dolayısıyla testin pozitif teşhis koyduğu kadınların 8/107’si, yani yaklaşık yüzde 7.5’i gerçekten kanserdir.

Bu şekilde düşünüldüğünde soru hem anlaşılması hem de çözülmesi çok daha basit hale geliyor. İnsanlar bu şekilde düşünmeye teşvik edildiklerinde veya sorudaki değerler en baştan olasılık cinsinden değil sıklık cinsinden verildiğinde doğru cevap verenlerin oranı çok daha yüksek oluyor (Gigerenzer, 1996). Burada yaptığımız şey insanlara matematik öğretmek değil, onları doğal olarak düşünmeye alışık oldukları şekilde düşünmeye yönlendirmek. İnsanlar bu şekilde “Bayesçi düşünme”yi çok daha kolay öğrenebiliyorlar (Gigerenzer & Hoffrage, 2005).

Olasılıksal Düşünme Hataları

Son 40-50 yılda yapılan psikolojik araştırmalar hem sıradan insanların hem de uzman olması beklenen kişilerin hem laboratuvar testlerinde hem de gerçek hayat durumlarında en temel olasılık kurallarını ihlal ettiğini ve hatalı yargılarda bulunduğunu gösteriyor. Bu hataların en belli başlı olanlarıyla ilgili örnekler verelim.

Birleştirme hatası: İnsanlar “zeki, konuşkan, felsefe mezunu, ırkçılık ve nükleer silah karşıtı” olarak betimlenen bir kişinin “feminist ve veznedar” olma olasılığını “veznedar” olma olasılığından yüksek görüyorlar. Benzer şekilde aşırı kilolu ve sigara içen birinin 5 yıl içinde “kalp krizi geçirme ve ülser olma” olasılığını “ülser olma” olasılığından yüksek görüyorlar. Oysa olasılık kuralları gereği iki olayın birleşiminin olasılığı bu olaylardan tekinin olasılığından yüksek olamaz (Tversky & Kahneman, 1983).

Kumarbaz hatası: Birçok insan hilesiz bir para üst üste 5 kere atıldığında ve hepsi yazı geldiğinde 6. seferde tura gelme olasılığının artık daha yüksek olduğunu düşünüyor. Oysa yazı-tura atışları gibi bağımsız olaylarda daha önce ne olduğu bundan sonra ne olacağını etkilemez (Tversky & Kahneman, 1974).

“Sıcak el” hatası: Kumarbaz hatasının tersi olarak düşünülebilir: Üst üste gelen tekrarların anlamlı bir örüntü oluşturduğuna ve devam edeceğine yönelik inanç. Mesela insanların çoğu üst üste birkaç atışı sokan bir basketbol oyuncusunun o anda “elinin sıcak” olduğunu ve bir sonraki atışı sokma olasılığının her zamankinden yüksek olduğunu düşünüyor. Oysa gerçek oyuncuların atış istatistikleri üzerinde yapılan analizler, oyuncunun bir atışı sokmasının bir sonraki atışı sokma olasılığını etkilemediğini gösteriyor. Buradaki temel hata şu: İnsanlar eldeki gözlem verilerinde rastlantısallıktan en ufak bir sapma olduğunda bunun şansla açıklanamayacağını düşünüyorlar ve veride aslında var olmayan örüntüler fark ettiklerini zannediyorlar (Gilovich, Vallone, & Tversky, 1985).

Olasılık eşleştirme ve maksimize etme: Önünüzdeki ışık bazan yeşil bazan kırmızı yanıyor diyelim. Göründüğü kadarıyla kırmızı ve yeşillerin sırası herhangi bir örüntüye uymuyor. Fakat biraz gözledikçe denemelerin yüzde 70’inde kırmızı, yüzde 30’unda yeşil yandığını fark ediyorsunuz. Sizden 100 deneme boyunca mümkün olduğu kadar çok sayıda doğru tahmin yapmanız isteniyor. Tahminlerinizi kırmızı ve yeşil arasında nasıl dağıtırsınız? İnsanların büyük çoğunluğu her bir denemedeki rengi doğru tahmin edebilmek için denemelerin yüzde 70’inde kırmızı, yüzde 30’unda yeşil tahmininde bulunuyorlar. Oysa bu optimal olmayan bir strateji. Bu şekilde ortalama (70x0.70)+(30x0.30)=58 denemede doğru tahmin yaparsınız. 30 denemede tahmininizin yanlış çıkacağını kabul ederek sürekli kırmızı tahmininde bulunduğunuzda ise 70 denemede doğru tahmin yaparsınız. Yani tek tek her bir denemede doğru tahmin yapmanın mümkün olmadığını kabul etmek doğru tahmin oranını arttırıyor (Stanovich, 2010).

Klinik ve istatistiksel tahmin: Elimizde bir kişiyle ilgili çeşitli veriler (görüşme notları, test sonuçları, geçmiş hayat bilgileri, vs.) var diyelim. Bütün bu bilgileri bir araya getirip bir sonuca varmanın (mesela hastalık var-yok teşhisi koymanın veya okula kabul etme-etmeme kararı vermenin) en isabetli yolu nedir? Çoğu kişiye ve bu alandaki araştırma sonuçlarını bilmeyen birçok uzmana göre klinik/sezgisel yöntem. Yani bir uzmanın bütün o verilerden edindiği izlenimden çıkardığı tahmin. Oysa son 50 yılda yapılan araştırmalar bütün o verileri bir araya getiren lineer bir denklemden oluşan modelin uzmanlardan hemen hemen her zaman daha isabetli tahminler yaptığını gösteriyor. İstatistiksel/mekanik modele girilen hangi verinin ne kadar önemli olduğu bilgisinin tamamen uzmanın yargısına dayandığı durumda bile model uzmandan daha iyi teşhis/tahmin yapıyor. Buradaki farkı yaratan şey modelin tahmin yapma prosedürünü her vakada aynı şekilde tutarlı olarak kullanması, uzmanın ise gelen vakanın özelliğine göre isabet oranını arttırmak için prosedürde değişiklik yapması. Yani her vakayı özel sayıp her birinde ayrı bir ölçüt kullanmak isabet oranının düşmesine yol açıyor (Grove & Meehl, 1996; Swets ve ark., 2000).

Çözüm Yolları

Kesinlik içermeyen, dolayısıyla olasılıksal akıl yürütme gerektiren durumlarla günlük hayatın birçok alanında karşılaşıyoruz. Kişisel sağlıkla ilgili kararlar, mahkemelerde yargıyla ilgili kararlar ve ekonomik yatırımlarla ilgili kararlar belirsizliğin olduğu durumlarda doğru akıl yürütme gerektiriyor. İnsanların böyle durumlarda daha sağlıklı karar vermelerini sağlamak için ne yapabiliriz?

En temel çözüm elbette erken yaşta başlayan eğitim. Gigerenzer ve arkadaşlarına (2007) göre ilk istatistik dersini üniversitede almak demek çok geç kalmak demek. Olasılıksal düşünme ve istatistik eğitimi ilköğretimde başlamalı.

Özellikle sağlık hizmetlerinden yararlananların bu gibi konularda doğru düşünmeye başlamaları için atmaları gereken ilk adım “kesinlik yanılgısı”ndan kurtulmaları (Gigerenzer, 2002). Yani hiçbir test sonucunun, teşhisin ve tedavinin kesinlik içeremeyeceğinin farkına varmaları ve “Olasılığı ne?” diye sormaya başlamaları.

Bir başka adım olasılıkla ilgili bilgiyi kafa karıştırıcı olmayan bir şekilde aktarmak. Mesela doktor Prozac verdiği hastasına yan etki olarak cinsel sorun yaşama olasılığının yüzde 30 olduğunu söylüyor. Bu açık bir bilgi aktarımı değil çünkü verilen olasılık değerinin referans grubunun ne olduğu belli değil: Neyin yüzde 30’u? Hasta bu bilgiden hareketle cinsel deneyimlerinin yüzde 30’unda sorun yaşayacağını düşünüyor. Oysa doktorun kastettiği şey bu ilacı kullananların yüzde 30’unda cinsel sorun görüldüğü (Gigerenzer, 2002).

Önerilen bir tedavinin ne kadar etkili olduğuna hastanın karar verebilmesi için de tedavinin ölüm riskini ne kadar azalttığıyla ilgili bilginin açık bir şekilde aktarılması gerekir. Mesela doktor mamografi testine girmenin göğüs kanserinden ölme riskini yüzde 25 azalttığını söylüyor. Verilen değerin mutlak risk mi yoksa göreceli risk mi olduğunu bilmeden buradan bir sonuç çıkarmak mümkün değil. Doktorun söylemek istediği aslında şu: Mamografi testine girmeyen 1000 kadından 4’ü göğüs kanserinden ölürken mamografi testine giren 1000 kadından sadece 3’ü ölüyor. Yani doktor göreceli risk azalmasından bahsediyor. Oysa teste girmenin 1000 kadından 1 tanesinin kurtulmasını sağladığı söylense, yani bilgi mutlak risk azalması şeklinde aktarılsa, hasta bilgiyi daha kolay anlayıp tedaviyle ilgili daha bilinçli bir karar verebilecek (Gigerenzer ve ark., 2007).

Son olarak gereken adım da verilen olasılıksal bilgiyi kullanarak doğru sonuçlara varabilmek. Özellikle uzun yıllar boyunca olasılık ve istatistik eğitimi almamış insanlarda bunu sağlamanın en kolay yolu yapılması gereken hesabı basitleştirerek problemi ortaya koymak. Başta verilen örnekten de görülebileceği gibi psikolojik araştırmalar insanların şartlı olasılıklar cinsinden değil sıklıklar cinsinden düşünmeyi daha doğal ve basit bulduğunu gösteriyor. Bu konudaki en basit eğitim insanlara karşılaştıkları olasılık problemini nasıl sıklık problemi haline getireceklerini öğretmek olabilir.

Sonuç

Ne kadar kesin bilgiye sahip olmayı istesek de tamamen yok edilemez belirsizliklerle dolu bir dünyada yaşıyoruz. Dolayısıyla bu dünyayla baş edebilmek için belirsizliklerle, olasılıklarla ilgili doğru düşünmeyi öğrenmek gerekiyor. İşte bu yüzden yazının başlığında zikrettiğimiz iki şeye ihtiyacımız var. Bir tıp kurumunun başkanı bunu şu şekilde ifade ediyor (Gigerenzer, 2002, s. 94):

Çok az doktor bilimsel bir araştırmayı anlayabilecek ve değerlendirebilecek bir eğitim alıyor. Ben cerrah olmayı seçtim çünkü iki şeyden uzak durmak istiyordum: istatistik ve psikoloji. Şimdi anlıyorum ki ikisi de vazgeçilmez şeyler.

Kaynaklar

Casscells, W., Schoenberger, A., & Graboys, T. (1978). Interpretation by physicians of clinical laboratory results. New England Journal of Medicine, 299, 999-1001.

Eddy, D. M. (1982). Probabilistic reasoning in clinical medicine: Problems and opportunities. D. Kahneman, P. Slovic, & A. Tversky (Ed.), Judgment under uncertainty: Heuristics and biases kitabında (s. 249-267). Cambridge: Cambridge University Press.

Gigerenzer, G. (1996). The psychology of good judgment: Frequency formats and simple algorithms. Medical Decision Making, 16, 273-280.

Gigerenzer, G. (2002). Calculated risks: How to know when numbers deceive you. New York: Simon & Schuster.

Gigerenzer, G., & Hoffrage, U. (1995). How to improve Bayesian reasoning without instruction: Frequency formats. Psychological Review, 102, 684–704.

Gigerenzer, G., Gaissmaier, W., Kurz-Milcke, E., Schwartz, L. M., & Woloshin, S. (2007). Helping doctors and patients make sense of health statistics. Psychological Science in the Public Interest, 8, 53-96.

Gilovich, T., Vallone, R., & Tversky, A. (1985). The hot hand in basketball: On the misperception of random sequences. Cognitive Psychology, 17, 295-314.

Grove, W. M., & Meehl, P. E. (1996). Comparative efficiency of informal (subjective, impressionistic) and formal (mechanical, algorithmic) prediction procedures: The clinical-statistical controversy. Psychology, Public Policy, and Law, 2, 293-323.

Hoffrage, U., & Gigerenzer, G. (1998). Using natural frequencies to improve diagnostic

inferences. Academic Medicine, 73, 538–540.

Stanovich, K. E. (2010). How to think straight about psychology. New York: Pearson.

Swets, J. A., Dawes, R. M., & Monahan, J. (2000). Psychological science can improve diagnostic decisions. Psychological Science in the Public Interest, 1, 1-26.

Tversky, A., & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases. Science, 185, 1124-1131.

Tversky, A., & Kahneman, D. (1983). Extensional vs. intuitive reasoning: The conjunction fallacy in probability judgment. Psychological Review, 90, 293–315.