Bir deste iskambil kartının gerçekten rastgele olması için kaç kere karıştırmanız gerekir? Bir nükleer bomba yapmak için ne kadar uranyum gerektiğini nasıl bilebiliriz? Bir cümledeki bir sonraki kelimeyi nasıl tahmin edersiniz? Peki Google, tam olarak aradığınız sayfayı nasıl buluyor? Tüm bu soruların cevabını bilmemizin tek bir nedeni var: 100 yıldan uzun zaman önce Rusya’da yaşanan garip bir matematik çekişmesi. Bu çekişmeden doğan Markov zincirleri, tahmin bile edemeyeceğiniz kadar çok alanı değiştirdi.
Çarlık Rusyası’ndan Doğan Bir Hesaplaşma: Markov ve Nekrasov
Yıl 1905’ti. Rusya’da sosyalist gruplar Çar’a karşı ayaklanmış, siyasi reform talep ediyordu. Ülke ikiye bölünmüştü: Çar yanlıları ve sosyalistler. Bu bölünme o kadar derindi ki, matematiğe bile sıçradı. Çar’ın tarafında, gayri resmi olarak “Olasılıkların Çarı” lakaplı Pavel Nekrasov vardı. Dindar bir adam olan Nekrasov, matematiğin özgür iradeyi ve Tanrı’nın iradesini açıklamak için kullanılabileceğini savunuyordu.
Sosyalist taraftaki rakibi ise “Kızgın Andrey” olarak bilinen Andrey Markov’du. Ateist olan Markov, matematikle özgür irade veya din arasında bir bağlantı kurmayı absürt buluyordu. Nekrasov’un çalışmalarını “matematiğin suistimalleri” arasında sayarak açıkça eleştirdi. Çekişmelerinin merkezinde, son 200 yıldır olasılık hesaplamalarının dayandığı temel bir fikir vardı: büyük sayılar yasası. Bu yasa, madeni para örneği gibi bağımsız olaylarda, deneme sayısı arttıkça ortalama sonucun beklenen değere yaklaştığını söylüyordu. Ama Nekrasov, bu yasayı bir adım ileri götürdü: Eğer bir olayın büyük sayılar yasasına uyduğunu görürsek, o olayın altında yatan kararların bağımsız olması gerektiğini düşündü. Bu yüzden, evlilik oranları veya suç istatistikleri gibi sosyal verilerin büyük sayılar yasasına uyduğunu görünce, bu kararların “özgür irade” ile alındığına hükmetti. Ona göre özgür irade ölçülebilir bir şeydi.
Bağımlı Olaylar da Öngörülebilirmiş!
Markov ise Nekrasov’un bu düşüncesini bir yanılsama olarak gördü. Matematiksel bağımsızlığı özgür iradeye bağlamayı saçma buluyordu. Bu yüzden Markov, bağımlı olayların bile büyük sayılar yasasına uyabileceğini ve bu tür olaylarla da olasılık hesaplaması yapılabileceğini kanıtlamak için yola çıktı.
Bunu göstermek için, bir olayın açıkça bir öncekinden etkilendiği bir şeye ihtiyacı vardı: metinler. Bir sonraki harfinizin sesli mi sessiz mi olacağı, mevcut harfe büyük ölçüde bağlıdır. Bu fikri test etmek için, Rus edebiyatının kalbindeki bir esere, Puşkin’in “Yevgeni Onegin” şiirine yöneldi. Şiirin ilk 20.000 harfini inceledi, noktalama işaretlerini ve boşlukları çıkardı. Harflerin yüzde 43’ünün sesli, yüzde 57’sinin sessiz olduğunu buldu.
Ardından, Markov harf çiftlerini analiz etti. Harfler bağımsız olsaydı beklenen oranlarla, gerçekte gözlemlediği oranlar arasında büyük farklar vardı. Bu, harflerin birbirine bağımlı olduğunu kanıtladı. Şimdi tek yapması gereken, bu bağımlı harflerin hâlâ büyük sayılar yasasına uyduğunu göstermekti. Bunun için bir tür tahmin makinesi yarattı. Sesli ve sessiz harfleri durumlar olarak belirledi ve bir durumdan diğerine geçiş olasılıklarını hesapladı. Örneğin, bir sesli harften sonra başka bir sesli harfin gelme olasılığı %13 iken, bir sessiz harfin gelme olasılığı %87’ydi.
Bu makineyi çalıştırdığında, başta oranlar çılgınca dalgalansa da, sonunda elle saydığı oranlara, yani %43 sesli ve %57 sessiz harf oranına yakınsadığını gördü. Markov, böylece bağımlı bir sistem, kelimenin tam anlamıyla bir olaylar zinciri inşa etmiş ve bunun da büyük sayılar yasasına uyduğunu kanıtlamıştı. Bu, sosyal istatistiklerdeki yakınsama görmenin altında yatan kararların bağımsız olduğunu kanıtlamadığı anlamına geliyordu. Yani, o istatistikler özgür iradeyi hiç de kanıtlamıyordu. Markov, rakibinin argümanını darmadağın etmiş ve bunu biliyordu. Makalesini rakibine son bir iğnelemeyle bitirdi: “Böylece, olasılık yapmak için özgür irade gerekli değildir.” Aslında olasılık yapmak için bağımsızlık bile gerekli değildir. Bu yeni zincirle, yani daha sonra Markov zinciri olarak bilinecek olanla, bağımlı olaylarla olasılık hesaplaması yapmanın bir yolunu bulmuştu. Bu, devasa bir çığır açma potansiyeli taşıyordu, çünkü gerçek dünyada neredeyse her şey bir başka şeye bağlıdır.
Nükleer Bomba Tasarımından Kart Karıştırmaya: Monte Carlo Metodu
Markov kendi çalışmasının pratik uygulamalarına pek aldırış etmese de, bu yeni olasılık teorisi, 20. yüzyılın en önemli gelişmelerinden birinde büyük rol oynayacaktı. 1945’te ilk nükleer bomba, The Gadget, patlatıldı. Manhattan Projesi’nin zirve noktasıydı bu. Projenin kilit isimlerinden biri olan matematikçi Stanislaw Ulam, nötronların bir nükleer bombanın içinde nasıl davrandığını çözmeye çalışıyordu.
Bir nükleer bomba, bir nötronun bir uranyum-235 çekirdeğine çarpmasıyla çalışır; bu, enerji ve daha fazla nötron salarak zincirleme reaksiyon başlatır. Anahtar soru şuydu: Bir bomba yapmak için ne kadar uranyum-235’e ihtiyaç var? Ulam nötron davranışını anlamak zorundaydı. Ancak 1946’da Ulam, ciddi bir beyin iltihabı geçirip ölümden döndü. Uzun iyileşme sürecinde yatakta sık sık Solitaire oynuyordu. Sayısız oyun oynarken aklına takılan bir soru vardı: rastgele karıştırılmış bir Solitaire oyununun kazanılma şansı neydi? Bu, analitik olarak çözülmesi imkansız derecede zordu, çünkü olası deste düzenlemelerinin sayısı 52 faktöriyeldi!
Ulam’a bir fikir geldi: Ya yüzlerce oyun oynasam ve kaçının kazanılabileceğini saysam? Bu, cevabın istatistiksel bir yaklaşımını verirdi. İşte bu fikirle işine geri döndüğünde, nötron davranışlarını simüle etmek için de aynı yaklaşımı kullanabileceğini fark etti. Bu fikri John von Neumann ile paylaştı. Solitaire’de her oyun bağımsızdı ama nötronlar öyle değildi; bir nötronun davranışı nerede olduğuna ve daha önce ne yaptığına bağlıydı. Bu yüzden bir dizi olayı modellemeniz gerekiyordu ve von Neumann bunun bir Markov zinciri olduğunu anladı.
Bir nötronun bir çekirdekteki başlangıç durumundan saçılması, sistemden ayrılması veya fisyona neden olması gibi üç olası geçişle basit bir Markov zinciri modellediler. Geçiş olasılıkları nötronun konumu, hızı, enerjisi ve uranyumun konfigürasyonu gibi faktörlere bağlıydı. Bu zinciri dünyanın ilk elektronik bilgisayarı ENIAC’ta çalıştırdılar. Böylece, Monte Carlo metodu doğdu. Adını, Ulam’ın kumarbaz amcasının ve Monaco’daki Monte Carlo Kumarhanesi’nin yüksek riskli, rastgele örnekleme sisteminden aldı. Bu yöntem, analitik olarak çözülemeyecek kadar karmaşık diferansiyel denklemleri istatistiksel yollarla tahmin etmeyi sağladı ve çok geçmeden nükleer reaktör tasarımından diğer bilimsel alanlara hızla yayıldı.
Google’ın Trilyon Dolarlık Kalbi: PageRank Algoritması
1990’ların ortalarında internetin patlamasıyla, her gün binlerce yeni sayfa ortaya çıkıyordu. Bu bilgi denizi içinde bir şeyler bulmak, yeni bir sorun yarattı. 1994’te Jerry Yang ve David Filo, Yahoo’yu kurdu. Ancak o dönemdeki arama motorlarının ortak bir sorunu vardı: kaliteden ziyade anahtar kelime tekrarına dayalı sıralama yapıyorlardı. Bu da “beyaz arka planda beyaz metinle anahtar kelime doldurma” gibi hilelerle kolayca kandırılabiliyordu.
İhtiyaç duydukları şey, sayfaları hem alaka düzeyine hem de kalitesine göre sıralamanın bir yoluydu. Stanford’da iki doktora öğrencisi, Sergey Brin ve Larry Page, tam da bu problem üzerinde çalışıyordu. Bir kütüphanedeki eski bir fikirden ilham aldılar: çok damgalı bir kitap iyi bir kitaptır. Benzer şekilde, bir sayfaya verilen her linki bir “onay” olarak düşündüler. Ne kadar çok link varsa, o sayfa o kadar önemli olmalıydı.
Web’i bir Markov zinciri olarak modelleyebileceklerini fark ettiler. Oyuncak bir internet hayal edin: dört web sayfası (Amy, Ben, Chris, Dan) durumlarımızı oluşturuyor. Bu sayfalardan diğerlerine verilen linkler ise geçişlerimizdi. Bir web sörfçüsü olarak rastgele bir sayfadan başlayıp, bu zinciri çalıştırdığınızda, her sayfada ne kadar zaman geçirdiğinizin yüzdesini takip edersiniz. Zamanla bu oranlar sabitlenir ve sayfaların göreceli öneminin bir ölçüsünü verir. Bu, PageRank algoritmasının temelini oluşturuyordu. Sistemin dolandırılmasını önlemek için bir “sönümleme faktörü” eklediler: sörfçünün yüzde 85 olasılıkla bir linki takip etmesini, yüzde 15 olasılıkla ise rastgele başka bir sayfaya zıplamasını sağladılar. Bu sayede, internetin tüm kısımları keşfedilebiliyordu.
PageRank sayesinde Google, çok daha iyi arama sonuçları sunarak Yahoo’yu geride bıraktı. İlk başta BackRub adını verdikleri arama motorları, daha sonra internetteki tüm sayfaları indeksleme hırslarına uygun olarak “googol” (10 üzeri 100) kelimesinin yanlış yazılmış haliyle “Google” adını aldı. Bugün, Google’ın ana şirketi Alphabet’in değeri 2 trilyon dolar civarında ve bu trilyon dolarlık algoritmanın kalbinde bir Markov zinciri yatıyor.
Yapay Zeka ve Büyük Dil Modellerinde Markov Zincirleri
1940’larda bilgi teorisinin babası Claude Shannon, Markov’un metin tahmini fikrine geri döndü. Sadece sesli ve sessiz harfler yerine bireysel harflere odaklandı ve ardından tüm kelimeleri tahmin edici olarak kullandı. Şunun gibi cümleler üretti: “Karakterin bu noktasındaki bir İngiliz yazara frontal saldırıdaki kafa ve bu yüzden, her kim problemi beklenmedik bir şekilde anlattıysa, harfler için başka bir yöntemdir.” Anlamlı değildi ama dört kelimelik dizilerin genellikle anlamlı olduğunu fark etti. Shannon, daha fazla önceki kelimeyi hesaba katarak bir sonraki kelime hakkında daha iyi tahminler yapabileceğimizi öğrenmişti. Bu, Gmail’in bir sonraki yazacağınız şeyi tahmin etme şekline benziyor. Bu bir tesadüf değil; bu tahminleri yapan algoritmalar Markov zincirlerine dayanıyor.
Günümüzün büyük dil modelleri (LLM’ler), harf, kelime ve noktalama işaretleri gibi “tokenlar” kullanıyor. Temel Markov zincirlerinden farklı olarak, bu tokenların hepsini eşit ele almıyorlar; aynı zamanda neye “dikkat etmeleri” gerektiğini söyleyen “dikkat mekanizması” (attention) kullanıyorlar. Örneğin, “hücrenin yapısı” ifadesinde, model “kan” ve “mitokondri” gibi önceki bağlamı kullanarak hücrenin biyolojiyle ilgili olduğunu, hapishane hücresi olmadığını anlayabilir.
Markov zincirlerinin gücü, bir sonraki olayın yalnızca mevcut duruma bağlı olduğu “hafızasız” özelliğinde yatıyor. Bu, aşırı karmaşık sistemleri basitleştirmemize ve hâlâ anlamlı tahminler yapmamıza olanak tanıyor. Bir makalede belirtildiği gibi, “Problem çözme genellikle uygun bir Markov zinciri uydurmaktan ibarettir.”
Bu temel matematiksel gerçeğin, aslında konuyla pek ilgisi olmayan bir kavgadan çıkması şaşırtıcı değil mi? Tüm kanıtlar, Markov’u bu çalışmayı yapmaya iten şeyin, Nekrasov’u alt etme kararlılığı olduğunu gösteriyor.
Sıkça Sorulan Sorular
1. Markov zincirleri neden “hafızasız” olarak tanımlanır?
Markov zincirleri, bir sistemin gelecekteki durumunun yalnızca mevcut durumuna bağlı olduğu varsayımına dayanır. Yani, geçmişteki tüm olayları veya adımları hatırlamasına gerek yoktur; sadece “şu anda” ne olduğunun bilgisi, bir sonraki adımı tahmin etmek için yeterlidir.
2. Google’ın PageRank algoritması web sayfalarının kalitesini nasıl ölçer?
PageRank, web üzerindeki bağlantıları (“linkler”) bir tür “oy” veya “onay” olarak kabul ederek çalışır. Bir sayfaya ne kadar çok link verildiyse ve bu linkleri veren sayfaların kendileri ne kadar kaliteliyse, o sayfanın o kadar önemli ve kaliteli olduğu varsayılır. Bu, web’i bir Markov zinciri olarak modelleyerek ve bir “rastgele sörfçünün” hangi sayfalarda daha çok zaman geçireceğini simüle ederek hesaplanır.
3. Monte Carlo metodu ne tür problemlerin çözümünde kullanılır?
Monte Carlo metodu, analitik olarak çözülmesi çok zor veya imkansız olan karmaşık problemleri istatistiksel yaklaşımlarla çözmek için kullanılır. Nükleer fizik, finans, mühendislik gibi alanlarda, bir sistemin olası davranışlarını veya çıktılarını tahmin etmek için çok sayıda rastgele örnekleme ve simülasyon yapılır. Örneğin, bir nükleer bombadaki nötron davranışlarını veya bir Solitaire oyununun kazanılma olasılığını tahmin etmek gibi.