Çevremizle etkileşim kurarak öğrenme fikri, öğrenmenin doğasını düşündüğümüzde muhtemelen ortaya çıkan ilk örnek olacaktır. Hayatımız boyunca çevremizle olan bu etkileşimler çevremiz hakkında bilgi kaynağı oluşturmamızı sağlar. Doğumdan itibaren konuşmayı veya yazı yazmayı öğrenmek dışında davranışlarımızın ortamda ne gibi sonuçlar doğurduğunu da öğrenmeye başlarız. Çevreyle etkileşimden öğrenmek neredeyse tüm öğrenme ve zekâ kuramlarının altında yatan temel fikri oluşturmaktadır ve bu öğrenme yaklaşımına teoride Reinforcement Learning (RL) ya da Türkçe adıyla Pekiştirmeli Öğrenme denilmektedir.
RL’nin tarihçesine bakıldığında iki bağımsız yaklaşımın temel alındığı görülmektedir. İlk yaklaşım, hayvanların öğrenme psikolojisi çalışmalarıyla ortaya çıkan alanlandan biri olan deneme yanılma yoluyla öğrenmeye dayanmaktadır. İkinci yaklaşım ise öğrenmeyle pek alakası olmayan optimum kontrol sorunu ve çözümüyle ilgilidir. Optimum kontrol terimi, dinamik bir sistemin, zaman içindeki davranışının duruma göre en uygun çözümüne yönelik algoritmaların geliştirilmesini tanımlamak için kullanılmaktadır. Bu iki yaklaşım birbirinden oldukça ayrı gözükse de 1980’lerin sonunda bir araya gelerek yeni ve modern bir alan olan RL’yi doğurmuştur.
RL’de çevreyle etkileşimde bulunan varlık, en çok ödülü alabilmeyi sağlayacak şekilde ne yapılması gerektiğini öğrenir. Bu öğrenmeyi gerçekleştirirken hangi davranışları yapması gerektiği ona anlatılmamaktadır, bunun yerine hangi davranışların en çok ödül getireceğini denemek zorundadır. Bu öğrenme şekli zincirleme bir yapıdadır. Öğrenen varlık, sadece anlık ödüller kazanmak yerine, elde edeceği ödülleri maksimize etmek için bir sonraki durumda davranışının ne sonuçlar doğuracağını denemeli ve öğrenmelidir. İnsan beyni öğrenmeyi otomatik olarak kendiliğinden yapabiliyorken, makineleri eğitmekte kullanılan sinir ağları doğru şekilde örüntüleri kurgulamaya çalışarak sonuca ulaşılabilecektir. Bu tür öğrenme çok güçlü bir araçtır ve neredeyse her biyolojik birimde yer alır. Doğayı, neredeyse her buluşunda ilham kaynağı olarak kullanan insan, makinelerine öğretmeyi de yine doğadan esinlenerek geliştirmeye çalışmıştır.
Teknolojinin ilerlemesiyle birlikte makinelerin öğrenmesinin önünün açılması, büyük bir rekabeti de beraberinde getirmiştir. Öğrenen makineler öncelikle diğer makineleri (algoritmaları), sonra en büyük sınav olarak insanları kendi oyunlarında yenmeyi hedeflemektedir. Oyunlarda sürekli yarışan algoritmalara RL de katılmıştır.
Günümüzde RL’nin en popüler kullanım alanlarından birinin oyunlar olmasının sebebi algoritmanın sürekli deneyerek oyunu öğrenmesi ve en yüksek puanla oyunu bitirmesini sağlayabilmesidir. Bilgisayara karşı oynanan oyunlarda RL ile geliştirilen algoritmalar, başarılarını sürekli iyileştirerek insanla rekabet edecek konuma gelmiştir.
Bir bilgisayarın Go oyununda gerçek bir insanı yendiği ilk karşılaşmada RL kullanılmıştır. Go oyunu siyah ve beyaz taşlarla oynanan iki kişilik bir strateji oyunudur. Özetle, taşlar, tahtadaki çizgilerin kesişim noktalarına yerleştirilir ve amaç tahta üzerinde en fazla alana sahip olmaktır. Go oyununda temel iki kural bulunmaktadır; rakibin taşını esir almak veya kendi alanını oluşturmak. Kuralları çok basit olmasına rağmen taşların tahta üzerindeki yerleşimlerinin olasılıklarının fazlalığı nedeniyle oyunda içgüdü, sezgi ve hisler çok önemlidir. Ekim 2015’te, RL, insanoğlunu temsil eden ve Go oyununda üç kez Avrupa Şampiyonu olan Fan Hui’yi yenme başarısını göstermiştir.
Go oyunundaki başarı RL’yi kullanarak genel kullanımlı derin öğrenme algoritmalarına yönelik çalışmanın, gerçekçi bir yaklaşım olduğuna dair kanıttır. Oyunda pek çok kombinasyonun mümkün olmasına rağmen RL’nin insanoğlunu yenmeyi başarması yapay zekânın gelecekteki potansiyel fırsatlarına ışık tutmaktadır. Herhangi bir insan rehberliği olmadan RL’nin uygulanabilirliğini göstermesi açısından dönüm noktalarından biri olarak kabul edilebilir.
Bu gelişme, bazı alanların varlığını sürdürebilmesi için alan uzmanlığına olan ihtiyacı ortadan kaldırabilir. Aynı zamanda, algoritmanın tüm öğrenme sürecinde, insanların düşünce sınırlandırmalarına sahip olmadığından, probleme yönelik tamamen yeni yaklaşımlar geliştirmekte özgür olduğu anlamına gelmektedir. Makinenin geliştirdiği stratejinin hesaplanabilir bir şekilde daha verimli olduğu ortaya çıkmaktadır. Böylece, RL ile öğrenen bir makinenin sadece oyunlarda değil gerçek hayat problemlerine de çözüm bulabileceği anlamına gelmektedir.
RL’nin oyundaki başarısı, farklı kullanım alanlarında yapılan çalışmaları da cesaretlendirmiştir. Optimizasyon algoritmalarının geliştirilmesi, robot kollarının veya bacaklarının etkili bir şekilde yönlendirilebilmesi ve özellikle son yılların popüler alanlarından otonom sistemlerin iyileştirilmesi için kullanılmaya başlanmıştır.