Öğrenen Makinelerin İnsanla Rekabeti

Yayınlanma Tarihi: 07.08.2018
Görüntüleme: 253
Yazar: Seray BEŞER, STM

Çevremizle etkileşim kurarak öğrenme fikri, öğrenmenin doğasını düşündüğümüzde muhtemelen ortaya çıkan ilk örnek olacaktır. Hayatımız boyunca çevremizle olan bu etkileşimler çevremiz hakkında bilgi kaynağı oluşturmamızı sağlar. Doğumdan itibaren konuşmayı veya yazı yazmayı öğrenmek dışında davranışlarımızın ortamda ne gibi sonuçlar doğurduğunu da öğrenmeye başlarız. Çevreyle etkileşimden öğrenmek neredeyse tüm öğrenme ve zekâ kuramlarının altında yatan temel fikri oluşturmaktadır ve bu öğrenme yaklaşımına teoride Reinforcement Learning (RL) ya da Türkçe adıyla Pekiştirmeli Öğrenme denilmektedir.

Hayvanların Öğrenme Psikolojisinden Makinelerin Öğrenmesine Yolculuk
RL’nin tarihçesine bakıldığında iki bağımsız yaklaşımın temel alındığı görülmektedir. İlk yaklaşım, hayvanların öğrenme psikolojisi çalışmalarıyla ortaya çıkan alanlandan biri olan deneme yanılma yoluyla öğrenmeye dayanmaktadır. İkinci yaklaşım ise öğrenmeyle pek alakası olmayan optimum kontrol sorunu ve çözümüyle ilgilidir. Optimum kontrol terimi, dinamik bir sistemin, zaman içindeki davranışının duruma göre en uygun çözümüne yönelik algoritmaların geliştirilmesini tanımlamak için kullanılmaktadır. Bu iki yaklaşım birbirinden oldukça ayrı gözükse de 1980’lerin sonunda bir araya gelerek yeni ve modern bir alan olan RL’yi doğurmuştur. 

Nasıl Deneyerek Öğrenilir?
RL’de çevreyle etkileşimde bulunan varlık, en çok ödülü alabilmeyi sağlayacak şekilde ne yapılması gerektiğini öğrenir. Bu öğrenmeyi gerçekleştirirken hangi davranışları yapması gerektiği ona anlatılmamaktadır, bunun yerine hangi davranışların en çok ödül getireceğini denemek zorundadır. Bu öğrenme şekli zincirleme bir yapıdadır. Öğrenen varlık, sadece anlık ödüller kazanmak yerine, elde edeceği ödülleri maksimize etmek için bir sonraki durumda davranışının ne sonuçlar doğuracağını denemeli ve öğrenmelidir. İnsan beyni öğrenmeyi otomatik olarak kendiliğinden yapabiliyorken, makineleri eğitmekte kullanılan sinir ağları doğru şekilde örüntüleri kurgulamaya çalışarak sonuca ulaşılabilecektir. Bu tür öğrenme çok güçlü bir araçtır ve neredeyse her biyolojik birimde yer alır. Doğayı, neredeyse her buluşunda ilham kaynağı olarak kullanan insan, makinelerine öğretmeyi de yine doğadan esinlenerek geliştirmeye çalışmıştır.

Makinelerin İnsanlardan Daha İyi Deneyerek Öğrenebilmesi
Teknolojinin ilerlemesiyle birlikte makinelerin öğrenmesinin önünün açılması, büyük bir rekabeti de beraberinde getirmiştir. Öğrenen makineler öncelikle diğer makineleri (algoritmaları), sonra en büyük sınav olarak insanları kendi oyunlarında yenmeyi hedeflemektedir. Oyunlarda sürekli yarışan algoritmalara RL de katılmıştır.

Günümüzde RL’nin en popüler kullanım alanlarından birinin oyunlar olmasının sebebi algoritmanın sürekli deneyerek oyunu öğrenmesi ve en yüksek puanla oyunu bitirmesini sağlayabilmesidir. Bilgisayara karşı oynanan oyunlarda RL ile geliştirilen algoritmalar, başarılarını sürekli iyileştirerek insanla rekabet edecek konuma gelmiştir.

Bir bilgisayarın Go oyununda gerçek bir insanı yendiği ilk karşılaşmada RL kullanılmıştır. Go oyunu siyah ve beyaz taşlarla oynanan iki kişilik bir strateji oyunudur. Özetle, taşlar, tahtadaki çizgilerin kesişim noktalarına yerleştirilir ve amaç tahta üzerinde en fazla alana sahip olmaktır. Go oyununda temel iki kural bulunmaktadır; rakibin taşını esir almak veya kendi alanını oluşturmak. Kuralları çok basit olmasına rağmen taşların tahta üzerindeki yerleşimlerinin olasılıklarının fazlalığı nedeniyle oyunda içgüdü, sezgi ve hisler çok önemlidir. Ekim 2015’te, RL, insanoğlunu temsil eden ve Go oyununda üç kez Avrupa Şampiyonu olan Fan Hui’yi yenme başarısını göstermiştir.

Deneme Yanılma ile Öğrenen Makinelerin Geleceği
Go oyunundaki başarı RL’yi kullanarak genel kullanımlı derin öğrenme algoritmalarına yönelik çalışmanın, gerçekçi bir yaklaşım olduğuna dair kanıttır. Oyunda pek çok kombinasyonun mümkün olmasına rağmen RL’nin insanoğlunu yenmeyi başarması yapay zekânın gelecekteki potansiyel fırsatlarına ışık tutmaktadır. Herhangi bir insan rehberliği olmadan RL’nin uygulanabilirliğini göstermesi açısından dönüm noktalarından biri olarak kabul edilebilir.

Bu gelişme, bazı alanların varlığını sürdürebilmesi için alan uzmanlığına olan ihtiyacı ortadan kaldırabilir. Aynı zamanda, algoritmanın tüm öğrenme sürecinde, insanların düşünce sınırlandırmalarına sahip olmadığından, probleme yönelik tamamen yeni yaklaşımlar geliştirmekte özgür olduğu anlamına gelmektedir. Makinenin geliştirdiği stratejinin hesaplanabilir bir şekilde daha verimli olduğu ortaya çıkmaktadır. Böylece, RL ile öğrenen bir makinenin sadece oyunlarda değil gerçek hayat problemlerine de çözüm bulabileceği anlamına gelmektedir.

RL’nin oyundaki başarısı, farklı kullanım alanlarında yapılan çalışmaları da cesaretlendirmiştir. Optimizasyon algoritmalarının geliştirilmesi, robot kollarının veya bacaklarının etkili bir şekilde yönlendirilebilmesi ve özellikle son yılların popüler alanlarından otonom sistemlerin iyileştirilmesi için kullanılmaya başlanmıştır.


İşbu eserde/internet sitesinde yer alan veriler/bilgiler, yalnızca bilgi amaçlı olup, bu eser/internet sitesinde bulunan veriler/bilgiler tavsiye, reklam yada iş geliştirme amacına yönelik değildir. STM Savunma Teknolojileri Mühendislik ve Ticaret A.Ş. işbu eserde/internet sitesinde sunulan verilerin/bilgilerin içeriği, güncelliği ya da doğruluğu konusunda herhangi bir taahhüde girmemekte, kullanıcı veya üçüncü kişilerin bu eserde/internet sitesinde yer alan verilere/bilgilere dayanarak gerçekleştirecekleri eylemlerden ötürü sorumluluk kabul etmemektedir. Bu eserde/internet sitesinde yer alan bilgilerin her türlü hakkı STM Savunma Teknolojileri Mühendislik ve Ticaret A.Ş.’ye aittir. Yazılı izin olmaksızın eserde/ internet sitesinde yer alan bilgi, yazı, ifadenin bir kısmı veya tamamı, herhangi bir ortamda hiçbir şekilde yayımlanamaz, çoğaltılamaz, işlenemez.