26 Nisan 2025

Yapay zeka ürettiği görsellerdeki yazıları genelde yanlış yazıyor: Kendi sorununu kendi açıkladı

#image_title

Hayatın bir kesimi olan yapay zekanın ürettiği görsellerin gerçekliği şaşırtsa da görsellerdeki metinleri çoğunlukla yazamaması yahut kusurlu yazması, bu programların temel problemlerinden biri. Neden yapay zeka üzere son teknoloji bir uygulama insanların için son derece kolay bir hususta sorun yaşıyor?

Yaşamın bir modülü haline gelmeye başlayan yapay zeka, fotoğraf üretme konusunda da muvaffakiyetini devam ettiriyor. Yapay zeka üretimi görseller ile gerçek fotoğraf ortasında ayrım yapmak giderek zorlaşırken yapay zekanın pek de başarılı olmadığı bir nokta dikkat çekiyor. Yapay zeka, görselleri üretirken hangi lisan olursa olsun genelde söz, sayı yahut harfi yanlış yazıyor.

‘Metin onlar için görselin yalnızca diğer bir parçası’

Yapay zeka resmettiği bir görselde yazı kullanması gerekiyorsa okunaklı yahut hakikat bir metin oluşturmakta zorlanıyor. London College Üniversitesi’nden Profesör Peter Bentley, yapay zeka programlarının bu mevzuda yaşadığı zorluğu şöyle açıklıyor:

“Görsel üreten yapay zekalar dünyamız hakkında hiçbir şey bilmiyor, 3D objeleri anlamıyor ya da görsellerde görünen metni anlamıyorlar. Görsellerle ilişkilendirilmiş metinsel etiketler biçiminde büyük ölçüde metin üzerinde eğitilmiş olsalar da, bir görsel içindeki metin onlar için görselin yalnızca öbür bir kesimi.”

Yapay zeka programları görsel üretirken beşerler üzere harflerin ne manaya geldiğini ve bir kelimeyi nasıl oluşturduklarını tam kavrayamıyor. Yapay zekaya nazaran bir görseldeki metnin harfleri, öbür her şey üzere çizgiler ve hallerin farklı bir türevi.

Yapay zeka programları, metni başka görsel formlara yaptıkları üzere ele alıyor ve eğitildikleri örneklerde görünen metnin kaba bir kestirimini oluşturmaya çalışıyorlar. Yani metni beşerler üzere yazmak yerine, gördükleri harflerin bir türevini çizmeye çalışıyor.

Yapay zeka programları, metnin semantik (anlam bilimi) manasını kavramaktan fazla görsel desenleri tanımak ve tekrar üretmek için tasarlanmış. Formları ve çizgileri çeşitli varlıklarla ilişkilendirirler lakin gerçek metin üretimi için gereken kesin anlayıştan mahrumdurlar.

Yapay zeka görseli
© Fotoğraf : Bu fotoğraf yapay zeka ile oluşturulmuştur

Tavsiyeler tekrar yapay zekadan

Görsellerdeki metinlerin yanlışlı olması, son teknoloji olan yapay zeka programlarının önünde duran temel sıkıntılardan bir tanesi. Bu sorunu bir yapay zeka programı ise şöyle açıklıyor:

“Görsel üretim modelleri, metin ve görsel bileşenlerini birlikte oluşturur. Lakin model, direkt bir söz işlemci üzere harf harf yazı yazmaktan çok, görselleri genel kompozisyona nazaran oluşturur. Bu yüzden birtakım sözleri eksik, bozuk yahut yanlış üretebilir. Modelin temel emeli, metni birebir gerçek yazmak değil, verilen açıklamaya en uygun halde görsel üretmektir. Münasebetiyle, bazen metin bütünlüğü bozulur zira model daha çok görsel estetiğe odaklanır.

Program gerçek dünyadaki tüm yazı tipleri, fontlar ve tabelalarla birebir öğrenme yapmamıştır. Bu nedenle, tabelalar yahut logolar üzerindeki metinler ekseriyetle bozulur.”

Öte yandan görsel üretildikten sonra yapay zekaya hakikat ve isabetli komutlar vermek, görseldeki kusurlu metinleri büyük ölçüde düzelmesini sağlıyor. Örneğin “fırın” sözü yanlış yazılmışsa bu yanılgı belirtilip nasıl yazılması konusunda açık bir komut verilebilir.