Yapay zeka asistanınızın sizin için bir randevu alabileceğinden emin olabilirsiniz, ancak anlamlı bir konuşma hakkında ne dersiniz? Shutterstock / Bas Nastassia
Google son zamanlarda açıkladı En son konuşan AI, Duplex. Dubleks, duraklamalar, “umms” ve “ahhs” ile tamamlanmış gerçek bir insan gibi geliyor.
Teknoloji devi, randevu almak ve iş açılış saatlerini kontrol etmek için telefondaki kişilerle konuşabileceğini söylüyor.
Google'ın açılışında oynanan kaydedilmiş konuşmalarda, alıcı taraftaki insanlarla sorunsuz bir şekilde konuştu ve başka biriyle konuşmadıklarından tamamen habersiz görünüyordu.
Bu çağrılar Google'daki teknoloji odaklı kitle nefes nefese ve tezahürat yapıyor. Bir örnekte, AI konuştuğu kişinin ne zaman karıştığını bile anladı ve konuşmaya devam etmeye devam etti ve rezervasyon yaptırması gerekmediği söylendiğinde uygun şekilde yanıt verdi.
AI asistanlarının yükselişi
Şu anda kullanılabilen sesli yardımcılardan herhangi birini kullandıysanız, örneğin Google Home, Apple'ın Siri veya Amazon Echo, bu esneklik sizi şaşırtabilir. Bu yardımcılar meşhur zor bir kişiyi aramak, şarkı çalmak, basit bir web araması yapmak veya hatırlatıcı ayarlamak gibi standart isteklerden başka bir şey kullanmak için.
Bu mevcut kuşak asistanlarla konuştuğumuzda, her zaman bir yapay zeka ile konuştuğumuzun farkındayız ve genellikle söylediklerimizi buna göre, çalışma şansını en üst düzeye çıkaracağımızı umduğumuz şekilde uyarlarız.
Ancak Dubleks ile konuşan insanların hiçbir fikri yoktu. Tereddüt ettiler, geri adım attılar, kelimeleri atladılar ve hatta gerçekleri bir cümle ile değiştirdiler. Dubleks bir ritmi kaçırmadı. Gerçekten neler olduğunu anlamış gibiydi.
Daha fazla oku: Akıllı hoparlörler ev otomasyonu için bir dönüm noktası olabilir
Gelecek, beklenenden daha erken geldi mi? Dünya, mutlu bir şekilde sohbet eden ve bizim için her şeyi yapan çevrimiçi (ve telefonda) AI yardımcılarıyla dolu olmak üzere mi? Ya da daha kötüsü, birdenbire, bizi dahil edebilecek veya etmeyebilecek kendi düşünce ve fikirleri olan akıllı yapay zekalarla çevrelenecek miyiz?
Cevap kesin bir “hayır” dır. Nedenini anlamak için, böyle bir AI'yi neyin harekete geçirdiğine kaputun altına hızlı bir şekilde bakmak yardımcı olur.
Dubleks: nasıl çalışır
İşte bu Dubleks AI sistemi benziyor.
Sistem, telefonda konuştuğu kişinin sesi olan “solda gösterilen” girişi alır. Ses otomatik konuşma tanıma (ASR) üzerinden geçer ve metne dönüştürülür (yazılı kelimeler). ASR'nin kendisi gelişmiş bir AI sistemidir, ancak mevcut ses yardımcılarında zaten yaygın olarak kullanılan bir türdür.
Daha sonra metin, cümle türünü (selamlama, ifade, soru veya talimat gibi) belirlemek için taranır ve önemli bilgileri çıkarır. Anahtar bilgiler daha sonra Bağlamın bir parçası haline gelir, bu da sistemi konuşmada şimdiye kadar söylenenlerle güncel tutan ekstra bir girdidir.
ASR ve Bağlamdan gelen metin daha sonra Yapay Sinir Ağı (YSA) olarak adlandırılan Dubleks'in kalbine gönderilir.
Yukarıdaki şemada YSA, daireler ve bunları birleştiren çizgilerle gösterilmiştir. YSA beyinlerimizde gevşek bir şekilde modellenmiştirmilyarlarca nöronun muazzam ağlara bağlı olduğu
Henüz bir beyin değil,
YSA'lar beynimizden çok daha basittir. Bunun yapmaya çalıştığı tek şey, giriş sözcüklerini uygun bir yanıtla eşleştirmektir. YSA, restoranlar için rezervasyon yapan binlerce konuşmanın transkriptlerini göstererek öğrenir.
Yeterli örneklerle, konuştuğu kişiden ne tür girdi cümleleri bekleyeceğini ve her biri için ne tür yanıtlar vereceğini öğrenir.
YSA'nın ürettiği metin yanıtı, daha sonra telefondaki kişiye çalınan sözlü kelimelere dönüştüren bir metin-konuşma (TTS) sentezleyicisine gönderilir.
Bir kez daha, bu TTS synthesizer gelişmiş bir AI'dır - bu durumda telefonunuzdaki olandan daha gelişmiş, çünkü normal seslerden neredeyse ayırt edilemez geliyor.
Hepsi bu kadar. En son teknoloji olmasına rağmen, sistemin kalbi gerçekten sadece bir metin eşleştirme işlemidir. Ama sorabilirsiniz - eğer bu kadar basitse, neden daha önce yapamadık?
Öğrenilmiş bir yanıt
Gerçek şu ki, insan dili ve gerçek dünyadaki diğer birçok şey, normal bilgisayarlar tarafından iyi ele alınamayacak kadar değişken ve düzensizdir, ancak bu tür bir sorun AI için mükemmeldir.
AI tarafından üretilen çıktının tamamen öğrenirken gösterdiği konuşmalara bağlı olduğunu unutmayın.
Bu, farklı AI'ların farklı türlerde rezervasyon yapmak için eğitilmesi gerektiği anlamına gelir - bu nedenle, örneğin bir AI, restoranlar için rezervasyon yapabilir ve başka bir kişi saç randevuları için rezervasyon yapabilir.
Bu gereklidir çünkü soru ve yanıt türleri farklı rezervasyon türleri için çok farklı olabilir. Bu, Duplex'in birçok istek türünü yerine getirmesi gereken genel ses asistanlarından çok daha iyi olabilmesidir.
Bu yüzden şimdi, yakın zamanda AI asistanlarımızla gündelik görüşmeler yapmayacağımız belli olmalı. Aslında, mevcut tüm AI'lerimiz gerçekten desen eşleştiricilerden başka bir şey değildir (bu durumda, metnin eşleşen desenleri). Ne duyduklarını, neye baktıklarını ya da ne dediklerini anlamıyorlar.
Örüntü eşleme beynimizin yaptığı bir şeydir, ama aynı zamanda çok daha fazlasını yaparlar. Daha güçlü yapay zeka yaratmanın anahtarı beynin sırlarının daha fazla kilidini açmak olabilir. Biz istiyor muyuz? Şey, bu başka bir soru.
Yazar hakkında
Doktora Sonrası Araştırma Görevlisi Peter Stratton, Queensland Üniversitesi
Bu makale şu adresten yeniden yayınlandı: Konuşma Creative Commons lisansı altında. Okumak Orijinal makale.