AI Bir Restoran Veya Saç Randevusu Yapabilir, Ama Tam Bir Konuşma Beklemeyin Yapay zeka asistanınızın sizin için bir randevu alabileceğinden emin olabilirsiniz, ancak anlamlı bir konuşma hakkında ne dersiniz? Shutterstock / Bas Nastassia

Google son zamanlarda açıkladı En son konuşan AI, Duplex. Dubleks, duraklamalar, “umms” ve “ahhs” ile tamamlanmış gerçek bir insan gibi geliyor.

Teknoloji devi, randevu almak ve iş açılış saatlerini kontrol etmek için telefondaki kişilerle konuşabileceğini söylüyor.

Bir kuaför randevusu zamanlama dubleks. Google445 KB (İndir)

Google'ın açılışında oynanan kaydedilmiş konuşmalarda, alıcı taraftaki insanlarla sorunsuz bir şekilde konuştu ve başka biriyle konuşmadıklarından tamamen habersiz görünüyordu.

Dubleks restoran çağırıyor. Google399 KB (İndir)

Bu çağrılar Google'daki teknoloji odaklı kitle nefes nefese ve tezahürat yapıyor. Bir örnekte, AI konuştuğu kişinin ne zaman karıştığını bile anladı ve konuşmaya devam etmeye devam etti ve rezervasyon yaptırması gerekmediği söylendiğinde uygun şekilde yanıt verdi.


kendi kendine abone olma grafiği


AI asistanlarının yükselişi

Şu anda kullanılabilen sesli yardımcılardan herhangi birini kullandıysanız, örneğin Google Home, Apple'ın Siri veya Amazon Echo, bu esneklik sizi şaşırtabilir. Bu yardımcılar meşhur zor bir kişiyi aramak, şarkı çalmak, basit bir web araması yapmak veya hatırlatıcı ayarlamak gibi standart isteklerden başka bir şey kullanmak için.

Bu mevcut kuşak asistanlarla konuştuğumuzda, her zaman bir yapay zeka ile konuştuğumuzun farkındayız ve genellikle söylediklerimizi buna göre, çalışma şansını en üst düzeye çıkaracağımızı umduğumuz şekilde uyarlarız.

Ancak Dubleks ile konuşan insanların hiçbir fikri yoktu. Tereddüt ettiler, geri adım attılar, kelimeleri atladılar ve hatta gerçekleri bir cümle ile değiştirdiler. Dubleks bir ritmi kaçırmadı. Gerçekten neler olduğunu anlamış gibiydi.


Daha fazla oku: Akıllı hoparlörler ev otomasyonu için bir dönüm noktası olabilir


Gelecek, beklenenden daha erken geldi mi? Dünya, mutlu bir şekilde sohbet eden ve bizim için her şeyi yapan çevrimiçi (ve telefonda) AI yardımcılarıyla dolu olmak üzere mi? Ya da daha kötüsü, birdenbire, bizi dahil edebilecek veya etmeyebilecek kendi düşünce ve fikirleri olan akıllı yapay zekalarla çevrelenecek miyiz?

Cevap kesin bir “hayır” dır. Nedenini anlamak için, böyle bir AI'yi neyin harekete geçirdiğine kaputun altına hızlı bir şekilde bakmak yardımcı olur.

Dubleks: nasıl çalışır

İşte bu Dubleks AI sistemi benziyor.

Gelen ses bir ASR sistemi üzerinden işlenir. Bu, metinden konuşmaya (TTS) sistem üzerinden yüksek sesle okunan bir yanıt metni üretmek için bağlam verileri ve diğer girdilerle analiz edilen metin üretir. Google

Sistem, telefonda konuştuğu kişinin sesi olan “solda gösterilen” girişi alır. Ses otomatik konuşma tanıma (ASR) üzerinden geçer ve metne dönüştürülür (yazılı kelimeler). ASR'nin kendisi gelişmiş bir AI sistemidir, ancak mevcut ses yardımcılarında zaten yaygın olarak kullanılan bir türdür.

Daha sonra metin, cümle türünü (selamlama, ifade, soru veya talimat gibi) belirlemek için taranır ve önemli bilgileri çıkarır. Anahtar bilgiler daha sonra Bağlamın bir parçası haline gelir, bu da sistemi konuşmada şimdiye kadar söylenenlerle güncel tutan ekstra bir girdidir.

ASR ve Bağlamdan gelen metin daha sonra Yapay Sinir Ağı (YSA) olarak adlandırılan Dubleks'in kalbine gönderilir.

Yukarıdaki şemada YSA, daireler ve bunları birleştiren çizgilerle gösterilmiştir. YSA beyinlerimizde gevşek bir şekilde modellenmiştirmilyarlarca nöronun muazzam ağlara bağlı olduğu

Henüz bir beyin değil,

YSA'lar beynimizden çok daha basittir. Bunun yapmaya çalıştığı tek şey, giriş sözcüklerini uygun bir yanıtla eşleştirmektir. YSA, restoranlar için rezervasyon yapan binlerce konuşmanın transkriptlerini göstererek öğrenir.

Yeterli örneklerle, konuştuğu kişiden ne tür girdi cümleleri bekleyeceğini ve her biri için ne tür yanıtlar vereceğini öğrenir.

YSA'nın ürettiği metin yanıtı, daha sonra telefondaki kişiye çalınan sözlü kelimelere dönüştüren bir metin-konuşma (TTS) sentezleyicisine gönderilir.

Bir kez daha, bu TTS synthesizer gelişmiş bir AI'dır - bu durumda telefonunuzdaki olandan daha gelişmiş, çünkü normal seslerden neredeyse ayırt edilemez geliyor.

Hepsi bu kadar. En son teknoloji olmasına rağmen, sistemin kalbi gerçekten sadece bir metin eşleştirme işlemidir. Ama sorabilirsiniz - eğer bu kadar basitse, neden daha önce yapamadık?

Öğrenilmiş bir yanıt

Gerçek şu ki, insan dili ve gerçek dünyadaki diğer birçok şey, normal bilgisayarlar tarafından iyi ele alınamayacak kadar değişken ve düzensizdir, ancak bu tür bir sorun AI için mükemmeldir.

AI tarafından üretilen çıktının tamamen öğrenirken gösterdiği konuşmalara bağlı olduğunu unutmayın.

Bu, farklı AI'ların farklı türlerde rezervasyon yapmak için eğitilmesi gerektiği anlamına gelir - bu nedenle, örneğin bir AI, restoranlar için rezervasyon yapabilir ve başka bir kişi saç randevuları için rezervasyon yapabilir.

Bu gereklidir çünkü soru ve yanıt türleri farklı rezervasyon türleri için çok farklı olabilir. Bu, Duplex'in birçok istek türünü yerine getirmesi gereken genel ses asistanlarından çok daha iyi olabilmesidir.

Bu yüzden şimdi, yakın zamanda AI asistanlarımızla gündelik görüşmeler yapmayacağımız belli olmalı. Aslında, mevcut tüm AI'lerimiz gerçekten desen eşleştiricilerden başka bir şey değildir (bu durumda, metnin eşleşen desenleri). Ne duyduklarını, neye baktıklarını ya da ne dediklerini anlamıyorlar.

Örüntü eşleme beynimizin yaptığı bir şeydir, ama aynı zamanda çok daha fazlasını yaparlar. Daha güçlü yapay zeka yaratmanın anahtarı beynin sırlarının daha fazla kilidini açmak olabilir. Biz istiyor muyuz? Şey, bu başka bir soru.Konuşma

Yazar hakkında

Doktora Sonrası Araştırma Görevlisi Peter Stratton, Queensland Üniversitesi

Bu makale şu adresten yeniden yayınlandı: Konuşma Creative Commons lisansı altında. Okumak Orijinal makale.