Úgy száz éve az elektromosság minden nagy iparágat átalakított. A MI, a mesterséges intelligencia olyan ponton tart, ahol ugyanilyen átalakító erővel rendelkezik - vélekednek a szakemberek. A Mesterséges intelligencia (MI) lehetőségeit bemutató sorozatunk előző részében azt mutattuk be, hol tart most a MI fejlődése, és mit képes nyújtani nekünk? Most viszont arra is kitérünk, hogyan használják már most az MI-t a befektetők és a vállalatok a bevételek növelése érdekében.
A gép pontosabban tudja analizálni azt, amit lát, mint az emberi szem. Ezt főleg ott tudják alkalmazni, ahol egészen apró különbségeket kell észrevenni. Eric Schmidt, a Google anyacége, az Alphabet elnöke is azt mondta, ha például bőrrákot kell megállapítani, inkább bízza a számítógépes elemzésre, mint kizárólag az orvos szemére.
Ugyanakkor a komputerlátás még közel sem tökéletes. A komplementer halmazokat, tehát amikor két tárgy összeér (mert egymás mögött van) és egynek tűnik, továbbra sem tudja szétválasztani a "robotszem". Egy robot például remekül el tud játszani egy videojátékkal, de ha akár csak 2 százalékkal módosítják menet közben a színek fényerejét, már elveszett. Legalábbis a gépek többsége. A Facebook ma éppúgy arcfelismerő szoftverrel dolgozik, mint a Ben Gurion reptér biztonsági szolgálata.
A nagy netes platformok azért öltek sok pénzt a komputerlátás tökéletesítésébe, mert a manuális kép- és videóválogatás, azok kategorizálása, alkategóriákba osztása túlságosan idő- és pénzigényes. (Embert kell hozzá foglalkoztatni, aki megmondja, hogy az anyag pornográf jellegű vagy sem. Márpedig a netre irdatlan mennyiségű videót töltenek fel a felhasználók, manuálisan és emberi erőforrással képtelenség ezzel lépést tartani.)
A Facebook Lumos néven fejlesztette azt a videokategorizáló rendszert, ami nagy méretekben dolgozik, képes például az emberek testtartását azonosítva megítélni, hogy az vajon szabadidős-ücsörgős-heverős videó-e. A "szemantikai tartalom" azonosítása is kulcsfontosságú - például azt látni, hogy mi történik a felvételben, vajon amatőr vagy profit táncosok ropják-e a táncot.
Gép géptől tanul
Az MI jövője ott van, amikor a H2M (human to machine), vagyis ember és gép közötti kapcsolat mellett felpörög a M2M, vagyis a masinák közötti kapcsolat. És itt nemcsak arról van szó, amit már oly sokszor leírtunk, hogy a Dolgok Internete lehetővé teszi a szenzorok és az okos gépek egymás közötti kommunikációját.
A gépi mély tanulás (deep learning, machine learning) következő szintjén a masina már egy videóban rögzített "tananyagból" képes tanulni, vagyis "megnéz" egy képsort és abból "felfogja", hogy mit kell tenni bizonyos szituációkban. Ha például megmutatják egy robotnak több szemszögből is egy oktató videóban, hogy az ember hogyan önti a tejet a müzlire reggel, akkor az alapján képes elvégezni a mozdulatot. Persze itt még nem tartunk, de ez a fejlesztők célja.
Az e-kereskedelem kínai multija, az Alibaba már bevételnövelésre használja az MI-t. Egyik oldalán, a Taobaón a vásárlók feltölthetnek képét arról a tárgyról, amit meg akarnak venni. (Mert lehet, hogy az utcán egy járókelő kezében láttak egy menő táskát, vagy kocsiból egy kirakatban ruhát, s csak annyi idejük volt, hogy telefonukkal lefényképezték, de a termék részleteit, márkáját stb. már nem tudják.)
Az algoritmusok a fotók alapján beazonosítotják a terméket, illetve ajánlatokat adnak azokról az árukról, amik hasonlítanak a képen láthatóra. Az Alibaba az AR-t és a VR-t, vagyis a kiterjesztett valóságot (augmented reality) és a virtuális valóságot arra is használja, hogy a Costco boltjait láttassa a netezőkkel és ők virtuális bolyonghassanak az áruházban, végül pedig vásárolhassanak.
Hogyan történik ez? Feltesznek egy okosszemüveget és máris azt látják maguk előtt, hogy a boltban vannak, ahol szövegbuborékok ugranak fel, hogy mi mennyibe kerül - holott közben otthon ülnek a kanapén. Ezeket a megoldásokat is az MI teszi lehetővé. A YouTube-hoz hasonló Youku videosite-on az Alibaba most azon van, hogy a felhasználók térhatású tárgyakat illeszthessenek a videókba. Ettől a truvájtól remél több bevételt a honlap, ugyanis a videoplatformok még mindig veszteségesek világszerte. A YouTube is.
Hangfelismerés
2017 márciusában nyílt meg Japánban a Henn na Hotel, melynek recepcióján három robotnál lehet becsekkolni. Az egyik robotarcú, a másik emberi arcot visel, a harmadiknak dinoszauruszfeje van (és ahhoz illő tappancsa, kézfej gyanánt). Mindháromban közös, hogy MI működteti őket és mindháromnak a fején recepciós sapka virít. Érintésre is reagálnak, nemcsak vizuális és hangi információkra (vagyis a látványunkra és a hangunkra).
De nemcsak ez a turistavonzó érdekessége a szállodának. Ez a világ első teljesen automatizált hotele, ahol mindent robotok végeznek, állítólag még a szobaszervízt és az étterem ellátását is. Ha ez kicsit furának tűnik, valószínűleg nincs az olvasó ezzel egyedül. A Tokiói-öbölbeli Urayasuban, ebben a 164 ezres lélekszámú városban lévő szállodát ugyanis Henn na Hotelnek hívják, ami magyarul annyit tesz: fura szálló.
2010 óta olyan szintre hozták fel a hangfelismerést, hogy az okostelefonoknak is lehetett adni szóbeli utasításokat honlapok megnyitására, s ma a virtuális assisztensek, mint a Siri vagy az Alexa képesek felismerni, amit mondunk. Ma ezt természetesnek tekintjük, véli Ng. Az MI-guru szerint a parancsbemondás át fogja venni a gépelés szerepét. A szó lesz az inputunk az AI-platformok felé.
Ami igazán fontos itt, az a pontos megértés elérése. Ha például a júzer azt mondja Sirinek, hogy "később" akar enni, az algoritmusnak következtetnie kell rá, hogy ez alatt estebédet vagy vacsorát ért-e az illető egy étteremben, vagy házhoz szállítást kérne, esetleg receptre kíváncsi? Ha pedig a Hunger Gamest akarja, akkor eldöntendő a szándék értelmezése: a filmet venné meg, a filmzenét, netán a könyvet vagy a hangoskönyvet? Persze ilyen esetekben a gép visszakérdezhet, hogy pontosítson a felhasználó. De is a "szavakon túli jelentés" megértése kell a gép részéről.
Robotcsaládtagok?
Hány meg hány filmet láttunk már, amelyben a robot olyan fejlettségre tesz szert, hogy érzései lesznek, és fellázad az őt uraló emberek ellen. (2001 Űrodüsszeia, 1968, Feltámad a vadnyugat, 1973, AI, 2001). Spielberg 2001-es filmjében a robotfiú családtag. De kisebbségi érzése van, amiért nem biológiai rokon. Az MI-cégek most azzal kecsegtetnek, hogy állandó családtagot kínálnak robotformában, de ez a "termék" még aligha tud fellázadni tulajdonosai ellen.
Kuri, a robot azért így is sok mindent tud:
- A família "videónaplósa", mely mindenről mozgóképet rögzít, amit lát. A robot bal szeme mögé kamerát helyeztek, mely HD-minőségben dokumentálja a családi eseményeket.
- Gondoskodik arról, hogy senki se maradjon ki a szórakozásból. Zenét, podcastet (netes rádiós közvetítést), hangoskönyvet és videót is le tud játszani.
- Kurinak mélységi szenzorai is vannak, tehát jobban navigálja magát, mint más robotok.
- Képes felismerni a helyeket, ahol már járt, akár eltérő fényviszonyokban is (például a konyhát este meg reggel), s felismeri a korábban látott embereket és háziállatokat is.
- Ez utóbbi azért fontos, mert az "ismerős" alakoknál arca megváltozik: egy mosolyt tud küldeni feléjük.
Mindenlátó, mindentudó
A megismerés alapja a "pillanatfelismerés", vagyis a benne tárolt videókkal összeveti az éppen előtte zajló pillanatot, s ha hasonlóságot lát emberek között (vagyis megállapítja, hogy már korábbi videóban is szerepelt), akkor akár a nevén is tudja szólítani.
A legnagyobb veszély viszont a meghekkelés. Ha internetkapcsolatot is szerelnek egy ilyen robotba, hackerek behatolhatnak a memóriájába és a család szinte minden rögzített pillanatát ellophatják és elmenthetik a saját merevlemezükre vagy a felhőbe. Innentől kezdve nem lesznek titkok...
(Wharton Uni, WEF)