Przyszłość Smart Home to Alexa? Podsumowujemy Innovation@Amazon

Szybki spis treści:

Mowa o twoich potrzebach
Technologia musi przenikać nasze życie, nie je kształtować
Prywatność na jasnych zasadach
Inteligentny dom robi kilka rzeczy naraz
Metoda lejka oraz talii kart
Deweloperzy muszą mieć dobrze

Przyszłość Smart Home to Alexa? Podsumowujemy Innovation@Amazon

Wizje asystentów, którzy wyręczają nas w coraz większej liczbie czynności, jest kusząca. Część użytkowników nie może się jednak przekonać do tej formy komunikacji. Problemem bywają nie tylko ceny, ale i sposób nawiązywania kontaktu, który nie zawsze jest naturalny. Jak powinna wyglądać przyszłość smart home? Odpowiedzi na to pytanie poszukaliśmy na konferencji Innovation@Amazon.

Konferencja Innovation@Amazon zgromadziła w tym roku ponad 350 uczestników. Wśród nich większość korzysta z narzędzi od Amazona. Firma jest liderem rozwiązań serwerowych i hostingowych, a Amazon Web Services stanowią podstawę działania takich serwisów jak Netflix, Spotify czy Airbnb.

To ogromny potencjał, by budować zaangażowaną społeczność programistów. To także szansa, by zachęcić ich do tworzenia oprogramowania na sprzęty z asystentem głosowym Alexa.

A ten ma za sobą imponujące liczby. Przez pięć lat sprzedało się ponad 100 milionów urządzeń korzystających z ekosystemu Amazona. We współpracę zaangażowało się 7400 producentów. To wszystko przekłada się na ponad 60 tysięcy unikalnych urządzeń smart home.

Ponad 350 deweloperów i programistów zobaczyło przyszłość rozwiązań Amazona (źrodło: Biuro Prasowe Amazona)

Nie tylko głośniki czy żarówki, ale i zegarki naścienne, piekarniki, a nawet zlewy integrują się z Alexą. Wszystko po to, by tworzyć przestrzeń inteligentną, w której, nomen omen, użytkownik czuje się jak w domu.

Innovation@Amazon jest miejscem, gdzie prezentowane są nowe narzędzia dla branży IT oraz osiągnięcia programistów. W tym roku nie zabrakło też kilku pokazów i rozmówców, które pozwalały przekonać się, jak będzie wyglądać przyszłość inteligentnego domu. Oto jej najważniejsze filary.

Mowa o twoich potrzebach

Głos to dla człowieka naturalny środek komunikacji, a mówienie to najpopularniejszy interfejs. Komputerowo komunikujemy się zaledwie od kilkudziesięciu lat. Ważnym jest więc, by głos, który zarządza procesami w naszym domu, był zrozumiały, ale i dopasowany do sytuacji.

Odnoszę wrażenie, że w porównaniu z ubiegłym rokiem Alexa zaczęła brzmieć lepiej. Aby zademonstrować, jak bardzo naturalnie brzmi synteza mowy asystenta Amazona, powierzono mu zadanie prowadzenia konferencji. Choć tak naprawdę była uzupełnieniem pomiędzy wykładami prelegentów, to jej głos sprawiał wrażenie całkiem naturalnego.

Rafał Kukliński z gdańskiej dywizji Amazon Development Centre, odpowiedzialny za rozwiązania głosowe Alexy (Źródło: Biuro Prasowe Amazonu)

Gdańska dywizja Amazon Development Center poświęciła sporo czasu, by dopieścić technologię intonacji głosu. Wiemy już, że ta potrafi być na tyle dobra, by przy odrobinie nieuwagi pomóc podszyć się pod prawdziwą osobę. Tutaj zastosowania są bardziej legalne. W przypadku Alexy poza odmiennymi opcjami głosowymi na wybranych rynkach dochodzą także rozmaite intonacje głosu:

Whisper Mode – wprowadzony w poprzednim roku sprawia, że odpowiedzi asystenta są cichsze i przypominają szeptanie. Są dwie opcje, by uruchomić ten tryb. Jedną z nich jest skorzystanie z ustawień. Druga, znacznie ciekawsza, to po prostu zadanie pytania szepczącym głosem. Wtedy otrzymana odpowiedź jest cichsza oraz inaczej intonowana. Zmniejsza to szanse obudzenia najbliższych.
Newscaster – funkcja szczególnie przydatna podczas odsłuchiwania wiadomości. Aby z niej skorzystać, należy zapytać „Alexa/inne słowo wybudzające, What’s the latest?”. Otrzymujemy wtedy najnowsze dostępne wiadomości. Intonacja głosu staje się bardziej miarowa i punktowa, by uwypuklić najważniejsze szczegóły komunikatu. Jest on także nieco głośniejszy od typowej odpowiedzi. Ponadto forma wiadomości jest skoncentrowana i zajmuje zaledwie parę zdań.
DJ Mode – ta funkcja pojawi się niebawem i przyda się przede wszystkim podczas słuchania muzyki imprezowej. Wtedy Alexa będzie w stanie zmienić ton swojego głosu na tyle, by brzmiał on dynamiczniej. Przy tym wszystkim odpowiedzi mają zbliżać się do sposobu, w jaki DJ-e komunikują się z publicznością.

Większa elastyczność pozwala także na implementację innych lektorów. Do współpracy zaproszono Samuela L. Jacksona, który użyczał swojego głosu. Ten po zastosowaniu sztucznej inteligencji, w tym nauczania językowego, został przystosowany, by w adekwatnym tonie odpowiadał na pytania. Jak zapewniają programiści, w procesie nie utracono osobowości aktora. Pojawią się nawet wulgaryzmy, które oczywiście da się wyłączyć.

Technologia musi przenikać nasze życie, nie je kształtować

Podczas prezentacji o projektowaniu sytuacyjnym Max Amordeluso, lider europejskiego zespołu rozszerzającego działanie Alexy, powiedział o ekosystemie Amazona w następujący sposób:

Urządzenia należy projektować tak, by użytkownik nie musiał się odizolowywać od otoczenia, a by współgrało ono z nim.

Słowa Maxa Amordeluso o tworzeniu ekosystemu Alexy miały wskazywać na dominację interfejsów głosowych nad smartfonami, ale udowodniły coś jeszcze. Komunikacja za pośrednictwem smartfonów i komputerów odcina użytkowników od otoczenia.

Jeśli w nim znajdują się inne osoby, nasza „wybiórcza obecność” przekłada się na relacje międzyludzkie. Oczywiście podczas konferencji nie starano się udowodnić, że Alexa ratuje sytuacje w rodzinie i wszyscy częściej ze sobą rozmawiają. W końcu sama Alexa trafiła na Androida jakiś czas temu.

Max Amordeluso pokazywał, że interfejsy głosowe są wzorcem komunikacji z komputerem (Źródło: Biuro Prasowe Amazona)

Chodziło raczej o to, jak wielką rolę grała technologia podczas wykonywania za jej pośrednictwem zadań. Interfejs głosowy nie angażuje naszego wzroku, nie wymaga trzymania urządzenia w rękach, opiera się też na metodzie komunikacji, której uczymy się od najmłodszych lat. Dlatego na konferencji pracownicy Amazonu mówili o głosie jako o przyszłości interakcji z komputerami.

Prywatność na jasnych zasadach

Przy tym typie komunikacji problemem staje się prywatność – zarówno nasza wobec innych osób w pobliżu, jak i wobec tego, co z naszym głosem robi urządzenie. Smart Home przyszłości od Amazonu pozwala chociażby na przekazanie odpowiedzi szeptem, dzięki czemu nie obudzimy osób dookoła. Problemu głośności nie da się całkowicie rozwiązać, choć pierścionek czy okulary z wbudowaną Alexą sprawiają, że odpowiedzi słyszymy tylko my.

Jeśli zaś chodzi o naszą prywatność względem firmy: oprogramowanie Amazona nie posiada trybu incognito i nie ma w planach, by taki tryb się pojawił. Jednocześnie firma zezwala użytkownikom, by uruchomili automatyczne kasowanie swoich wypowiedzi.

Tak niewielki zegarek może być centrum domowej rozrywki, także w trybie offline (Źródło: Biuro Prasowe Amazona)

Zasada działania Alexy jest prosta i przypomina rejestrator jazdy: urządzenia rejestrują krótkie fragmenty wypowiedzi, które są sprawdzane pod kątem obecności słowa wybudzającego (najczęściej „Alexa” albo „Echo”). Gdy to się pojawia, nagrywane jest to, co mówi użytkownik. Proces kończy się po kilku sekundach ciszy.

Amazon tłumaczy dość jasno, jak wykorzystywane są nagrania. To proces, który firma przeprowadza na nagraniach od każdego użytkownika. Jego próbki głosu pochodzą jedynie z momentów po wywołaniu słowa kluczowego. W każdej chwili możemy je odsłuchać i skasować. Bez ich zbierania nie byłoby możliwe zaawansowane nauczanie maszynowe. Ponadto cena urządzeń wzrosłaby, gdyby prowadzić dodatkowe badania zamiast korzystać z wiedzy użytkowników.

Inteligentny dom robi kilka rzeczy naraz

Amazon konsekwentnie wdraża scenariusze. Po powiedzeniu „Alexa, jestem w domu” zapalają się inteligentne żarówki, włącza telewizor oraz czajnik z wodą na herbatę, a rolety się rozsuwają.

Komendy mogące angażować kilka urządzeń to nic nowego, jednak w wyścigu o inteligentny dom przyszłości wygra ten, kto jak najefektywniej doda jak najwięcej scenariuszy. Dlatego też nieco zabawne „Alexa, uruchom tryb romantyczny” dla wielu może okazać się całkiem przydatne. Sytuacja, w której przygasają światła, wyłącza się telewizor i zasuwają rolety oraz uruchamia się odpowiednia muzyka znacznie skraca proces, który normalnie załatwiłoby kilka komend.

Wszystkie urządzenia z tej półki da się kontrolować jedną komendą głosową (Źródło: Biuro Prasowe Amazona)

Gdy w zeszłym roku zapytaliśmy, co Amazon robi w Polsce, nie wiedzieliśmy jeszcze, że asystent otrzyma funkcję rozmów offline. Pakiet konwersacyjny pozwala na włączenie czy wyłączenie urządzeń w sytuacjach, gdy zabraknie internetu. Wystarczy połączenie Bluetooth. Pozwala także na wprowadzenie systemu do samochodów, a współpracą zainteresowane jest między innymi General Motors.

Droga do pełnej transcendencji jest mimo to jeszcze długa. Bywają problemy z językiem angielskim, zwłaszcza po spłaszczeniu go przez polskie brzmienie. W tym miejscu bądźmy jednak zupełnie szczerzy – to problem, z którym nie radzi sobie większość rozwiązań, bowiem są szykowane dla osób z kraju o charakterystycznym akcencie.

Poza tym ze skutecznością rozwiązań Google rozumiejących język polski także nie jest idealnie. To po prostu kwestia pracy nad coraz większą ilością próbek. Warto wspomnieć, że firma współpracuje z osobami mającymi zaburzenia mowy, tak aby uczynić rozwiązanie jak najbardziej dostępnym.

Metoda lejka oraz talii kart

Gdy chcemy zapytać Alexę o przepis na śniadanie, najczęściej skorzystamy z frazy „Alexa, pokaż mi przepisy na śniadanie”. Najczęściej, bo niejednokrotnie nasza składnia nie jest idealna i zmienimy kolejność słów lub nawet ich treść. Gdy zaś mamy dobry humor, możemy powiedzieć „Alexa, zapodaj mi opcje na najważniejszy posiłek dnia”. Asystent, jeśli rozumie kontekst kulturowy i dobrze wyłapuje słowa kluczowe, zrozumie i poda nam posiłek.

Komenda wywołania śniadania uruchomi wodę na owsiankę i włączy wiadomości jednocześnie (Źródło: Biuro Prasowe Amazona)

Deweloperzy nie będą jednak w stanie objąć swoim umysłem wszystkich opcji językowych. Amazon ułatwia im to zadanie, zmieniając podejście w projektowaniu na tak zwane projektowanie sytuacyjne. Jego zasady tłumaczy Rafał Kukliński, dyrektor Amazon Development Center w Gdańsku:

Daje to możliwość budowania konwersacji z Alexą w bardziej naturalny sposób. [...] Funkcjonujemy bardziej na poziomie abstrakcyjnym - różne formy dialogu budowane są przez Alexę, co ułatwia konstruowanie interfejsu dla Alexy.

Deweloperzy mogą w rezultacie dopasować ich treści do scenariuszy rozmowy symulowanych przez asystenta w ramach Alexa Conversations. Te są oparte na rzeczywistej wiedzy zdobytej dzięki nagraniom. Jest to swoista "talia kart", z której łatwiej jest wyciągnąć odpowiedź.

Deweloperzy muszą mieć dobrze

Na początku projektowania jakiegokolwiek komunikatu stoją deweloperzy - czy to pracujący dla firmy, czy indywidualnie. To ich decyzje sprawiają (jeszcze), że o urządzeniu mówimy jako mądrym bądź niekoniecznie. Stworzenie środowiska, które nie będzie utrudniać im pracy i pozwoli skupić się na dodawaniu autorskich rozwiązań do gotowego modułu, jest istotną częścią przyszłości Smart Home.

Podczas warsztatów z tworzenia własnego Skilla prezentujący pokazywał możliwości platformy Amazon Lex. To narzędzie dające deweloperom te same rozwiązania głębokiego nauczania, które wykorzystuje się przy tworzeniu Alexy. Dzięki temu zyskują oni oprogramowanie do automatycznego rozpoznawania mowy i konwertowania jej na tekst.

Amazon udostępnia bazy narzędzi do łatwego programowania (Źródło; Biuro Prasowe Amazona)

Przyspiesza proces weryfikacji zmian podczas projektowania programu. Ponadto korzystają ze zdobytej już przez Amazona wiedzy z zakresu naturalnego rozumowania języka. Krótszy jest więc czas, w którym Skilla programuje się pod konteksty wypowiedzi. Choć baza wiedzy rozwiązań Amazona nie jest nieskończona, na pewno ułatwia to pracę.

Amazon Web Services to ponad 165 narzędzi do tworzenia rozwiązań serwerowych, hostingowych, analitycznych czy Internetu Rzeczy. I choć ten potencjał na razie omija Polskę w najbardziej namacalnym sensie (a o dacie premiery Alexy w Polsce nie mówi nikt), to jest to spory kapitał.

O autorze: Michał Mielnik

Studiuję, recenzuję, informuję. Z technologią obcuję od najmłodszych lat. Zapatrzony w smartfony, choć czasem spoglądam na inne urządzenia. Redaguję VideoNewsa - cotygodniowe podsumowanie ze świata tech oraz zestawienia z najlepszymi telefonami na rynku.