Urządzenia pozwalające sparaliżowanym osobom na komunikację ze światem zewnętrznym są opracowywane od kilku dekad lat, ale postęp technologiczny ostatnich lat pozwolił zaimplementować w nie sztuczną inteligencję. Tak powstał nowy implant, który tłumaczy sygnały z mózgu na mowę lub tekst oraz mimikę cyfrowego awatara i do tego funkcjonuje z niespotykaną dotąd dokładnością i szybkością.
Dwa zespoły naukowców w oddzielnych badaniach opisały na łamach pisma „Nature” (DOI: 10.1038/s41586-023-06377-x; DOI: 10.1038/s41586-023-06443-4) działanie interfejsów mózg-komputer (brain–computer interfaces – BCI), które tłumaczą sygnały neuronowe na tekst lub słowa wypowiadane przez syntezator mowy. Zasadniczo urządzenia te przechwytują fale mózgowe pacjenta, interpretują je na mowę i w przypadku drugiego badania mimikę, a następnie manifestują je w postaci cyfrowego awatara pacjenta.
Postęp ten budzi nadzieję, że BCI mogą być o krok od zmiany życia osób, które utraciły zdolność mówienia z powodu wypadków czy chorób. Do tej pory pacjenci musieli polegać na frustrująco powolnych (około 14 słów na minutę) syntezatorach mowy, które wybierały odpowiednie słowa za pomocą śledzenia wzroku lub drobnych ruchów twarzy, uniemożliwiając naturalną konwersację.
Szybsze i dokładniejsze interfejsy mózg-komputer
Naturalna rozmowa toczy się z szybkością około 160 słów na minutę, a opracowywane BCI mogą dekodować mowę z szybkością 62 słów na minutę w przypadku pierwszego z badań i 78 słów na minutę w przypadku drugiego. Oba BCI są szybsze niż dotychczasowe próby. – Można sobie wyobrazić przyszłość, w której będziemy mogli przywrócić możliwość płynnej rozmowy osobie sparaliżowanej, umożliwiając jej swobodne mówienie z wystarczająco dużą dokładnością, aby można było ją zrozumieć – powiedział Francis Willett z Uniwersytetu Stanforda, współautor jednej z publikacji.
Willett wraz ze swoim zespołem opracował BCI do interpretacji aktywności neuronowej na poziomie komórkowym i przekładania jej na tekst. Uczeni pracowali z 67-letnią Pat Bennett, która cierpi na stwardnienie zanikowe boczne – stan powodujący postępującą utratę kontroli nad mięśniami, co skutkuje trudnościami w poruszaniu się i mówieniu.
Jednak najpierw trzeba było zainstalować w mózgu pacjentki szereg malutkich elektrod w częściach odpowiedzialnych za mowę. Następnie uczeni przeszkolili algorytmy, aby rozpoznawały unikalne sygnały w mózgu Bennett, gdy ta próbowała wypowiadać różne frazy. Ta sztuczna inteligencja dekoduje słowa z fonemów – podstawowych jednostek struktury fonologicznej mowy tworzących wypowiadane słowa.
W przypadku zdań, które ograniczały się do wykorzystania jedynie 50 słów BCI działał 3,4 razy szybciej niż wcześniejszy BCI opracowany przez ten sam zespół i osiągnął współczynnik błędów słownych na poziomie 9,1 proc. Gdy limit słownictwa został podniesiony do 125 000 słów, czyli bliżej całkowitej liczby powszechnie używanych słów w języku angielskim, poziom błędów wzrósł do 23,8 proc.
– Około trzy na cztery słowa są rozszyfrowane poprawnie – powiedział Willett. – Ten system jest wyszkolony, aby wiedzieć, jakie słowa powinny znajdować się przed innymi i które fonemy tworzą jakie słowa. Jeśli niektóre słowa zostały błędnie zinterpretowane, to nadal można odgadnąć znaczenie wypowiedzi – dodał.
– Dla osób niewerbalnych oznacza to, że mogą pozostać w kontakcie ze światem, być może kontynuować pracę, utrzymywać przyjaźnie i relacje rodzinne – przyznała Bennett w oświadczeniu dla mediów.
Komunikacja poprzez awatar
W drugim badaniu Edward Chang, neurochirurg z Uniwersytetu Kalifornijskiego w San Francisco, wraz ze współpracownikami pracował z 47-letnią kobietą o imieniu Ann, która 18 lat temu utraciła zdolność mówienia po udarze pnia mózgu.
Uczeni pod okiem Changa zastosowali inne podejście niż zespół Willetta, umieszczając cienki jak papier prostokąt zawierający 253 elektrody na powierzchni kory mózgu. Technika ta, zwana elektrokortykografią, jest uważana za mniej inwazyjną i umożliwia jednoczesne rejestrowanie łącznej aktywności tysięcy neuronów. Wykrywa aktywność obszarów odpowiedzialnych za mowę i mimikę twarzy.
Zespół wytrenował algorytmy sztucznej inteligencji, aby rozpoznawały wzorce aktywności mózgu Ann związane z jej próbami wypowiedzenia 249 zdań przy użyciu słownictwa składającego się z 1024 słów. Urządzenie generowało 78 słów na minutę, a średni współczynnik błędów słownych wyniósł 25,5 proc.
Chociaż implanty używane przez zespół Willetta, które dokładniej wychwytują aktywność neuronalną, radziły sobie lepiej w przypadku większych zasobów słów używanych przez pacjentów, to dzięki zastosowaniu elektrokortykografii także możliwe stało się osiągnięcie niskiego współczynnika błędów.
Chang i jego zespół stworzyli także specjalne algorytmy do przekształcania sygnałów mózgowych Ann na głos i animowany awatar naśladujący mimikę twarzy. Co więcej, głos został spersonalizowany do pacjentki. Sztuczna inteligencja trenowała ton głosu na nagraniach ze ślubu Ann.
– Sam fakt, że słyszy się głos podobny do własnego, wywołuje emocje. Kiedy znów mogłam mówić, było to coś niesamowitego – powiedziała Ann badaczom. – Głos jest naprawdę ważną częścią naszej tożsamości. Nie chodzi tylko o komunikację, ale także o to, kim jesteśmy” – dodał Chang.
Jednak zanim opracowane BCI będą mogły zostać udostępnione do użytku klinicznego, potrzeba wielu ulepszeń. Idealnym byłoby, gdyby tego typu urządzenie było bezprzewodowe, bez widocznych złączy i kabli. Obydwa zespoły mają nadzieję w dalszym ciągu zwiększać szybkość i dokładność swoich urządzeń dzięki skuteczniejszym algorytmom dekodowania. Urządzenia muszą być również przetestowane na znacznie większej liczbie osób, aby udowodnić ich niezawodność.
Źródło: Nature, IFLScience, The Guardian, fot. Wikimedia Commons/ Harrypotterrrrr