Naukowcy opracowali urządzenie, które może „czytać myśli” i przekształcać sygnały mózgowe w syntetyzowaną mowę. Technologia nie jest jeszcze wystarczająco dokładna do wykorzystania poza laboratorium, ale w przyszłości może przywrócić zdolność mówienia osobom po urazach mózgu, udarach lub cierpiących na choroby neurodegeneracyjne.
Przez lata naukowcy próbowali stworzyć system, który może generować syntetyczną mowę korzystając z aktywności mózgu. Zespół naukowców z Uniwersytetu Kalifornijskiego w San Francisco w końcu tego dokonał. Chociaż technologia ta wciąż wymaga dopracowania, pewnego dnia może przywrócić możliwość komunikacji osobom, które utracili zdolność mówienia w wyniku urazów mózgu czy chorób neurodegeneracyjnych, takich jak choroba Parkinsona lub stwardnienie zanikowe boczne, na które cierpiał słynny fizyk Stephen Hawking.
Nowy interfejs mózg-komputer może generować naturalnie brzmiącą mowę dekodując impulsy elektryczne mózgu, które odpowiadają za koordynację ruchu ust, szczęki, języka i krtani podczas wysławiania się. Opis nowo opracowanego systemu pojawił się na łamach pisma „Nature”.
Niektóre osoby z poważnym upośledzeniem mowy uczą się wyrażać swoje myśli litera po literze za pomocą urządzeń wspomagających, które śledzą bardzo małe ruchy oczu lub mięśni twarzy. Jednak tworzenie tekstu lub syntetyzowanej mowy za pomocą takich urządzeń jest żmudne, podatne na błędy i boleśnie powolne. Zazwyczaj umożliwia wyrażenie maksymalnie 10 słów na minutę, w porównaniu do 100-150 słów na minutę podczas korzystania z naturalnej mowy.
Nowy system opracowywany w laboratorium Edwarda Changa pokazuje, że możliwe jest stworzenie syntetyzowanej wersji głosu osoby, która z jakiegoś powodu nie może mówić. System korzysta z aktywności centrów mowy w mózgu. W przyszłości takie podejście może nie tylko przywrócić płynną komunikację z osobami, które zostały jej pozbawione, ale również może odtworzyć tembr głosu oddający emocje i osobowość mówcy.
– Nasze badania pokazują, że możemy generować całe zdania w oparciu o aktywność mózgu danej osoby – powiedział Chang. – To ekscytujący dowód na to, że dzięki technologii, która jest już w zasięgu ręki, powinniśmy być w stanie zbudować urządzenie, które odmieniłoby życie pacjentów z utratą mowy – dodał.
Kierujący badaniami dr Gopala Anumanchipalli wraz z Joshem Chartierem oparli się na niedawnych pracach, w których opisano, jak centra mowy w ludzkim mózgu kontrolują ruchy warg, szczęki, języka i innych elementów traktu głosowego, aby wytworzyć płynną mowę.
Badacze zdali sobie sprawę, że wcześniejsze próby bezpośredniego dekodowania mowy z aktywności mózgu mogły spotkać się z ograniczonym powodzeniem, ponieważ te regiony mózgu nie reprezentują bezpośrednio właściwości akustycznych dźwięków mowy, ale raczej instrukcje potrzebne do koordynowania ruchów ust i gardła podczas mowy.
– Związek między ruchami traktu głosowego a wytwarzanymi dźwiękami mowy jest skomplikowany – powiedział Anumanchipalli. – Uznaliśmy, że jeśli centra mowy w mózgu kodują raczej ruchy niż dźwięki, powinniśmy spróbować zrobić to samo w dekodowaniu tych sygnałów -dodał.
Swoje pomysły uczeni przetestowali na pięciu ochotnikach leczonych w Centrum Epilepsji Uniwersytetu Kalifornijskiego w San Francisco. Pacjenci mieli tymczasowo wszczepione elektrody do mózgu w celu zmapowania źródła napadów padaczkowych. Nie mieli żadnego upośledzenia mowy. Poproszono ich, by przeczytali kilkaset zdań głośno, podczas gdy naukowcy rejestrowali aktywność z regionu mózgu, o którym wiadomo, że jest zaangażowany w wytwarzanie mowy.
Opierając się na nagraniach dźwiękowych głosów uczestników, naukowcy wykorzystali zasady lingwistyczne do inżynierii wstecznej ruchów dróg głosowych potrzebnych do wytworzenia tych dźwięków. Chodziło o dokładne ustawienie ust, przesunięcie języka itp.
To szczegółowe odwzorowanie dźwięku na anatomię umożliwiło naukowcom stworzenie realistycznego wirtualnego traktu głosowego dla każdego uczestnika. Badacze wykorzystali przy tym dwa algorytmy uczenia maszynowego – dekoder, który przekształca wzorce aktywności mózgu wytwarzane podczas mowy w ruchy wirtualnego traktu głosowego oraz syntezator, który przekształca te ruchy dróg głosowych w syntetyczne przybliżenie głosu uczestnika.
Syntetyczna mowa wytworzona przez te algorytmy była znacznie lepsza niż syntetyczna mowa bezpośrednio zdekodowana z aktywności mózgu uczestników bez włączenia symulacji traktu głosowego mówców. Algorytmy wytworzyły zdania, które były zrozumiałe dla setek słuchaczy w testach przeprowadzanych na platformie internetowej. Dokładnie zidentyfikowano 69 proc. zsyntetyzowanych słów. Algorytmy lepiej radziły sobie z syntetyzowaniem krótszych słów. W przypadku dłuższych i trudniejszych słów, dokładność spadła do 47 proc.
– Dobrze nam idzie syntezowanie wolniejszych dźwięków, jak również utrzymywanie rytmów i intonacji mowy oraz płci i tożsamości mówcy, ale niektóre z bardziej gwałtownych dźwięków tracą na dokładności – przyznał Chartier.
Naukowcy eksperymentują obecnie z bardziej zaawansowanymi algorytmami uczenia maszynowego, które, jak mają nadzieję, jeszcze bardziej poprawią syntezę mowy. Kolejnym ważnym testem dla technologii jest ustalenie, czy ktoś, kto nie potrafi mówić, może nauczyć się korzystać z systemu, nie będąc w stanie trenować go własnym głosem.
Wstępne wyniki jednego z uczestników badań sugerują, że opracowany system może dekodować i syntetyzować zdania z aktywności mózgu niemal tak dobrze, jak zdania, na których szkolono algorytm. Jeden z uczestników po prostu wymówił zdania w myślach, bez dźwięku, ale system nadal był w stanie wytworzyć zrozumiałe syntetyczne wersje zdań.
Naukowcy odkryli również, że kod neuronowy dla ruchów wokalnych częściowo nakładał się na uczestników, i że symulacja dróg głosowych jednego podmiotu badawczego może być dostosowana do odpowiedzi na instrukcje neuronalne rejestrowane z mózgu innego uczestnika. Odkrycia te sugerują, że osoby z utratą mowy mogą nauczyć się kontrolować protezę mowy wzorowaną na osobie z nienaruszoną mową.
– Mamy nadzieję, że pewnego dnia ludzie z upośledzeniem mowy będą mogli ponownie nauczyć się mówić za pomocą sterowanego przez mózg sztucznego przewodu głosowego – podkreślił Chartier.
Źródło i fot.: University of California – San Francisco