Naukowcy opracowali sztuczną inteligencję, która może w czasie rzeczywistym przekształcić aktywność mózgu na tekst, przy współczynniku błędów wynoszącym zaledwie 3 proc. Tego typu badania mogą w przyszłości umożliwić komunikację osobom, które straciły zdolność mówienia.
Zespół naukowców z University of California w San Francisco (UCSF) zrobił kolejny krok w kierunku opracowania systemu zdolnego do odszyfrowywania myśli bezpośrednio z aktywności mózgu i przełożenia ich na tekst. W artykule opublikowanym w czasopiśmie „Nature Neuroscience” grupa badaczy opisała swoje prace nad sztuczną inteligencją, która może tłumaczyć myśli na zdania z niespotykaną dotąd dokładnością.
Maszyna czytająca w myślach
To nie jest całkowicie science fiction. Badacze od lat zastanawiali się, czy można stworzyć maszynę, która potrafiłaby czytać w ludzkich myślach. Takie pomysły najczęściej przedstawiano w produkcjach hollywoodzkich, ale w ostatnich dziesięcioleciach interfejsy mózg-komputer znacznie się rozwinęły i próbują podobnych wyczynów z coraz lepszym skutkiem.
Takie systemy są postrzegane obecnie jako swoista proteza mowy, która umożliwiłaby komunikację osobom z zespołem zamknięcia lub innymi niepełnosprawnościami mowy. Pojawienie się sztucznej inteligencji, a ściślej mówiąc sieci neuronowych – zestawu algorytmów wzorowanych na funkcjonowaniu ludzkiego mózgu, przybliża tę możliwość. Odpowiednio wyszkolone maszyny potrafią czytać fale mózgowe i tłumaczyć niektóre z nich na słowa. W nowych badaniach uczeni zrobili duży krok naprzód, opracowując system umożliwiający rozszyfrowanie całych zdań.
Uczeni pod kierunkiem neurochirurga Edwarda Changa z UCSF zastosowali nową metodę dekodowania elektrokortykografii, czyli rodzaju encefalografii, gdzie elektrody są przykładane bezpośrednio do kory mózgowej. W badaniach uczestniczyły cztery kobiety cierpiące na ostrą postać padaczki, którym już wcześniej wszczepiono implanty do mózgu w celu monitorowania napadów spowodowanych ich stanem chorobowym.
Eksperymenty polegały na tym, że pacjentki czytały i powtarzały na głos zestawy zdań, podczas gdy elektrody rejestrowały aktywność mózgu. We wszystkich zdaniach użyto 250 słów. Naukowcy wykorzystali odczyty z elektrod do przechwytywania sygnałów w różnych częściach mózgu. Dane z elektrod zostały następnie przesłane do jednej z sieci neuronowych, która analizowała i uczyła się rozpoznawać wzorce w aktywności mózgu odpowiadające niektórym sygnaturom mowy, takim jak samogłoski, spółgłoski lub ruchy ust. Algorytmy próbowały też zrozumieć, jakie typy słów mogą następować po sobie oraz w jaki sposób są zbudowane zdania.
Dekodowanie aktywności mózgu
– Za każdym razem, gdy uczestniczka wypowiada to samo zdanie, powiązana aktywność mózgu będzie podobna, ale nie identyczna. Zapamiętywanie aktywności mózgowej podczas wypowiadania tych zdań nic by nie dało. Sieć neuronowa musi się dowiedzieć, co jest w nich podobnego – powiedział Joseph Makin z UCSF, współautor badań.
Każde zdanie zostało wypowiedziane dwa razy przez każdą z uczestniczek badania, ale tylko pierwsza wypowiedź posłużyła do szkolenia sieci neuronowej. Kolejne zostały użyte do celów testowych. Algorytmy przekształciły dane dotyczące aktywności mózgu dla każdego wypowiedzianego zdania na ciąg liczb. Aby upewnić się, że liczby odnoszą się tylko do aspektów mowy, system porównał je z faktycznie zarejestrowanym dźwiękiem.
Ciąg liczb został następnie wprowadzony do innej sieci neuronowej, która próbowała przekształcić go w ciąg słów, sformułować zdania. Początkowo system wyrzucał same bzdury, ale z czasem poprawił się. Porównał każdą sekwencję słów z zdaniami, które zostały przeczytane na głos i nauczył się, jak odpowiednio układać ciąg liczb związany ze słowami i które słowa następują po sobie.
Dokładność nowego systemu była znacznie wyższa niż w poprzednich podejściach – przyznali autorzy badań – chociaż różniła się w zależności od osoby czytającej zdania. Dla najlepszego przypadku tylko 3 proc. każdego zdania wymagało korekty. Jednak badacze podkreślili, że system działał z bardzo ograniczonym słownictwem złożonym z zaledwie 250 słów. To znacznie mniej niż setki tysięcy słów, które większość z nas jest w stanie rozpoznać. Ale uczeni sugerują, że może to wystarczyć dla kogoś, kto w ogóle nie może mówić.
Ogólnie system ten może stanowić nowy punkt odniesienia dla dekodowania aktywności mózgu w oparciu o sztuczną inteligencję. Do pokonania jest jeszcze wiele przeszkód, ale zespół naukowców sugeruje, że ich system może kiedyś stanowić podstawę protezy mowy u pacjentów, którzy stracili zdolność mówienia. Zapewnienie osobom z zespołem zamknięcia możliwości komunikowania się z otoczeniem to dla nich ogromna zmiana. Ale w przyszłości możliwości tego systemu lub podobnych mogą wykraczać daleko poza to, co pokazują dotychczasowe eksperymenty. Minie jednak jeszcze sporo czasu, zanim ta technologia będzie mogła funkcjonować jako realna proteza mowy.
Źródło: New Scientist, fot. Chang Lab