Dodano: 31 stycznia 2019r.

Opracowano technologię, która zamieni sygnały z mózgu na mowę

Specjaliści od neuroinżynierii z USA stworzyli system, który przekłada myśli na zrozumiałą, rozpoznawalną mowę. Technologia ta poprzez monitorowanie aktywności mózgu może zrekonstruować słowa tak precyzyjnie, jak nigdy dotąd.

W badaniach wykorzystano sztuczną inteligencję oraz syntezatory. Prace te mogą prowadzić do nowych sposobów komunikowania się komputerów bezpośrednio z mózgiem. Mogą również pomóc ludziom, którzy nie potrafią mówić – chociażby osobom po udarze lub cierpiącym na stwardnienie zanikowe boczne. W ten sposób pacjenci mogliby odzyskać zdolność komunikowania się ze światem zewnętrznym.

- Nasz głos pomaga nam komunikować się z naszymi przyjaciółmi, rodziną i otaczającym nas światem, dlatego jego utrata z powodu urazu czy choroby jest tak katastrofalna - powiedział Nima Mesgarani, autor badań z Zuckerman Institute na Columbia University w Nowym Jorku. - Dzięki tym badaniom mamy potencjalny sposób na przywrócenie tej mocy. Pokazaliśmy, że dzięki odpowiedniej technologii myśli tych ludzi mogą zostać odkodowane i zrozumiane przez każdego słuchacza – dodał.

Dziesięciolecia badań pokazały, że kiedy ludzie mówią - lub nawet wyobrażają sobie mówienie - pojawiają się w ich mózgu pewne schematy aktywności. Wyraźny, rozpoznawalny wzorzec sygnałów pojawia się również, gdy ludzie słuchają, jak ktoś mówi, lub wyobrażają sobie, że słuchają. Specjaliści od lat rejestrowali i próbowali dekodować pojawiające się wzorce i wygląda na to, że im się to udało.

Wyniki badań zostały opublikowane w „Scientific Reports”.

Jednak opracowanie tej technologii okazało się trudnym zadaniem. Wczesne próby odkodowania sygnałów mózgowych skupiały się na prostych modelach komputerowych analizujących spektrogramy, które są wizualnymi reprezentacjami częstotliwości dźwięku. Ale to podejście nie przyniosło niczego, co w nawet w przybliżeniu przypominało zrozumiałą mowę. Dlatego zespół Mesgaraniego skorzystał z vocodera (Voice Encoder) – urządzenia do syntezy dźwięku, które w oparciu o algorytmy sztucznej inteligencji może także syntezować ludzką mowę. Ale zanim urządzenie wydało z siebie zrozumiałe dźwięki, algorytmy szkoliły się na nagraniach rozmawiających ze sobą ludzi.

W nauczeniu interpretowania przez algorytmy aktywności mózgu pomógł Mesgaraniemu Ashesh Dinesh Mehta, neurochirurg w Northwell Health Physician Partners Neuroscience Institute i współautor publikacji.

- Skorzystaliśmy z tej samej technologii, której używają Amazon Echo i Apple Siri, aby udzielać ustnych odpowiedzi na nasze pytania - powiedział Mesgarani. - Pracując z Mehtą poprosiliśmy pacjentów z padaczką, którzy przeszli operację mózgu, aby słuchali zdań wypowiadanych przez różnych ludzi. Podczas tej czynności mierzyliśmy ich wzorce aktywności mózgu. Następnie te wzorze posłużyły sztucznej inteligencji do treningów, by nauczyła się jak najlepiej je rozpoznawać – dodał.

Następnie naukowcy poprosili tych samych pacjentów, aby wysłuchali mówców recytujących cyfry od 0 do 9. Jednocześnie rejestrowali sygnały mózgowe, które zostały następnie przetworzone przez vocoder. Dźwięk wytworzony przez urządzenie został poddany analizie. Został także oczyszczony przez sieci neuronowe - rodzaj sztucznej inteligencji, która naśladuje strukturę neuronów w mózgu biologicznym. Efektem końcowym był głos przypominający głos robota ze starych filmów, który recytował sekwencję liczb.

Mesgarani i jego zespół puścili nagrania różnym ludziom w celu sprawdzenia, czy jest ono zrozumiałe. - Odkryliśmy, że ludzie mogą zrozumieć i powtórzyć dźwięki w 75 proc. przypadków, co znacznie przekracza wszelkie wcześniejsze próby – przyznał Mesgarani. Poprawa jasności wypowiedzi była szczególnie widoczna przy porównywaniu nowych nagrań z wcześniejszymi próbami opartymi na spektrogramach.

Mesgarani wraz ze swoim zespołem będzie teraz testował bardziej skomplikowane słowa i całe zdania. Uczeni mają nadzieję, że ich system może w przyszłości przybrać formę implantu podobnego do tych, które mają niektórzy pacjenci cierpiący na epilepsję. U osób chorych na padaczkę, które mają dużą częstotliwość ataków, można wszczepić implant stymulujący nerw błędny. W przypadku osób pozbawionych możliwości wysławiania się, implant przekładałby myśli na słowa.

- W tym scenariuszu, jeśli użytkownik pomyśli: „potrzebuję szklanki wody " - nasz system może przyjąć sygnały mózgowe i przekształcić je w syntezowaną mowę – wyjaśnił Mesgarani. – Taki system odmieniłby życie każdemu, kto stracił zdolność mówienia – dodał.

Eksperci pracujący nad technologią twierdzą, że myśli pojawiające się w naszych głowach wcale nie muszą być ukryte, można je w dowolny sposób przetłumaczyć na język mówiony. Z pewnością jest to ogromne osiągnięcie, ale niesie ze sobą dość niepokojące możliwości. Nietrudno sobie wyobrazić sytuacje, w której raczej wolelibyśmy zachować nasze myśli dla siebie.

Źródło: Zuckerman Institute