Dodano: 18 października 2022r.

Bystry słuch komputera. Badania naukowców z AGH mogą zmienić to, jak sterujemy naszymi urządzeniami

Krakowscy badacze mogą zrewolucjonizować to, jak rozmawiamy z naszymi urządzeniami - i ze sobą nawzajem. Zespół dra hab. inż. Konrada Kowalczyka z AGH opracowuje wielomikrofonowy system, który pozwala swobodnie rozmawiać czy dyktować tekst nawet wtedy, gdy mówiący swobodnie porusza się po pomieszczeniu, bez konieczności stosowania słuchawek z mikrofonem czy tradycyjnych zestawów głośnomówiących. Badania są finansowane przez Fundację na rzecz Nauki Polskiej w ramach programu FIRST TEAM ze środków pochodzących z Funduszy Europejskich z Programu Operacyjnego Inteligentny Rozwój.

Badania zespołu dr. Kowalczyka mają na celu opracowanie technologii umożliwiających budowę systemów składających się z sieci połączonych ze sobą mikrofonów, które będą pozwalały na prowadzenie naturalnej rozmowy nawet wtedy, gdy mówiący porusza się, oddala od mikrofonów czy znajduje się w miejscu, gdzie czynniki takie jak szumy, inne głosy czy pogłos pomieszczenia zaburzają funkcjonowanie tradycyjnych mikrofonów.

Komunikacja człowieka z maszyną

To szczególnie istotne, bo dynamicznie rozwijające się technologie, takie jak domy inteligentne czy rozszerzona lub wirtualna rzeczywistość, często opierają się właśnie na głosowej komunikacji człowieka z maszyną. Komendy czy zapytania coraz częściej wydawane są w przypadku takich urządzeń nie za pomocą aplikacji, ekranu dotykowego czy klawiatury, ale interfejsu pozwalającego na naturalną komunikację za pomocą głosu. Stojące u podstaw takich systemów algorytmy rozpoznawania mowy są coraz skuteczniejsze, problemem pozostaje jednak wciąż fakt, że możliwości dotychczasowych systemów mikrofonowych są stosunkowo ograniczone, gdy użytkownik nie znajduje się w ich bezpośrednim sąsiedztwie.

Nowoczesny, inteligentny system mikrofonów, nad którym pracują badacze z Krakowa, może zdecydowanie uprościć korzystanie z tych technologii. Projekt APDAS (Audio Processing using Distributed Acoustic Sensors - Przetwarzanie Dźwięku z wykorzystaniem Rozproszonych Czujników Dźwięku) może też dać użytkownikom zupełnie nowe możliwości wykorzystywania posiadanych przez nich urządzeń. Mikrofony, w które wyposażone są urządzenia domu inteligentnego, mogą stworzyć jedną, obejmującą całe pomieszczenie czy dom sieć, która pozwoli na przykład dokonywać biometrycznej identyfikacji i lokalizacji osób znajdujących się w różnych pomieszczeniach.

Wyższa jakość sygnału

- Jednoczesne przetwarzanie sygnałów pochodzących z kilku połączonych ze sobą ‘’inteligentnych’’ urządzeń wyposażonych w jeden lub więcej mikrofonów umożliwi uzyskanie wyższej jakości sygnału niż w przypadku używanych obecnie pojedynczych, niezależnie pracujących urządzeń – tłumaczy dr hab. inż. Konrad Kowalczyk z Wydziału Informatyki, Elektroniki i Telekomunikacji Akademii Górniczo-Hutniczej w Krakowie. - Zaletą takiego rozwiązania będzie możliwość sterowania głosowego nawet na dużą odległość oraz swobodnego korzystania z aplikacji głosowych w chmurze bez konieczności posiadania dedykowanego danej aplikacji sprzętu audio – dodaje naukowiec.

Na prace krakowskiego zespołu Fundacja na rzecz Nauki Polskiej przyznała grant w wysokości niemal 2 mln zł w ramach konkursu w programie FIRST TEAM 2017. Dofinansowanie zostało zwiększone w 2020 r. w celu umożliwienia rozwoju prac nad inteligentnym systemem przetwarzania dźwięku i jego komercjalizacji. Program FIRST TEAM jest realizowany przez Fundację na rzecz Nauki Polskiej ze środków UE pochodzących z Europejskiego Funduszu Rozwoju Regionalnego w ramach Programu Operacyjnego Inteligentny Rozwój, oś IV: Zwiększenie potencjału naukowo-badawczego, Działanie 4.4 Zwiększanie potencjału kadrowego sektora B+R.