Krakowscy badacze mogą zrewolucjonizować to, jak rozmawiamy z naszymi urządzeniami - i ze sobą nawzajem. Zespół dra hab. inż. Konrada Kowalczyka z AGH opracowuje wielomikrofonowy system, który pozwala swobodnie rozmawiać czy dyktować tekst nawet wtedy, gdy mówiący swobodnie porusza się po pomieszczeniu, bez konieczności stosowania słuchawek z mikrofonem czy tradycyjnych zestawów głośnomówiących. Badania są finansowane przez Fundację na rzecz Nauki Polskiej w ramach programu FIRST TEAM ze środków pochodzących z Funduszy Europejskich z Programu Operacyjnego Inteligentny Rozwój.
Badania zespołu dr. Kowalczyka mają na celu opracowanie technologii umożliwiających budowę systemów składających się z sieci połączonych ze sobą mikrofonów, które będą pozwalały na prowadzenie naturalnej rozmowy nawet wtedy, gdy mówiący porusza się, oddala od mikrofonów czy znajduje się w miejscu, gdzie czynniki takie jak szumy, inne głosy czy pogłos pomieszczenia zaburzają funkcjonowanie tradycyjnych mikrofonów.
To szczególnie istotne, bo dynamicznie rozwijające się technologie, takie jak domy inteligentne czy rozszerzona lub wirtualna rzeczywistość, często opierają się właśnie na głosowej komunikacji człowieka z maszyną. Komendy czy zapytania coraz częściej wydawane są w przypadku takich urządzeń nie za pomocą aplikacji, ekranu dotykowego czy klawiatury, ale interfejsu pozwalającego na naturalną komunikację za pomocą głosu. Stojące u podstaw takich systemów algorytmy rozpoznawania mowy są coraz skuteczniejsze, problemem pozostaje jednak wciąż fakt, że możliwości dotychczasowych systemów mikrofonowych są stosunkowo ograniczone, gdy użytkownik nie znajduje się w ich bezpośrednim sąsiedztwie.
Nowoczesny, inteligentny system mikrofonów, nad którym pracują badacze z Krakowa, może zdecydowanie uprościć korzystanie z tych technologii. Projekt APDAS (Audio Processing using Distributed Acoustic Sensors - Przetwarzanie Dźwięku z wykorzystaniem Rozproszonych Czujników Dźwięku) może też dać użytkownikom zupełnie nowe możliwości wykorzystywania posiadanych przez nich urządzeń. Mikrofony, w które wyposażone są urządzenia domu inteligentnego, mogą stworzyć jedną, obejmującą całe pomieszczenie czy dom sieć, która pozwoli na przykład dokonywać biometrycznej identyfikacji i lokalizacji osób znajdujących się w różnych pomieszczeniach.
- Jednoczesne przetwarzanie sygnałów pochodzących z kilku połączonych ze sobą ‘’inteligentnych’’ urządzeń wyposażonych w jeden lub więcej mikrofonów umożliwi uzyskanie wyższej jakości sygnału niż w przypadku używanych obecnie pojedynczych, niezależnie pracujących urządzeń – tłumaczy dr hab. inż. Konrad Kowalczyk z Wydziału Informatyki, Elektroniki i Telekomunikacji Akademii Górniczo-Hutniczej w Krakowie. - Zaletą takiego rozwiązania będzie możliwość sterowania głosowego nawet na dużą odległość oraz swobodnego korzystania z aplikacji głosowych w chmurze bez konieczności posiadania dedykowanego danej aplikacji sprzętu audio – dodaje naukowiec.
Na prace krakowskiego zespołu Fundacja na rzecz Nauki Polskiej przyznała grant w wysokości niemal 2 mln zł w ramach konkursu w programie FIRST TEAM 2017. Dofinansowanie zostało zwiększone w 2020 r. w celu umożliwienia rozwoju prac nad inteligentnym systemem przetwarzania dźwięku i jego komercjalizacji. Program FIRST TEAM jest realizowany przez Fundację na rzecz Nauki Polskiej ze środków UE pochodzących z Europejskiego Funduszu Rozwoju Regionalnego w ramach Programu Operacyjnego Inteligentny Rozwój, oś IV: Zwiększenie potencjału naukowo-badawczego, Działanie 4.4 Zwiększanie potencjału kadrowego sektora B+R.