Dodano: 29 grudnia 2021r.

Lingwistyka komputerowa coraz popularniejsza

Ostatnie lata to bardzo szybki rozwój technologii cyfrowych, które służą do przetwarzania języka naturalnego. Mają ona zastosowanie w wielu dziedzinach życia człowieka – zaczynając choćby od popularnych usług automatycznego tłumaczenia na języki obce czy też autokorekty tekstu, a kończąc na rozmowie z czatbotami.

Procesor

 

Poza rozwojem technologii do przetwarzania języka, wzrasta także użycie narzędzi opartych na tej technologii w nauce i biznesie. Szczególnie intensywny rozwój zaobserwowano w branżach związanych z obsługą klienta. Czatboty już nie tylko informują nas o stanie realizacji zamówienia czy też odpowiadają na nasze pytania w trakcie zakupów, ale także dzwonią do nas i próbują nakłonić do kupna określonej usługi. Programy te, coraz bardziej upodabniają się do człowieka.

Projekty z zakresu lingwistyki komputerowej są intensywnie rozwijane w Ośrodku Przetwarzania Informacji – Państwowym Instytucie Badawczym (OPI PIB). Warto wspomnieć chociażby o Jednolitym Systemie Antyplagiatowym (JSA), z którego korzystają wszyscy promotorzy prac dyplomowych w Polsce, Annobocie, który odczytuje ludzkie emocje, czy też narzędziu do wykrywania niedozwolonych zapisów w umowach, które instytut planuje opracować dla UOKiK w 2022 r. A to tylko niektóre z wielu innowacyjnych projektów OPI PIB.

W celu przedstawienia w przystępny sposób tematyki lingwistyki komputerowej i zaprezentowania jej zastosowania w wielu dziedzinach życia człowieka, instytut opublikował w ramach Akademii OPI PIB kolejny materiał ekspercki. Dr inż. Marcin Mirończuk prezentuje w nim najważniejsze zagadnienia oraz omawia ciekawe projekty związane z lingwistyką komputerową.

Nie tylko tłumaczenia i czatboty

Naukowcy z OPI PIB w swojej pracy kierują się dwoma aspektami lingwistyki komputerowej – naukowym i technologicznym. Zwłaszcza ten drugi jest interesujący dla użytkowników, gdyż skupia się na poszczególnych komponentach systemów do przetwarzania mowy oraz pisma, najczęściej w celu ich wdrożenia. W dzisiejszych czasach jesteśmy nimi otoczeni, ale najczęściej nie zdajemy sobie z tego sprawy. Na takich komponentach bazują narzędzia do odpowiedzi głosowych stosowane w telefonach komórkowych, aplikacje zamieniające mowę na pismo, jak i popularne wyszukiwarki internetowe. Oczywiście na mechanizmach przetwarzania języka naturalnego oparte są też wspomniane wcześniej translatory, mechanizmy i systemy dialogowe w postaci chatbotów, które efektywnie wspierają pracę człowieka. Zastosowanie lingwistyki komputerowej widoczne jest także w przypadku narzędzi opracowujących streszczenia, odpowiadających na pytania, automatycznie generujących tekst, rozpoznających emocje czy też służących do klasyfikacji określonych treści. Spektrum wykorzystania lingwistyki komputerowej jest bardzo szerokie i dane systemy są powszechnie stosowane na całym świecie.

– Intensywny rozwój narzędzi do automatycznego przetwarzania języka naturalnego to bez wątpienia w ostatnich latach jeden z zauważalnych trendów w branży IT. Prace nad tymi systemami prowadzone są przez wiele ośrodków z całego świata. Takie produkty jak inteligentni asystenci głosowi czy chatboty są coraz bardziej popularne – mówi dr inż. Jarosław Protasiewicz, dyrektor Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB). – W naszym instytucie prowadzimy coraz więcej prac związanych z lingwistyką komputerową i nie są to tylko projekty badawcze. Opracowujemy i wdrażamy nowe narzędzia, które efektywnie wspierają działalność człowieka. Nasz Annobot potrafi rozróżnić emocje na podstawie tekstu, JSA odnajduje plagiaty w pracach dyplomowych, a nowy system, który planujemy przygotować dla UOKiK będzie wyszukiwał niedozwolone zapisy w umowach. Zakres naszych prac jest bardzo szeroki i duży nacisk kładziemy na funkcjonalność naszych produktów – dodaje dyrektor OPI PIB.

Wykrywanie innowacji i przekształcanie tekstu na sygnały biologiczne

W poprzednich latach eksperci OPI PIB opracowali i wdrożyli narzędzia oparte na lingwistyce komputerowej, które wykorzystują proces odpowiedniej klasyfikacji tekstów. Tak właśnie powstał system Inventorum do wykrywania innowacji w sieci internetowej i następnie udostępniania ich przedsiębiorcom, którzy mogą być nimi zainteresowani. Na podobnym mechanizmie oparte jest także narzędzie do klasyfikacji wielojęzycznych artykułów naukowych, które skutecznie ułatwia pracę badaczom z różnych dziedzin.

– Ciekawy projekt zrealizowaliśmy także wykorzystując mechanizm ekstrakcji danych z nieuporządkowanych tekstów. Opracowaliśmy system analizy raportów z akcji realizowanych przez Państwową Straż Pożarną. Dzięki niemu z dużej ilości nieuporządkowanych danych tekstowych, w szybki i łatwy sposób otrzymujemy informacje m.in. o miejscu wypadku, rodzaju zdarzenia, powstałych zniszczeniach czy też lokalizacji i stanie technicznym hydrantu przeciwpożarowego. Ciekawe prace realizują także inni eksperci z OPI PIB. Czerpią oni inspirację z naturalnie występujących systemów biologicznych. Przekształcają tekst pisany w sygnały odpowiadające mechanizmom zachodzącym w mózgu człowieka, tworzą tzw. sieci impulsowe. One następnie są wykorzystywane do opracowania systemów rozpoznawania i klasyfikacji odpowiednich tekstów – mówi dr inż. Marcin Mirończuk z Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB.

 

Źródło: OPI PIB