Kontakt 08:00 - 16:00

22 440 15 00

creditreform@creditreform.pl

Google Voice A.I. potrafi odróżniać ludzi

Wynalazek Google polegający na oddzielaniu dwóch rozmawiających ze sobą głosów jest szczególnie imponujący, biorąc pod uwagę jego oczywisty wpływ na konsumentów

23.04.2020

sound-8567711280-png

Google jest w stanie podzielić nagranie dwóch osób rozmawiających ze sobą na dwa prawie idealne, osobne pliki audio.Na samym poczatku trenowane są algorytmy wykrywania głosu każdego mówcy, a następnie sztuczna inteligencja potrafi zrekonstruować pojedyncze wypowiedzi w oddzienych plikach audio.

Wavesplit to kompleksowy system separacji mowy. Na podstawie pojedynczego nagrania mowy mieszanej model określa i grupuje reprezentacje każdego wypowiadającego się, a następnie ocenia każdy sygnał źródłowy na podstawie uzyskanych reprezentacji. Model jest trenowany na nieprzetworzonym kształcie fali, aby wspólnie wykonywać dwa zadania. Wprowadza on niejako zestaw reprezentacji mówców poprzez grupowanie, które rozwiązuje podstawowy problem permutacji w separacji mowy.

Ponadto reprezentacje poszczególnych nagrań obejmujące całą sekwencję zapewniają bardziej niezawodny rozdział długich, trudnych sekwencji w porównaniu z poprzednimi podejściami.

No dobrze, ale jaki z tego pożytek? Można sobie wyobrazić, że możliwość rozróżnienia dwóch rozmawiających ze sobą głosów, łatwo wykorzystać w zasadzie... do wszystkiego. Od transkrypcji, przez ulepszenie rozmowy wideo, aż po blokowanie szumów tła dla wirtualnych asystentów.

Zobacz też:

Współpracujemy z

Pan/Pani
Firma:
Imię:
Nazwisko:
Adres e-mail:	*