Strona Główna | | | Impressum | | | Kariera | tel.:(+48) 22 440 15 00 | creditreform@creditreform.pl |
Google jest w stanie podzielić nagranie dwóch osób rozmawiających ze sobą na dwa prawie idealne, osobne pliki audio.Na samym poczatku trenowane są algorytmy wykrywania głosu każdego mówcy, a następnie sztuczna inteligencja potrafi zrekonstruować pojedyncze wypowiedzi w oddzienych plikach audio.
Wavesplit to kompleksowy system separacji mowy. Na podstawie pojedynczego nagrania mowy mieszanej model określa i grupuje reprezentacje każdego wypowiadającego się, a następnie ocenia każdy sygnał źródłowy na podstawie uzyskanych reprezentacji. Model jest trenowany na nieprzetworzonym kształcie fali, aby wspólnie wykonywać dwa zadania. Wprowadza on niejako zestaw reprezentacji mówców poprzez grupowanie, które rozwiązuje podstawowy problem permutacji w separacji mowy.
Ponadto reprezentacje poszczególnych nagrań obejmujące całą sekwencję zapewniają bardziej niezawodny rozdział długich, trudnych sekwencji w porównaniu z poprzednimi podejściami.
No dobrze, ale jaki z tego pożytek? Można sobie wyobrazić, że możliwość rozróżnienia dwóch rozmawiających ze sobą głosów, łatwo wykorzystać w zasadzie... do wszystkiego. Od transkrypcji, przez ulepszenie rozmowy wideo, aż po blokowanie szumów tła dla wirtualnych asystentów.