Recents in Beach

header ads

NVIDIAs senaste teknik gör AI röster mer uttrycksfulla och realistiska


Steve Dent Bidragsgivare Steve Dent är en associerad redaktör på Engadget. Fler inlägg av den här bidragsgivaren Apple släpper sin rättegång mot tillverkare av iPhone emuleringsprogram Amazon lanserar sin mobila-första Kindle Vella Serialized Story-plattformen Rösterna på Amazonas Alexa, Google Assistant och andra AI-assistenter är långt före GPS-enheter, men de saknar fortfarande rytmer, intonation och andra egenskaper som gör talljud, bra, mänsklig. NVIDIA har presenterat ny forskning och verktyg som kan fånga de naturliga talkvaliteterna genom att låta dig träna AI-systemet med din egen röst, meddelade företaget vid konferensen Interspeech 2021. För att förbättra sin AI-röstsyntes utvecklade NVIDIAs text-till-talforskningsgrupp en modell som heter Rad-TTS, en vinnande inträde vid en NAB-sändningskonventionskonkurrens för att utveckla den mest realistiska avataren. Systemet tillåter en individ att träna en text-till-tal-modell med egen röst, inklusive pacing, tonalitet, timbre och mer. En annan rad-TTS-funktion är röstomvandling, som låter en användare leverera en högtalares ord med en annan persons röst. Det gränssnittet ger bra, ramnivåkontroll över en syntetiserad rösts höjd, varaktighet och energi. Med hjälp av denna teknik skapade NVIDIAs forskare mer konversationsljudande röstberättelse för sin egen, jag är AI-videoserien med syntetiserad snarare än mänskliga röster. Syftet var att få berättelsen att matcha tonen och stilen på videon, något som inte har gjorts bra i många AI-berättade videor hittills. Resultaten är fortfarande lite robot, men bättre än någon AI-berättelse jag någonsin har hört. "Med det här gränssnittet kan vår videoproducent spela in sig att läsa videokriptet och sedan använda AI-modellen för att konvertera sitt tal till den kvinnliga berättarens röst. Med hjälp av denna baslinjeberättelse kan producenten sedan rikta AI som en röstskådespelare - tweaking det syntetiserade talet för att betona specifika ord och ändra uppringningen av berättelsen för att bättre uttrycka videonens ton, "skrev NVIDIA. NVIDIA distribuerar en del av denna forskning - optimerad för att fungera effektivt på NVIDIA GPUS, förstås - till alla som vill prova den via öppen källkod genom NVIDIA NEMO Python Toolkit för GPU-accelererad konversation AI, tillgänglig på företagets NGC-nav av behållare och annan programvara. "Flera av modellerna är utbildade med tiotusentals timmar av ljuddata på NVIDIA DGX-system. Utvecklare kan finjustera alla modell för sina användningsfall, påskynda träning med blandad precisionsbehandling på NVIDIA Tensor Core GPU: s, "skrev företaget. Redaktörens anteckning: Det här inlägget uppträdde ursprungligen på Engadget.

Skicka en kommentar

0 Kommentarer