Mi a neve a hanggeneráló rendszernek? Online beszédszintetizátorok: a legjobb szolgáltatások a szöveg hangzására

A program felolvasásra készült szöveges fájlok. Az emberi hang hangjainak reprodukálásához bármely számítógépre telepített beszédszintetizátor használható. Lejátszás...

3 hónapja Engedély: Ingyenes Nyelv: orosz angol német OS: XP/Vista/7/8/8.1/10 Méret: 16,99 MB

hatékony eszköz szövegek olvasásához weboldalakról, levelekről, szöveges fájlokról, különféle dokumentumokról, illetve MP3 vagy WMA audiofájlokká konvertálásához. A program olyan...

4 hónappal ezelőtt Engedély: Shareware Nyelv: angol OS: XP/Vista/7/8/8.1/10 Méret: 24,1 MB

érdekes alkalmazás, amely képes nyomtatott szöveget hangbeszéddé alakítani. Ez kényelmes különféle hangleckék, előadások vagy akár teljes könyvek készítéséhez, amikor egyszerűen...

6 hónappal ezelőtt Engedély: Ingyenes Nyelv: orosz angol OS: XP/Vista/7/8/8.1/10 Méret: 3,72 MB

beszélő szöveg szerkesztő. SAPI4 és SAPI5 kompatibilis beszédszintetizátor. A program szöveges fájlok hangos felolvasására készült a Microsoft Speech API 4/5 (SA...

Egy évvel ezelőtt Engedély: Ingyenes Nyelv: orosz OS: XP/Vista/7/8/8.1/10 Méret: 3,59 MB

A 2nd Speech Center segítségével a szöveg hallgatható, ahelyett, hogy a képernyőről olvasnák fel, így pihentetheti a szemét. A szöveg a vágólapról szól. Lehetőség van kimondott szöveg rögzítésére mp3/wav formátumban...

2 évvel ezelőtt Engedély: Shareware Nyelv: angol OS: 2000/XP/2003/Vista/7/8/8.1/10 Méret: 3,77 MB

kényelmes és gyors program szövegek megszólaltatásához, hangoskönyvek létrehozásához (wav, mp3, amr, aac + lejátszási lista formátumban), hangsúlyozáshoz orosz szövegekben vagy egyszerűen könyvek kényelmes olvasásához a képernyőről. Króm...

4 évvel ezelőtt Engedély: Shareware Nyelv: orosz OS: XP/Vista/7 Méret: 2,59 MB

ingyenes program szöveget beszéddé alakítani. Segít bármilyen szöveg hangos felolvasásában, valamint WAV vagy MP3 fájlba mentésében. A TTSReadernek már körülbelül 10 férfi és női hangja van. Stb...

8 évvel ezelőtt Engedély: Ingyenes Nyelv: angol OS: 2000/XP/Vista Méret: 2,29 MB

A Pistonsoft Text to Speech Converter segítségével szöveget beszéddé vagy hangoskönyvvé konvertálhat MP3 és WAV formátumban. A rendszerbe telepített összes nyelv elérhető a programban hangosításhoz. Technológiák...

A szóbeli beszéd szintézise a korábban ismeretlen szöveges információ beszéddé alakítása. Az információ beszédkimenete a beszédfelület megvalósítása, a rendszer használatának egyszerűsítése érdekében. Valójában a beszédszintézisnek köszönhetően egy másik adatátviteli csatorna is biztosított a számítógépről, mobiltelefon egy személynek, hasonlóan egy monitorhoz. Természetesen lehetetlen hanggal átadni a rajzot, de hallgasd meg email vagy a napi beosztás bizonyos esetekben egészen kényelmes, főleg ha olyankor a szem mással van elfoglalva. Például amikor reggel munkába jössz, tárgyalásra készülve, megigazíthatod a nyakkendőd vagy a hajad a tükör előtt, miközben a számítógép hangosan olvas. utolsó hír, posta vagy emlékeztet fontos információ tárgyalásokra.

2.2. ábra – Hangjelzések feldolgozása

A beszédszintézis technológia széles körben alkalmazható a látásproblémákkal küzdők számára. Mindenki más számára a technológia egyszerű használatának új dimenzióját teremti meg, és jelentősen csökkenti a látás, az idegrendszer terhelését, és lehetővé teszi a hallásmemória használatát.


2.3. ábra – Beszédszintézis

Minden szöveg szóközökkel és írásjelekkel elválasztott szavakból áll. A szavak kiejtése a mondatban elfoglalt helyüktől, a kifejezés intonációja pedig az írásjelektől függ. Végül a kiejtés a szó jelentésétől is függ! Ennek megfelelően ahhoz, hogy a szintetizált beszéd természetes hangzású legyen, egy sor olyan feladat megoldására van szükség, amelyek mind a hang természetességének biztosításához a hangzás és intonáció szintjén, mind a hangsúlyok helyes elhelyezésével, dekódolással kapcsolatosak. rövidítések, számok, rövidítések és speciális karakterek, figyelembe véve az orosz nyelvtan sajátosságait.nyelv.

A feladatok megoldására többféle megközelítés létezik:

1) allofon szintézis rendszerek - stabil, de nem kellően természetes robothangot biztosítanak;

2) a Unit Selection megközelítésen alapuló rendszerek – sokkal természetesebb hangzást biztosítanak, de tartalmazhatnak beszédtöredékeket, amelyek éles minőségi csökkenést mutatnak, egészen az érthetőség elvesztéséig;

3) Unit Selection megközelítésen alapuló hibrid technológia, kiegészítve az allofon szintézis egységeivel.

Erre a technológiára alapozva jött létre a VitalVoice rendszer, amely akusztikus szinten stabil és természetes hangzást biztosít.

A beszédkommunikáció természetes és kényelmes az ember számára. A beszédfelismerés feladata a közvetítő eltávolítása a személy és a számítógép közötti kommunikációból. A gép valós idejű hanggal történő vezérlése, valamint az emberi beszéddel történő információbevitel nagyban leegyszerűsíti a modern ember életét. A beszédfelismerés feladata, hogy egy gépet megtanítson közvetítő nélkül megérteni azt a nyelvet, amelyet az emberek egymással beszélnek.

A tudósok és mérnökök évek óta foglalkoznak az ember és a gép közötti verbális kommunikáció problémájával. Az első beszédfelismerő eszköz 1952-ben jelent meg, képes volt felismerni az ember által kimondott számokat. A kereskedelmi beszédfelismerő programok a kilencvenes évek elején jelentek meg.

Minden beszédfelismerő rendszer két osztályba sorolható:

1) Beszélőtől függő rendszerek – a beszélő beszédére hangolva a tanulási folyamatban. Egy másik hangszóróval való együttműködéshez az ilyen rendszerek teljes újrakonfigurálást igényelnek.


2.4 ábra - Beszédfelismerés

2) Hangszóró-független rendszerek - amelyek működése nem függ a hangszórótól. Az ilyen rendszerek nem igényelnek előzetes képzést, és bármely beszélő beszédét képesek felismerni.

Kezdetben az első típusú rendszerek jelentek meg a piacon. Ezekben a parancs hangképe holisztikus szabvány formájában tárolódott. Az ismeretlen kiejtés és a szabványos parancs összehasonlítására módszereket használtunk dinamikus programozás. Ezek a rendszerek jól működtek a 10-30 parancsból álló kis halmazok felismerésében, és csak egy beszélőt értek meg. Ahhoz, hogy más hangszórókkal dolgozhassanak, ezek a rendszerek teljes újrakonfigurálást igényeltek.

A folyamatos beszéd megértéséhez jóval nagyobb méretű szótárakra kellett váltani, több tíztől több százezer szóig. Az első típusú rendszerekben alkalmazott módszerek nem voltak alkalmasak ennek a problémának a megoldására, mivel ilyen számú szóra egyszerűen lehetetlen szabványt alkotni.

Emellett a bemondótól függetlenné akarták tenni a rendszert. Ez nagyon nehéz feladat, hiszen mindenkinek megvan a saját kiejtési módja: a beszédtempó, a hangszín és a kiejtési sajátosságok. Az ilyen különbségeket beszédváltozékonyságnak nevezzük. Ennek figyelembevételére új statisztikai módszereket javasoltak, amelyek főként a rejtett Markov-modellek (HMM) vagy a mesterséges matematikai apparátuson alapulnak. neurális hálózatok. Ahelyett, hogy az egyes szavakhoz szabványokat hoznának létre, szabványokat hoznak létre a szavakat alkotó egyedi hangokra, az úgynevezett akusztikus modellekre. Az akusztikus modellek több száz ember beszédfelvételeit tartalmazó nagy beszédadatbázisok statisztikai feldolgozásával jönnek létre.

BAN BEN meglévő rendszerek A beszédfelismerés két alapvetően eltérő megközelítést használ:

A lexikális felismerés

Vegye figyelembe, hogy a beszédfelismerő rendszerek létrehozása rendkívül nehéz feladat.

A mai napig olyan technológiát hívnak, amely képes a szöveges információt hétköznapi beszéddé alakítani. Az "okos gépek" fejlődésével ez a technológia egyre aktuálisabbá válik, és minden nap egyre több tökéletességet igényel. Tulajdonképpen be Ebben a pillanatban Számos beszédszintézis módszert fejlesztettek ki, amelyekről beszélni fogunk.

A beszédszintetizátorok teljesen különböző területeken használhatók, és sokféle feladat megoldására szolgálnak, kezdve a könyvek "szavalásától" a "beszélő" gyermekjátékok gyártásáig, a tömegközlekedési vagy szolgáltatási rendszerek megállóhelyeinek bejelentéséig, és befejezve az orvostudományt (itt érdemes megemlékezni Stephen Hawkingról, aki beszédszintetizátorral kommunikál a világgal).

Tehát nézzük meg közelebbről a beszédszintézis technológiáját és módszereit. Mint már említettük, a beszédszintézisnek számos módja van. Ezért több fő megközelítés létezik:

  • parametrikus szintézis;
  • konkatenatív (összeállítási) szintézis;
  • szintézis a szabályok szerint (a nyomtatott szöveg szerint);

A paraméteres szintézis lehetővé teszi bármely nyelv beszédének rögzítését, de nem használható olyan szövegekhez, amelyek nincsenek előre definiálva. A paraméteres beszédszintézist akkor használják, ha az üzenetek halmaza korlátozott. Egy ilyen szintézis módszer minősége nagyon magas lehet.

Lényegében a parametrikus beszédszintézis a vocoder működésének megvalósítása. Paraméteres szintézis esetén hangjelzés amelyet bizonyos számú folyamatosan változó paraméter képvisel. A magánhangzók kialakításához hanggenerátort, a mássalhangzókhoz pedig zajgenerátort használnak. De ezt a módszert általában zenei kompozíciókban hangfelvételre használják, és gyakrabban nem is tiszta hangszintézisről, hanem inkább modulációról van szó.

A kompilációs szintézis módszere az elemek előre rögzített "szótárából" szövegek összeállításán alapul. A rendszerelem méretének legalább egy szónak kell lennie. Jellemzően több száz szóra korlátozódik az elemállomány, a szintetizált szövegek tartalma pedig a szótár terjedelmére korlátozódik. A beszédszintézisnek ezt a módszerét széles körben használják a mindennapi életben - általában különféle információs szolgáltatásokban és technológiákban, amelyekhez hangreakciós rendszerekkel rendelkező berendezésekre van szükség.

A szabályok szerinti teljes beszédszintézis képes reprodukálni a beszédet egy korábban ismeretlen szövegből. Ez a módszer nem használja az emberi beszéd elemeit, hanem programozott nyelvi és akusztikus algoritmusokon alapul.

Itt is van egy felosztás – ennek a szintézismódszernek két megközelítése különböztethető meg. Az első a formáns beszédszintézis a szabályok szerint, a második az artikulációs szintézis. A formáns szintézis formánsokon – a beszéd frekvenciarezonanciáin – alapul hangszóró rendszer. A formáns szintézis algoritmus a rezonátorok halmazaként működő emberi hangtraktus munkáját modellezi. Ma sajnos a legtöbb szintetizátor, amely kizárólag formánsszintézisen dolgozik, nehezen érthető előkészítés nélkül, de kétségtelenül ez egy univerzális és ígéretes technológia. Az artikulációs módszer a formánsmódszer hiányosságait igyekszik javítani azáltal, hogy az egyes hangok kiejtésének fonetikai sajátosságait adja a modellhez.

Létezik egy szabályalapú beszédszintézis technológia is, amely a természetes beszéd rögzített szegmenseit használja. Mivel még mindig az összeállítási módszereket használják leggyakrabban, ejtsünk néhány szót róluk részletesebben.

Attól függően, hogy mekkora méretűek a szintézishez használt beszéd "kivonatok", a következő szintézistípusokat különböztetjük meg:

  • mikroszegmens (mikrohullámú);
  • allofonikus;
  • kétszólamú;
  • félszótagos;
  • szótag;
  • szintézis tetszőleges méretű egységekből.

A leggyakrabban használt allofonikus és difonikus módszerek. A beszédszintézis kétszólamú módszeréhez alapelemek a fonémák mindenféle binomiális kombinációja, az allofon esetében pedig a bal és a jobb kontextus kombinációi (az allofon egy fonéma változata, amely sajátos fonetikai környezetének köszönhető). Ahol Különféle típusok a kontextusokat az akusztikai közelség mértéke szerint osztályokba vonják.

Az ilyen rendszerek előnye, hogy lehetővé teszik szöveg szintetizálását előre nem meghatározott szövegből, hátránya pedig az, hogy a szintetizált beszéd minősége összehasonlíthatatlan a természetes beszéd minőségével (a beszéd határain torzulások fordulhatnak elő). az elemek összefűzése). A beszéd intonációs jellemzőit is nagyon nehéz ellenőrizni, mivel az egyes szavak jellemzői a szövegkörnyezettől vagy a kifejezés típusától függően változhatnak.

Mindez azonban elméletben. A gyakorlatban a fejlesztés jelenlegi szakaszában, az ezen a területen történt aktív előrelépés ellenére, a beszédszintézis technológia fejlesztői még mindig tapasztalnak bizonyos nehézségeket, elsősorban a szintetizált beszéd mesterséges voltával, az érzelmi színezés hiányával és az alacsony zajvédelemmel kapcsolatban. .

Az a tény, hogy a szintetizált beszédet általában egy személy nehezen érzékeli. Ez annak köszönhető, hogy az emberi agy kitölti a szintetizált szöveg hézagait, amely ehhez további erőforrásokat használ, és az ember normál esetben csak körülbelül 20 percig képes felfogni a szintetizált beszédet.

A beszéd érzékelését érzelmi színezése is befolyásolja. Szintetizált beszéd esetén hiányzik. Bár érdemes megjegyezni, hogy egyes algoritmusok még bizonyos mértékig lehetővé teszik a beszéd érzelmi színezésének utánzását a fonémák, szünetek és hangszínmoduláció időtartamának változtatásával, de munkájuk egyelőre távolról sem ideális.

Ami a harmadik megnevezett problémát - az alacsony zajtűrést illeti, a kísérletek azt mutatják, hogy bármilyen, még a legkisebb külső zaj is zavarja a szintetizált szöveg érzékelését. Ez ismét annak köszönhető, hogy a szintetizált beszéd feldolgozásához az emberi agy további központokat használ, amelyeket nem használnak a természetes beszéd észlelésében.

A cikk végén szeretnék néhány példát mondani a létező beszédszintetizátorokra.

Mindenki ismeri az úgynevezett "olvasókat" - programokat a szöveg kényelmesebb olvasásához a monitorról. A nakhok közül sokan beszédszintézis-programokat használnak a szöveg olvasására, mint például a Balabolka és a Govorilka.

Ahhoz, hogy az ilyen programok szövegeket hangoztassanak, telepítenie kell a SAPI (Speech API) könyvtárat és a hangmotorokat is. A Speech API két leggyakoribb verziója a SAPI4 és a SAPI5. Mindkét programkönyvtár futhat ugyanazon a számítógépen. BAN BEN operációs rendszer Windows xp, Windows Vistaés a Windows 7 rendszerben már telepítve vannak a SAPI5 könyvtárak.

Az olvasókon kívül gyakoriak a képernyőolvasók. Példák az ilyen programokra:

SZŰZ 4 . A program a vakok és gyengénlátók Windows-os felhasználók kényelmes munkájához készült. Lehetővé teszi a kimondott és a Braille-kijelzőn megjelenő információk kiválasztását. A látássérült felhasználók számára a Galileo képernyőnagyító rendszer biztosított.

A Cobra 9.1 a Windows rendszert a vak és gyengénlátó felhasználók számára is megkönnyíti. Ez a program beszéddel, Braille-kijelzéssel információkat tud kiadni a számítógép monitoráról, és képernyőnagyító funkcióval rendelkezik.

Ma beszédszintetizátorok használt helyhez kötött számítógépes rendszerek vagy mobileszközökön, már nem tűnnek szokatlannak. A technológia messze előrelépett, és lehetővé tette az emberi hang reprodukálását. Hogyan működik mindez, hol alkalmazzák, melyik a legjobb beszédszintetizátor és milyen lehetséges problémákkal találkozhat a felhasználó, lásd alább.

Mik azok a beszédszintetizátorok és hol használják őket?

beszédszintetizátorok azok speciális programok, amely több modulból áll, amelyek lehetővé teszik a billentyűzeten begépelt szöveg lefordítását hétköznapi emberi beszéddé hang formájában.

Naivitás lenne azt hinni, hogy a kísérő könyvtárak abszolút minden szót vagy szót tartalmaznak, amelyeket valódi emberek stúdióban rögzítettek. Egyszerűen fizikailag lehetetlen. Ráadásul a fráziskönyvtárak akkora méretűek lennének, hogy egyszerűen még a modern, nagy kapacitású merevlemezekre sem lehetne telepíteni őket, a mobileszközökről nem is beszélve.

Erre fejlesztették ki a Text-to-Speech (text-to-speech translation) nevű technológiát.

A beszédszintetizátorokat a legszélesebb körben használják számos területen, beleértve független tanulmány idegen nyelvek (a programok gyakran 50 vagy több nyelvet támogatnak), hallania kell egy szó helyes kiejtését, olvasás helyett könyvek szövegét kell hallgatnia, beszéd- és vokális szólamokat kell létrehoznia a zenében, és fogyatékkal élők használhatják őket , kibocsátó keresési lekérdezések hangos szavak és kifejezések formájában stb.

Változatos programok

Az alkalmazási területtől függően minden program két fő típusra osztható: a szabványosra, amely közvetlenül konvertálja a szöveget beszéddé, és a zenei alkalmazásokban használt beszéd- vagy énekmodulokra.

A kép teljesebb megértése érdekében mindkét osztályt figyelembe vesszük, de továbbra is nagyobb hangsúlyt kapnak a beszédszintetizátorok közvetlen rendeltetésükben.

Az egyszerű beszéd alkalmazások előnyei és hátrányai

Ami az ilyen típusú programok előnyeit és hátrányait illeti, először nézzük meg a hátrányokat.

Először is világosan meg kell értenie, hogy a számítógép olyan számítógép, amely be van kapcsolva ezt a szakaszt fejlődése, az emberi beszéd nagyon közelítőleg szintetizálható. A legegyszerűbb programokban gyakran problémák merülnek fel a szavakban lévő hangsúlyok elhelyezésével, a hangminőség romlásával és a mobil eszközökön - megnövekedett energiafogyasztással, és néha a beszédmodulok illetéktelen betöltésével.

De van elég előnye, mert nagyon sok hangos információk sokkal jobban érzékelhető, mint vizuálisan. Az észlelés könnyedsége nyilvánvaló.

Hogyan kell használni a beszédszintetizátort?

Most néhány szó az ilyen típusú programok használatának alapelveiről. Bármilyen típusú beszédszintetizátort gond nélkül telepíthet. BAN BEN helyhez kötött rendszerek szabványos telepítőt használnak, ahol a fő feladat a támogatott nyelvi modulok kiválasztása lesz. Mobileszközök esetén a telepítőfájl letölthető a hivatalos áruházból vagy tárolóból A Google Play vagy AppStore, amely után az alkalmazás automatikusan telepítésre kerül.

Általános szabály, hogy az első indításkor semmilyen beállítást nem kell elvégezni, kivéve az alapértelmezett nyelv beállítását. Igaz, néha a program felajánlhatja a hangminőség kiválasztását (a szabványos, mindenhol használt változatban a mintavételezési frekvencia 4410 Hz, a mélység 16 bit, a bitsebesség pedig 128 kbps). A mobileszközökön ezek a számok alacsonyabbak. Ennek ellenére egy bizonyos hangot vesznek alapul. Szabványos kiejtési sablon használatával, szűrők és hangszínszabályzók alkalmazásával éppen egy ilyen hangszín hangzása érhető el.

Használat közben többféle lehetőség közül választhat a kézi fordításhoz, a fájlból már meglévő szöveg hangosításához, a keresési eredmények aktiválásával történő integrációhoz (például webböngészőkbe) vagy szöveges tartalom olvasásához online oldalakon. Elég a választáshoz kívánt opciót cselekvések, a nyelv és a hang, amelyen mindezt kiejtik. Sok programnak többféle hangja van: férfi és női hangok egyaránt. A start gombot általában a lejátszási folyamat aktiválására használják.

Ha a beszédszintetizátor kikapcsolásának módjáról beszélünk, több lehetőség is lehet. A legegyszerűbb esetben magában a programban a lejátszás leállítás gombját használják. Böngésző integráció esetén a deaktiválás a bővítmény beállításainál ill teljes eltávolítása csatlakoztat. De azzal mobil eszközök, az azonnali leállás ellenére előfordulhatnak problémák, amelyekről külön lesz szó.

BAN BEN zenei programok beállítások és szövegbevitel sokkal bonyolultabb. Például az FL Studio alkalmazásnak van saját beszédmodulja, amelyben a hangszín, a lejátszási sebesség stb. beállításainak enyhe módosítását végezheti el. A „_” karakter a szótag előtti hangsúly beállítására szolgál. De még egy ilyen szintetizátor is csak robothangok létrehozására alkalmas.

De a Yamaha Vocaloid csomagja a professzionális típushoz tartozik. A Text-to-Speech technológia itt van a legteljesebb mértékben megvalósítva. A beállításokban amellett szabványos paraméterek, beállíthatja az artikulációt, a glissandot, használhat könyvtárakat professzionális előadók énekével, szavakat és kifejezéseket írhat össze, hangjegyekhez igazíthatja őket és még sok más. Nem meglepő, hogy egy csak egy énekhangot tartalmazó csomag körülbelül 4 GB-ot vagy többet foglal el a telepítési elosztásban, és kicsomagolás után kétszer vagy háromszor annyit.

Beszédszintetizátorok orosz hangokkal: a legnépszerűbbek rövid áttekintése

De vissza a legtöbbre egyszerű alkalmazásokés tekintse meg közülük a legnépszerűbbet.

RHVoice - a legtöbb szakértő szerint a legjobb beszédszintetizátor, amely a szerzőség orosz fejlesztése. Három hang érhető el a standard verzióban (Alexander, Irina, Elena). A beállítások egyszerűek. Maga az alkalmazás pedig önálló SAPI5-kompatibilis programként és képernyőmodulként is használható.

Az Acapela egy nagyon érdekes alkalmazás, fő jellemzője amely szinte tökéletes megszólaltatása a szövegnek a világ több mint 30 nyelvén. A normál verzióban azonban csak egy hang érhető el (Alena).

A Vocalizer egy erőteljes alkalmazás Milena női hangjával. Nagyon gyakran ezt a programot call-centerekben használják. Számos beállítás létezik a stressz, a hangerő, az olvasási sebesség beállítására és a további szótárak telepítésére. A fő különbség az, hogy a beszédmotor beépíthető olyan programokba, mint a Cool Reader, a Moon+ Reader Pro vagy a Full Screen Caller ID.

fesztivál- erőteljes segédprogram beszédszintézis és -felismerő rendszer, Linux és Mac OS X rendszerekhez készült.Az alkalmazás nyitott forráskódés a szabvány mellett nyelvi csomagok, még a finn és a hindi nyelvet is támogatja.

Az eSpeak egy beszédalkalmazás, amely több mint 50 nyelvet támogat. A fő hátrány az, hogy a szintetizált beszédet tartalmazó fájlok kizárólag WAV formátumban menthetők, ami sok helyet foglal el. De a program többplatformos, és akár mobil rendszerekben is használható.

Problémák a Google Android beszédszintetizátorával

A Google "natív" beszédszintetizátorának telepítésekor a felhasználók folyamatosan panaszkodnak, hogy spontán módon bekapcsolja a további nyelvi modulok letöltését, ami nemcsak meglehetősen hosszú ideig tarthat, hanem forgalmat is fogyaszt.

Ennek megszabadulása Android rendszereken nagyon egyszerű lehet. Ehhez használja a beállítások menüt, majd lépjen a nyelv és hangbevitel szakaszhoz, és válassza ki hang Keresésés az offline beszédfelismerési paraméternél kattintson a keresztre (letiltás). Ezenkívül ajánlott az alkalmazás gyorsítótárának törlése és az eszköz újraindítása. Néha szükség lehet az értesítések kikapcsolására magában az alkalmazásban.

Mi az eredmény?

Összefoglalva egy bizonyos eredményt, azt mondhatjuk, hogy a legtöbb esetben a legtöbb egyszerű programok. Az RHVoice minden értékelésben vezető szerepet tölt be. De azoknak a zenészeknek, akik természetes hangzású hangot szeretnének elérni, hogy az élő ének és a számítógépes szintézis közötti különbséget ne halljuk, jobb, ha előnyben részesítik az olyan programokat, mint a Vocaloid, különösen mivel sok további hangkönyvtárat bocsátanak ki számukra, és a beállítások annyi lehetőséget rejtenek magukban, hogy a primitív alkalmazások, mint mondják, nem álltak a közelben.

A beszédszintetizátor programok évről évre egyre inkább az életünk részévé válnak. Lehetővé teszik számunkra az idegen nyelvek alaposabb elsajátítását, a szövegek kényelmes hangformátumba történő lefordítását, a különféle segédprogramok funkcionalitását és még sok mást. És amikor néhányunknak online szöveget kell reprodukálnia audio formátumban, akkor sokan ehhez fordulnak különféle szolgáltatásokés beszédszintézis programokat, amelyek segíthetnek átalakítani az ott szükséges szöveget. Ebben a cikkben az ilyen termékek hálózati verzióiról fogok beszélni, leírom, mi az online beszédszintetizátor, milyen online beszédszintézis szolgáltatások léteznek, és hogyan kell használni őket.

A legjobb online beszédszintetizátorok

Kezdetben beszédszintetizátorokat fejlesztettek ki látássérült emberek számára, hogy számítógépes hang segítségével reprodukálják a szöveget. De fokozatosan a tömeges közönség értékelte előnyeiket, és ma már szinte bárki letölthet beszédszintetizátort a számítógépére, vagy használhatja az operációs rendszerek egyes verzióiban található alternatívákat.

Tehát melyik online beszédszintetizátort választhatja? Az alábbiakban felsorolok néhány olyan szolgáltatást, amelyek lehetővé teszik a szöveg-beszéd online lejátszását.

Ivona remek szintetizátor

Ennek hangmotorjai online szolgáltatás nagyon eltérő jó minőség, jó fonetikai alap, teljesen természetes hangzású, és a „fémes” számítógéphang sokkal ritkábban érződik itt, mint a versenytárs szolgáltatásokban.

Az Ivona szolgáltatás számos nyelvet támogat, az orosz verzióban van egy férfi hang (Maxim) és egy női hang (Tatyana).

  1. A beszédszintetizátor használatához jelentkezzen be ebbe az erőforrásba, bal oldalon lesz egy ablak, amelybe szöveget kell beszúrnia az olvasáshoz.
  2. Illessze be a szöveget, kattintson a személy nevét tartalmazó gombra, válassza ki a nyelvet (orosz) és a kiejtési lehetőséget (nő vagy férfi), majd kattintson a "Play" gombra.

Sajnos az oldal ingyenes funkcionalitása egy 250 karakteres mondatra korlátozódik, és inkább a szolgáltatás képességeinek bemutatására szolgál, semmint komoly szöveges munkára. Nagy lehetőségeket csak térítés ellenében lehet megszerezni.

https://youtu.be/TIbx4pxX6Gk

Acapela - beszédfelismerő szolgáltatás

A cég, amely eladja hangmotorok különféle műszaki megoldások, meghívja Önt az Acapela beszédszintetizátor online használatára. Bár ennek a szolgáltatásnak a prozódiája nem olyan magas, mint az Ivonáé, ennek ellenére a kiejtés minősége itt is nagyon jó. Az Acapela erőforrás körülbelül 100 hangot támogat 34 nyelven.

  1. Az erőforrás funkcióinak használatához nyissa meg a megadott szolgáltatást, válassza az orosz lehetőséget a bal oldali ablakban (Válasszon nyelvet - orosz).
  2. Írja be alább a kívánt szöveget, és kattintson a „Hallgat” gombra (hallgatni).

A hangolvasás maximális szövegmérete 300 karakter.

Fromtexttospeech - online szolgáltatás

A fromtexttospeech szolgáltatást is használhatja szövegek online lefordításához. Azon az elven működik, hogy szöveget mp3 hangfájllá alakít, amelyet aztán letölthet a számítógépére. A szolgáltatás 50 000 karakteres szövegátalakítást támogat, ami elég nagy mennyiség.

  1. A fromtexttospeech szolgáltatással való együttműködéshez lépjen rá, a „Nyelv kiválasztása” lehetőségnél válassza az „orosz” lehetőséget (itt csak egy hang van - Valentina).
  2. Egy nagy ablakban írja be (illessze be) a hangvezérléshez szükséges szöveget, majd kattintson a "Hangfájl létrehozása" gombra.
  3. A szöveg feldolgozásra kerül, majd meghallgathatja az eredményt, majd letöltheti a számítógépére.
  4. Ehhez kattintson a jobb gombbal a "Hangfájl letöltése" elemre, és válassza a "Cél mentése másként" lehetőséget a megjelenő menüből.

A Google Fordító is használható

A jól ismert Google fordító online beépített szövegfelolvasó funkcióval rendelkezik, és az itt olvasható szöveg mennyisége igen terjedelmes lehet.

  1. Ha dolgozni szeretne vele, jelentkezzen be ebbe a szolgáltatásba (itt).
  2. A bal oldali ablakban válassza ki az orosz nyelvet, majd kattintson a „Hallgat” alatti hangszóró gombra.

A lejátszás minősége elég tűrhető szinten van, de nem több.

Szövegfelolvasó – online beszédszintetizátor

Egy másik erőforrás, amely normál minőségű beszédszintézist végez. Az ingyenes funkciók 1000 karakter beírására korlátozódnak.

  1. A szolgáltatás használatához lépjen erre a webhelyre, a jobb oldali ablakban a „Nyelv” opció (nyelv) mellett válassza az orosz lehetőséget.
  2. Az ablakban írja be (vagy másolja ki külső forrásból) a kívánt szöveget, majd kattintson a jobb oldalon található „Mondd ki” gombra.
  3. A megadott szöveg kiejtésére mutató hivatkozást az e-mailben vagy weboldalon is elhelyezheti az „Igen” gombra kattintva.

Alternatív PC-szoftver szövegfelolvasáshoz

Vannak olyan beszédszintézis programok is, mint például a TextSpeechPro AudioBookMaker, az ESpeak, a Voice Reader 15, a VOICE és számos más, amelyek képesek szöveget beszéddé alakítani. Ezeket le kell tölteni és telepíteni kell a számítógépére, és ezeknek a termékeknek a funkcionalitása és képességei általában kissé meghaladják a szóban forgó online szolgáltatások képességeit. Részletes leírásuk külön terjedelmes anyagot érdemel.

Következtetés

Tehát melyik online beszédszintetizátort válasszam? A legtöbbben ingyenes funkciók jelentősen korlátozottak, és a hangminőség tekintetében az Ivona szolgáltatás maga mögött hagyja versenytársait. Ha érdekel a lehetőség gyors átvitel szövegét egy hangfájlba, majd használja a "fromtexttospeech" erőforrást – ez adja az eredményt jó minőségűés elég rövid időn belül.



Betöltés...
Top