Wie heißt das Spracherzeugungssystem. Online-Sprachsynthesizer: die besten Dienste für die Sprachausgabe von Text

Das Programm ist zum Vorlesen konzipiert Textdateien. Um die Klänge einer menschlichen Stimme zu reproduzieren, können alle auf einem Computer installierten Sprachsynthesizer verwendet werden. Wiedergabe...

Vor 3 Monaten Lizenz: Frei Sprache: Russisch Englisch Deutsch Betriebssystem: XP/Vista/7/8/8.1/10 Größe: 16,99 MB

Ein leistungsstarkes Tool zum Lesen von Text aus einer Webseite, einem Brief, einer Textdatei, verschiedenen Dokumenten oder zum Konvertieren in MP3- oder WMA-Audiodateien. Das Programm integriert sich in solche...

vor 4 Monaten Lizenz: Shareware Sprache: Englisch Betriebssystem: XP/Vista/7/8/8.1/10 Größe: 24,1 MB

interessante Anwendung, das in der Lage ist, gedruckten Text in Audiosprache umzuwandeln. Dies ist praktisch, um verschiedene Audio-Lektionen, Vorträge oder sogar ganze Bücher zu erstellen, wenn Sie einfach ...

vor 6 Monaten Lizenz: Frei Sprache: Russisch Englisch Betriebssystem: XP/Vista/7/8/8.1/10 Größe: 3,72 MB

Apropos Texteditor. SAPI4- und SAPI5-kompatibler Sprachsynthesizer. Das Programm wurde entwickelt, um Textdateien mithilfe von Microsoft Speech API 4/5 (SA...

Vor einem Jahr Lizenz: Frei Sprache: Russisch Betriebssystem: XP/Vista/7/8/8.1/10 Größe: 3,59 MB

Mit dem 2nd Speech Center kann Text angehört werden, anstatt vom Bildschirm gelesen zu werden, wodurch die Augen entlastet werden. Der Text wird aus der Zwischenablage gesprochen. Es ist möglich, gesprochenen Text in mp3/wav aufzunehmen....

vor 2 Jahren Lizenz: Shareware Sprache: Englisch Betriebssystem: 2000/XP/2003/Vista/7/8/8.1/10 Größe: 3,77 MB

bequem und schnelles Programm Texte vertonen, Hörbücher erstellen (im Format wav, mp3, amr, aac + Playlist), Betonungen in russischen Texten setzen oder Bücher einfach bequem am Bildschirm lesen. Chrom...

vor 4 Jahren Lizenz: Shareware Sprache: Russisch Betriebssystem: XP/Vista/7 Größe: 2,59 MB

kostenloses Programm um Text in Sprache umzuwandeln. Es hilft, jeden Text laut vorzulesen und ihn in einer WAV- oder MP3-Datei zu speichern. TTSReader hat bereits etwa 10 männliche und weibliche Stimmen. Usw...

Vor 8 Jahren Lizenz: Frei Sprache: Englisch Betriebssystem: 2000/XP/Vista Größe: 2,29 MB

Mit Pistonsoft Text to Speech Converter können Sie Text in Sprache oder Hörbücher im MP3- und WAV-Format konvertieren. Alle im System installierten Sprachen stehen im Programm zur Sprachausgabe zur Verfügung. Technologien...

Die Synthese der mündlichen Rede ist die Umwandlung von bisher unbekannten Textinformationen in Sprache. Die Sprachausgabe von Informationen ist die Implementierung der Sprachschnittstelle, um die Nutzung des Systems zu vereinfachen. Tatsächlich wird dank Sprachsynthese ein weiterer Datenübertragungskanal vom Computer bereitgestellt, Mobiltelefon zu einer Person, ähnlich einem Monitor. Natürlich ist es unmöglich, die Zeichnung per Stimme zu übermitteln, aber hören Sie es sich an Email oder der Zeitplan für den Tag ist in manchen Fällen recht bequem, besonders wenn das Auge zu diesem Zeitpunkt mit etwas anderem beschäftigt ist. Wenn Sie zum Beispiel morgens zur Arbeit kommen und sich auf Verhandlungen vorbereiten, könnten Sie Ihre Krawatte oder Ihr Haar vor dem Spiegel glätten, während der Computer laut vorliest letzte Nachrichten, E-Mail oder Erinnerungen wichtige Informationen für Verhandlungen.

Abbildung 2.2 - Akustische Signalverarbeitung

Die Sprachsynthesetechnologie hat eine breite Anwendung für Menschen mit Sehproblemen gefunden. Für alle anderen schafft es eine neue Dimension der Benutzerfreundlichkeit der Technologie, reduziert die Belastung des Sehvermögens und des Nervensystems erheblich und ermöglicht die Nutzung des auditiven Gedächtnisses.


Abbildung 2.3 – Sprachsynthese

Jeder Text besteht aus Wörtern, die durch Leerzeichen und Satzzeichen getrennt sind. Die Aussprache von Wörtern hängt von ihrer Position im Satz ab, und die Betonung der Phrase hängt von den Satzzeichen ab. Schließlich hängt die Aussprache auch von der Bedeutung des Wortes ab! Damit die synthetisierte Sprache natürlich klingt, ist es daher notwendig, eine ganze Reihe von Aufgaben zu lösen, die sich sowohl auf die Sicherstellung der Natürlichkeit der Stimme auf der Ebene der Klang- und Intonationsglätte als auch auf die richtige Platzierung von Betonungen und die Dekodierung beziehen Abkürzungen, Zahlen, Abkürzungen und Sonderzeichen unter Berücksichtigung der Besonderheiten der russischen Grammatik Sprache.

Zur Lösung der Aufgaben gibt es mehrere Ansätze:

1) Allophon-Synthesesysteme – sorgen für einen stabilen, aber nicht ausreichend natürlichen Roboterklang;

2) Systeme, die auf dem Unit-Selection-Ansatz basieren – bieten einen viel natürlicheren Klang, können aber Sprachfragmente mit scharfen Qualitätseinbrüchen bis hin zum Verlust der Verständlichkeit enthalten;

3) Hybridtechnologie basierend auf dem Unit-Selection-Ansatz und ergänzt durch Einheiten der Allophonsynthese.

Basierend auf dieser Technologie wurde das VitalVoice-System geschaffen, das auf akustischer Ebene für einen stabilen und natürlichen Klang sorgt.

Sprachkommunikation ist für eine Person natürlich und bequem. Die Aufgabe der Spracherkennung besteht darin, den Vermittler bei der Kommunikation zwischen einer Person und einem Computer zu entfernen. Die Steuerung der Maschine mit Echtzeitstimme sowie die Eingabe von Informationen durch menschliche Sprache wird das Leben eines modernen Menschen erheblich vereinfachen. Einer Maschine beizubringen, ohne Zwischenhändler die Sprache zu verstehen, die Menschen miteinander sprechen, ist die Aufgabe der Spracherkennung.

Wissenschaftler und Ingenieure lösen seit vielen Jahren das Problem der verbalen Kommunikation zwischen Mensch und Maschine. Das erste Spracherkennungsgerät erschien 1952, es konnte die von einer Person gesprochenen Zahlen erkennen. Kommerzielle Spracherkennungsprogramme erschienen in den frühen neunziger Jahren.

Alle Spracherkennungssysteme lassen sich in zwei Klassen einteilen:

1) Sprecherabhängige Systeme – abgestimmt auf die Sprache des Sprechers im Lernprozess. Um mit einem anderen Lautsprecher zu arbeiten, erfordern solche Systeme eine vollständige Neukonfiguration.


Abbildung 2.4 – Spracherkennung

2) Sprecherunabhängige Systeme – deren Betrieb nicht vom Sprecher abhängt. Solche Systeme erfordern kein vorheriges Training und sind in der Lage, die Sprache jedes Sprechers zu erkennen.

Zunächst erschienen Systeme des ersten Typs auf dem Markt. In ihnen wurde das Klangbild des Kommandos in Form eines ganzheitlichen Standards hinterlegt. Um eine unbekannte Aussprache und einen Standardbefehl zu vergleichen, wurden Methoden verwendet dynamische Programmierung. Diese Systeme arbeiteten gut beim Erkennen kleiner Sätze von 10-30 Befehlen und verstanden nur einen Sprecher. Um mit einem anderen Lautsprecher zu arbeiten, erforderten diese Systeme eine vollständige Neukonfiguration.

Um kontinuierliche Sprache zu verstehen, war es notwendig, zu Wörterbüchern mit viel größerem Umfang zu wechseln, von mehreren Zehntausend bis zu Hunderttausenden von Wörtern. Die in Systemen der ersten Art verwendeten Methoden waren zur Lösung dieses Problems nicht geeignet, da es einfach unmöglich ist, Standards für eine solche Anzahl von Wörtern zu erstellen.

Außerdem bestand der Wunsch, das System vom Ansager unabhängig zu machen. Dies ist eine sehr schwierige Aufgabe, da jede Person eine individuelle Art der Aussprache hat: das Sprechtempo, die Klangfarbe der Stimme und die Aussprachemerkmale. Solche Unterschiede werden Sprachvariabilität genannt. Um dies zu berücksichtigen, wurden neue statistische Methoden vorgeschlagen, die hauptsächlich auf dem mathematischen Apparat von Hidden Markov Models (HMMs) oder Artificial basieren Neuronale Netze. Anstatt Standards für jedes Wort zu erstellen, werden Standards für die einzelnen Laute erstellt, aus denen Wörter bestehen, die sogenannten akustischen Modelle. Akustische Modelle werden durch statistische Verarbeitung großer Sprachdatenbanken gebildet, die Sprachaufzeichnungen von Hunderten von Menschen enthalten.

IN bestehende Systeme Die Spracherkennung verwendet zwei grundlegend unterschiedliche Ansätze:

Anerkennung von lexikalischen

Beachten Sie, dass die Erstellung von Spracherkennungssystemen eine äußerst schwierige Aufgabe ist.

Bis heute wird eine Technologie genannt, die in der Lage ist, Textinformationen in gewöhnliche Sprache umzuwandeln. Mit der Entwicklung von „Smart Machines“ gewinnt diese Technologie immer mehr an Relevanz und verlangt täglich nach mehr Perfektion. Eigentlich weiter dieser Moment Es wurde eine Reihe von Sprachsynthesemethoden entwickelt, über die wir sprechen werden.

Sprachsynthesizer können in ganz unterschiedlichen Bereichen eingesetzt werden und dienen zur Lösung vielfältiger Aufgaben, die vom „Rezitieren“ von Büchern, der Herstellung von „sprechendem“ Kinderspielzeug, der Ansage von Haltestellen in öffentlichen Verkehrsmitteln oder in Service-Systemen, und endet mit der Medizin (hier lohnt es sich, an Stephen Hawking zu erinnern, der einen Sprachsynthesizer verwendet, um mit der Welt zu kommunizieren).

Schauen wir uns also die Technologie und Methoden der Sprachsynthese genauer an. Wie bereits erwähnt, gibt es mehrere Methoden der Sprachsynthese. Daher gibt es mehrere Hauptansätze:

  • parametrische Synthese;
  • verkettende (Kompilations-)Synthese;
  • Synthese nach den Regeln (nach dem gedruckten Text);

Mit der parametrischen Synthese können Sie Sprache für jede Sprache aufzeichnen, sie kann jedoch nicht für nicht vordefinierte Texte verwendet werden. Parametrische Sprachsynthese wird verwendet, wenn der Nachrichtensatz begrenzt ist. Die Qualität eines solchen Syntheseverfahrens kann sehr hoch sein.

Im Wesentlichen ist die parametrische Sprachsynthese eine Implementierung der Funktionsweise eines Vocoders. Im Fall der parametrischen Synthese Tonsignal dargestellt durch eine bestimmte Anzahl sich ständig ändernder Parameter. Zur Bildung von Vokalen wird ein Tongenerator verwendet, für Konsonanten ein Rauschgenerator. Aber diese Methode wird normalerweise verwendet, um Sprache in musikalischen Kompositionen aufzunehmen, und häufiger geht es nicht einmal um reine Stimmsynthese, sondern um Modulation.

Das Kompilierungssyntheseverfahren basiert auf der Kompilierung von Texten aus einem vorher aufgezeichneten "Wörterbuch" von Elementen. Die Größe des Systemelements muss mindestens ein Wort betragen. Typischerweise ist der Bestand an Elementen auf mehrere hundert Wörter und der Inhalt der synthetisierten Texte auf den Umfang des Wörterbuchs begrenzt. Diese Methode der Sprachsynthese ist im Alltag weit verbreitet - in der Regel in verschiedenen Informationsdiensten und Technologien, die eine Ausrüstung mit Sprachantwortsystemen erfordern.

Vollständige Sprachsynthese gemäß den Regeln kann Sprache aus einem zuvor unbekannten Text reproduzieren. Dieses Verfahren verwendet keine Elemente der menschlichen Sprache, sondern basiert auf programmierten linguistischen und akustischen Algorithmen.

Auch hier gibt es eine Einteilung – es lassen sich zwei Ansätze für diese Synthesemethode unterscheiden. Die erste ist die regelkonforme Formant-Sprachsynthese und die zweite die artikulatorische Synthese. Die Formant-Synthese basiert auf Formanten – Frequenzresonanzen der Sprache Lautsprechersystem. Der Formant-Synthesealgorithmus modelliert die Arbeit des menschlichen Vokaltrakts, der als eine Reihe von Resonatoren arbeitet. Heutzutage sind leider die meisten Synthesizer, die ausschließlich mit Formantsynthese arbeiten, ohne Vorbereitung schwer zu verstehen, aber zweifellos ist dies eine universelle und vielversprechende Technologie. Die artikulatorische Methode versucht, die Mängel der Formantmethode zu verbessern, indem dem Modell phonetische Merkmale der Aussprache einzelner Laute hinzugefügt werden.

Es gibt auch eine regelbasierte Sprachsynthesetechnologie, die aufgezeichnete Segmente natürlicher Sprache verwendet. Da Kompilierungsmethoden immer noch am häufigsten verwendet werden, lassen Sie uns ein paar Worte darüber genauer sagen.

Je nachdem, wie groß die zur Synthese verwendeten „Auszüge“ der Sprache sind, werden folgende Arten der Synthese unterschieden:

  • Mikrosegment (Mikrowelle);
  • allophon;
  • zweistimmig;
  • Halbsilbe;
  • Silbe;
  • Synthese aus Einheiten beliebiger Größe.

Die am häufigsten verwendeten sind allophone und diphone Verfahren. Für die diphone Methode der Sprachsynthese Grundelemente sind alle Arten von Binomialkombinationen von Phonemen und für Allophone - Kombinationen von linken und rechten Kontexten (ein Allophon ist eine Variante eines Phonems, was auf seine spezifische phonetische Umgebung zurückzuführen ist). Dabei Verschiedene Arten Kontexte werden entsprechend dem Grad der akustischen Nähe zu Klassen zusammengefasst.

Der Vorteil solcher Systeme besteht darin, dass sie es ermöglichen, einen Text aus einem nicht vorgegebenen Text zu synthetisieren, und der Nachteil besteht darin, dass die Qualität der synthetisierten Sprache nicht mit der Qualität natürlicher Sprache vergleichbar ist (Verzerrungen können an den Grenzen von auftreten das Nähen von Elementen). Es ist auch sehr schwierig, die Intonationseigenschaften von Sprache zu kontrollieren, da sich die Eigenschaften einzelner Wörter je nach Kontext oder Phrasentyp ändern können.

Dies ist jedoch alles nur Theorie. In der Praxis haben die Entwickler der Sprachsynthesetechnologie im gegenwärtigen Entwicklungsstadium trotz des aktiven Fortschritts in diesem Bereich immer noch einige Schwierigkeiten, die hauptsächlich mit der Künstlichkeit der synthetisierten Sprache, dem Mangel an emotionaler Färbung und der geringen Störfestigkeit zusammenhängen .

Tatsache ist, dass jede synthetisierte Sprache in der Regel von einer Person mit Schwierigkeiten wahrgenommen wird. Dies liegt daran, dass das menschliche Gehirn die Lücken im synthetisierten Text füllt, was zusätzliche Ressourcen dafür verwendet, und eine Person kann synthetisierte Sprache normalerweise nur etwa 20 Minuten lang wahrnehmen.

Die Sprachwahrnehmung wird auch durch ihre emotionale Färbung beeinflusst. Im Fall von synthetisierter Sprache fehlt es. Obwohl es erwähnenswert ist, dass einige Algorithmen immer noch bis zu einem gewissen Grad erlauben, die emotionale Färbung von Sprache zu imitieren, indem sie die Dauer von Phonemen, Pausen und Klangfarbenmodulation ändern, ist ihre Arbeit bisher alles andere als ideal.

Was das drittgenannte Problem anbelangt – geringe Störfestigkeit, zeigen Experimente, dass jedes, sogar das kleinste Fremdrauschen die Wahrnehmung des synthetisierten Textes stört. Dies liegt wiederum daran, dass das menschliche Gehirn zur Verarbeitung von synthetisierter Sprache zusätzliche Zentren verwendet, die bei der Wahrnehmung natürlicher Sprache nicht verwendet werden.

Am Ende dieses Artikels möchte ich einige Beispiele für existierende Sprachsynthesizer geben.

Jeder kennt die sogenannten "Reader" - Programme zum bequemeren Lesen von Texten vom Monitor. Viele der Nakh verwenden Sprachsyntheseprogramme, um Text zu lesen, wie z. B. Balabolka und Govorilka.

Damit solche Programme Texte sprechen können, müssen Sie auch die SAPI-Bibliothek (Speech API) und Sprach-Engines installieren. Die zwei gebräuchlichsten Versionen der Speech API sind SAPI4 und SAPI5.Beide Bibliotheken können auf demselben Computer ausgeführt werden. IN Betriebssysteme windows xp, Windows Vista und Windows 7 haben bereits die SAPI5-Bibliotheken installiert.

Neben Readern sind Screenreader weit verbreitet. Beispiele für solche Programme sind:

JUNGFRAU 4 . Das Programm wurde für das komfortable Arbeiten von blinden und sehbehinderten Benutzern mit Windows erstellt. Hier können Sie auswählen, welche Informationen gesprochen werden und welche Informationen auf der Braillezeile angezeigt werden. Für sehbehinderte Benutzer wird das Galileo-Bildschirmvergrößerungssystem bereitgestellt.

Cobra 9.1 macht Windows auch für blinde und sehbehinderte Benutzer einfacher. Dieses Programm kann Informationen von einem Computermonitor per Sprache und Braillezeile ausgeben und verfügt über eine Bildschirmvergrößerungsfunktion.

Heute werden Sprachsynthesizer stationär eingesetzt Computersysteme oder mobilen Geräten erscheinen sie nicht mehr ungewöhnlich. Die Technologie ist weit voraus und hat es ermöglicht, die menschliche Stimme zu reproduzieren. Wie das alles funktioniert, wo es angewendet wird, was der beste Sprachsynthesizer ist und auf welche potenziellen Probleme der Benutzer stoßen kann, siehe unten.

Was sind Sprachsynthesizer und wo werden sie eingesetzt?

Sprachsynthesizer sind spezielle Programme, bestehend aus mehreren Modulen, mit denen Sie den auf der Tastatur eingegebenen Text in die gewöhnliche menschliche Sprache in Form von Ton übersetzen können.

Es wäre naiv zu glauben, dass die begleitenden Bibliotheken absolut alle Wörter oder möglichen Phrasen enthalten, die von echten Menschen in Studios aufgenommen wurden. Es ist einfach physikalisch unmöglich. Außerdem hätten Phrasenbibliotheken eine solche Größe, dass sie selbst auf modernen Festplatten mit großer Kapazität, geschweige denn auf mobilen Geräten, einfach nicht installiert werden könnten.

Dafür wurde eine Technologie namens Text-to-Speech (Text-zu-Sprache-Übersetzung) entwickelt.

Sprachsynthesizer werden am häufigsten in mehreren Bereichen verwendet, darunter unabhängig Lernen Fremdsprachen (Programme unterstützen oft 50 Sprachen oder mehr), müssen Sie die korrekte Aussprache eines Wortes hören, Texte von Büchern hören, anstatt zu lesen, Sprach- und Gesangsteile in Musik zu erstellen und sie von Menschen mit Behinderungen zu verwenden , ausgeben Suchanfragen in Form von stimmhaften Wörtern und Phrasen usw.

Programmvielfalt

Je nach Anwendungsgebiet lassen sich alle Programme in zwei Haupttypen unterteilen: Standardprogramme, die Text direkt in Sprache umwandeln, und Sprach- oder Gesangsmodule, die in Musikanwendungen verwendet werden.

Für ein vollständigeres Verständnis des Bildes werden wir beide Klassen betrachten, aber Sprachsynthesizer in ihrem direkten Zweck noch stärker betonen.

Vor- und Nachteile einfacher Sprachanwendungen

Betrachten wir zunächst die Vor- und Nachteile von Programmen dieser Art.

Zunächst müssen Sie klar verstehen, dass ein Computer ein Computer ist, der eingeschaltet ist diese Phase Entwicklung kann die menschliche Sprache sehr ungefähr synthetisiert werden. In den einfachsten Programmen gibt es oft Probleme mit der Platzierung von Betonungen in Wörtern, reduzierter Tonqualität und in mobilen Geräten - erhöhter Stromverbrauch und manchmal unbefugtes Laden von Sprachmodulen.

Aber es gibt genug Vorteile, weil so viele solide Informationen viel besser wahrgenommen als visuell. Leichte Wahrnehmung ist offensichtlich.

Wie benutzt man einen Sprachsynthesizer?

Nun ein paar Worte zu den Grundprinzipien der Verwendung von Programmen dieser Art. Sie können problemlos einen beliebigen Sprachsynthesizer installieren. IN stationäre Systeme Es wird ein Standardinstallationsprogramm verwendet, dessen Hauptaufgabe darin besteht, unterstützte Sprachmodule auszuwählen. Für mobile Geräte kann die Installationsdatei aus dem offiziellen Store oder Repository wie heruntergeladen werden Google Play oder AppStore, danach wird die Anwendung automatisch installiert.

In der Regel müssen beim ersten Start keine Einstellungen, außer der Einstellung der Standardsprache, vorgenommen werden. Es stimmt, manchmal bietet das Programm an, die Tonqualität auszuwählen (in der Standardversion, die überall verwendet wird, beträgt die Abtastrate 4410 Hz, die Tiefe 16 Bit und die Bitrate 128 kbps). Bei Mobilgeräten sind diese Zahlen niedriger. Trotzdem wird eine bestimmte Stimme zugrunde gelegt. Durch die Verwendung einer Standard-Aussprachevorlage, die Anwendung von Filtern und Equalizern wird der Klang einer solchen Klangfarbe erreicht.

In der Anwendung können Sie mehrere Optionen auswählen, um manuell zu übersetzen, bereits vorhandenen Text aus einer Datei zu vertonen, in andere Anwendungen (z. B. Webbrowser) mit der Aktivierung von Suchergebnissen zu integrieren oder Textinhalte auf Online-Seiten zu lesen. Genug zu wählen gewünschte Möglichkeit Handlungen, die Sprache und die Stimme, mit der all dies ausgesprochen wird. Viele Programme haben mehrere Arten von Stimmen: sowohl männliche als auch weibliche. Die Start-Taste wird normalerweise verwendet, um den Wiedergabevorgang zu aktivieren.

Wenn wir darüber sprechen, wie der Sprachsynthesizer ausgeschaltet werden kann, gibt es möglicherweise mehrere Optionen. Im einfachsten Fall wird die Wiedergabe-Stopp-Schaltfläche im Programm selbst verwendet. Bei Browser-Integration erfolgt die Deaktivierung in den Erweiterungseinstellungen bzw vollständige Entfernung Plugin. Aber mit mobile Geräte Trotz sofortiger Abschaltung kann es zu Problemen kommen, die gesondert besprochen werden.

IN Musikprogramme Einstellungen und Texteingabe ist viel komplizierter. Zum Beispiel hat die Anwendung FL Studio ein eigenes Sprachmodul, in dem Sie die Einstellungen für Tonalität, Wiedergabegeschwindigkeit usw. leicht ändern können. Das Zeichen „_“ wird verwendet, um eine Betonung vor eine Silbe zu setzen. Aber auch ein solcher Synthesizer ist nur für die Erzeugung von Roboterstimmen geeignet.

Aber Yamahas Vocaloid-Paket gehört zum professionellen Typ. Die Text-to-Speech-Technologie ist hier in vollem Umfang implementiert. In den Einstellungen zusätzlich zu Standardparameter, Sie können Artikulation und Glissando einstellen, Bibliotheken mit Vocals von professionellen Interpreten verwenden, Wörter und Phrasen komponieren, sie an Noten anpassen und vieles mehr. Es ist nicht verwunderlich, dass ein Paket mit nur einer Stimme in der Installationsdistribution etwa 4 GB oder mehr belegt und nach dem Entpacken das Doppelte oder Dreifache.

Sprachsynthesizer mit russischen Stimmen: ein kurzer Überblick über die beliebtesten

Aber zurück zum Meisten einfache Anwendungen und betrachten Sie die beliebtesten von ihnen.

RHVoice - nach Ansicht der meisten Experten der beste Sprachsynthesizer, der eine russische Entwicklung der Autorenschaft darstellt.In der Standardversion sind drei Stimmen verfügbar (Alexander, Irina, Elena). Die Einstellungen sind einfach. Und die Anwendung selbst kann sowohl als eigenständiges SAPI5-konformes Programm als auch als Bildschirmmodul verwendet werden.

Acapela ist eine ziemlich interessante Anwendung, Hauptmerkmal das ist eine nahezu perfekte Sprachausgabe des Textes in mehr als 30 Sprachen der Welt. In der regulären Version steht allerdings nur eine Stimme zur Verfügung (Alena).

Vocalizer ist eine leistungsstarke Anwendung mit der weiblichen Stimme von Milena. Sehr oft wird dieses Programm in Call-Centern verwendet. Es gibt viele Einstellungen zum Einstellen von Stress, Lautstärke, Lesegeschwindigkeit und zum Installieren zusätzlicher Wörterbücher. Der Hauptunterschied besteht darin, dass die Sprach-Engine in Programme wie Cool Reader, Moon+ Reader Pro oder Full integriert werden kann Bildschirmanrufer AUSWEIS.

Festival- leistungsstarkes Dienstprogramm Sprachsynthese- und Erkennungssystem, erstellt für Linux- und Mac OS X-Systeme.Die Anwendung wird mit einem open Quellcode und zusätzlich zum Standard Sprachpakete, hat sogar Unterstützung für Finnisch und Hindi.

eSpeak ist eine Sprachanwendung, die über 50 Sprachen unterstützt. Der Hauptnachteil ist das Speichern von Dateien mit synthetisierter Sprache ausschließlich im WAV-Format, das viel Platz beansprucht. Aber das Programm ist plattformübergreifend und kann sogar in mobilen Systemen verwendet werden.

Probleme mit dem Sprachsynthesizer in Google Android

Bei der Installation eines „nativen“ Sprachsynthesizers von Google beschweren sich Nutzer immer wieder, dass dieser spontan den Download zusätzlicher Sprachmodule einschaltet, was nicht nur recht lange dauern kann, sondern auch Traffic verbraucht.

Dies auf Android-Systemen loszuwerden, kann sehr einfach sein. Verwenden Sie dazu das Einstellungsmenü, gehen Sie dann zum Abschnitt Sprache und Spracheingabe und wählen Sie aus Sprachsuche und klicken Sie beim Offline-Spracherkennungsparameter auf das Kreuz (deaktivieren). Außerdem wird empfohlen, den Anwendungscache zu leeren und das Gerät neu zu starten. Manchmal kann es notwendig sein, Benachrichtigungen in der Anwendung selbst zu deaktivieren.

Was ist das Ergebnis?

Zusammenfassend ein bestimmtes Ergebnis, können wir das in den meisten Fällen am meisten sagen einfache Programme. RHVoice ist in allen Bewertungen führend. Aber für Musiker, die eine natürlich klingende Stimme erreichen wollen, damit der Unterschied zwischen Live-Gesang und Computersynthese nicht mit dem Gehör zu spüren ist, ist es besser, Programmen wie Vocaloid den Vorzug zu geben, zumal für sie viele zusätzliche Stimmbibliotheken veröffentlicht werden. und die Einstellungen haben so viele Möglichkeiten, dass primitive Anwendungen, wie sie sagen, nicht in der Nähe standen.

Sprachsynthesizer-Programme werden jedes Jahr mehr und mehr Teil unseres Lebens. Sie ermöglichen es uns, Fremdsprachen gründlicher zu lernen, Texte in ein praktisches Audioformat zu übersetzen, werden in der Funktionalität verschiedener Hilfsprogramme verwendet und vieles mehr. Und wenn einige von uns einen Text online im Audioformat reproduzieren müssen, wenden sich viele von uns an verschiedene Dienstleistungen und Sprachsyntheseprogramme, die uns helfen können, den dort benötigten Text umzuwandeln. In diesem Artikel werde ich über Netzwerkversionen solcher Produkte sprechen, beschreiben, was ein Online-Sprachsynthesizer ist, welche Online-Sprachsynthesedienste es gibt und wie man sie verwendet.

Die besten Online-Sprachsynthesizer

Ursprünglich wurden Sprachsynthesizer für sehbehinderte Menschen entwickelt, um Text mit einer Computerstimme wiederzugeben. Aber nach und nach wurden ihre Vorteile von einem Massenpublikum geschätzt, und jetzt kann fast jeder einen Sprachsynthesizer auf einen PC herunterladen oder die Alternativen verwenden, die in einigen Versionen von Betriebssystemen vorhanden sind.

Welchen Online-Sprachsynthesizer können Sie also wählen? Im Folgenden werde ich eine Reihe von Diensten auflisten, mit denen Sie Text-to-Speech online abspielen können.

Ivona ist ein großartiger Synthesizer

Voice-Engines davon Onlineservice sehr verschieden gute Qualität, eine gute phonetische Basis, klingen recht natürlich und die „metallische“ Computerstimme ist hier viel seltener zu spüren als bei konkurrierenden Diensten.

Der Ivona-Dienst unterstützt viele Sprachen, in der russischen Version gibt es eine männliche Stimme (Maxim) und eine weibliche Stimme (Tatyana).

  1. Um den Sprachsynthesizer zu verwenden, melden Sie sich bei dieser Ressource an. Auf der linken Seite wird ein Fenster angezeigt, in das Sie Text zum Lesen einfügen müssen.
  2. Geben Sie den Text ein, klicken Sie auf die Schaltfläche mit dem Namen der Person, wählen Sie die Sprache (Russisch) und die Ausspracheoption (weiblich oder männlich) und klicken Sie auf die Schaltfläche „Abspielen“.

Leider ist die kostenlose Funktionalität der Seite auf einen Satz von 250 Zeichen beschränkt und dient eher der Demonstration der Leistungsfähigkeit des Dienstes als der ernsthaften Arbeit mit Text. Große Chancen können nur gegen eine Gebühr erhalten werden.

https://youtu.be/TIbx4pxX6Gk

Acapela - Spracherkennungsdienst

Das Unternehmen, das seine verkauft Voice-Engines für verschiedene technische Lösungen, lädt Sie ein, den Sprachsynthesizer Acapela online zu verwenden. Obwohl die Prosodie dieses Dienstes nicht so hoch ist wie die von Ivona, ist die Aussprache auch hier sehr gut. Die Acapela-Ressource unterstützt etwa 100 Stimmen in 34 Sprachen.

  1. Um die Funktionalität der Ressource zu nutzen, öffnen Sie den angegebenen Dienst und wählen Sie im linken Fenster Russisch aus (Sprache auswählen - Russisch).
  2. Fügen Sie unten den gewünschten Text ein und klicken Sie auf den „Hören“-Button (Hören).

Die maximale Textgröße für das Hörlesen beträgt 300 Zeichen.

Vom Text zur Sprache - Online-Dienst

Sie können auch den Dienst fromtexttospeech verwenden, um Text in Sprache online zu übersetzen. Es funktioniert nach dem Prinzip, Text in eine MP3-Audiodatei umzuwandeln, die Sie dann auf Ihren Computer herunterladen können. Der Dienst unterstützt die Textkonvertierung von 50.000 Zeichen, was eine ziemlich große Menge ist.

  1. Um mit dem fromtexttospeech-Dienst zu arbeiten, gehen Sie zu ihm, wählen Sie in der Option "Sprache auswählen" "Russisch" (hier gibt es nur eine Stimme - Valentina).
  2. Geben Sie in einem großen Fenster den Text ein, den Sie für die Sprachausgabe benötigen, und klicken Sie dann auf die Schaltfläche "Audiodatei erstellen".
  3. Der Text wird verarbeitet, dann können Sie sich das Ergebnis anhören und es dann auf Ihren PC herunterladen.
  4. Klicken Sie dazu mit der rechten Maustaste auf „Audiodatei herunterladen“ und wählen Sie im erscheinenden Menü „Ziel speichern unter“ aus.

Google Translate kann auch verwendet werden

Der bekannte Online-Übersetzer Google hat eine eingebaute Text-zu-Sprache-Funktion, und die hier gelesene Textmenge kann sehr umfangreich sein.

  1. Um damit zu arbeiten, melden Sie sich bei diesem Dienst an (hier).
  2. Wählen Sie im linken Fenster die russische Sprache aus und klicken Sie auf die Schaltfläche mit dem Sprecher unter "Hören".

Die Wiedergabequalität bewegt sich auf einem recht passablen Niveau, mehr aber auch nicht.

Text-to-Speech - Sprachsynthesizer online

Eine weitere Ressource, die eine Sprachsynthese in normaler Qualität durchführt. Die kostenlose Funktionalität ist auf die Eingabe von 1000 Zeichen beschränkt.

  1. Um mit dem Dienst zu arbeiten, gehen Sie zu dieser Seite, wählen Sie im rechten Fenster neben der Option "Sprache" (Sprache) Russisch aus.
  2. Geben Sie im Fenster den erforderlichen Text ein (oder kopieren Sie ihn von einer externen Quelle) und klicken Sie dann auf die Schaltfläche rechts "Sagen Sie es".
  3. Ein Link zur Aussprache des angegebenen Textes kann auch in Ihre E-Mail oder Webseite eingefügt werden, indem Sie unten auf die Schaltfläche „Ja“ klicken.

Alternative PC-Software für Text-to-Speech

Es gibt auch Sprachsyntheseprogramme wie TextSpeechPro AudioBookMaker, ESpeak, Voice Reader 15, VOICE und eine Reihe anderer, die Text in Sprache umwandeln können. Sie müssen heruntergeladen und auf Ihrem Computer installiert werden, und die Funktionalität und Fähigkeiten dieser Produkte übersteigen normalerweise geringfügig die Fähigkeiten der betrachteten Online-Dienste. Ihre ausführliche Beschreibung verdient ein gesondertes umfangreiches Material.

Abschluss

Welchen Sprachsynthesizer online soll man also wählen? In den meisten von ihnen kostenlose Funktionen sind deutlich eingeschränkt, und in puncto Klangqualität wird der Ivona-Dienst seine Konkurrenten hinter sich lassen. Wenn Sie an der Möglichkeit interessiert sind schnelle Überweisung Ihres Textes in eine Audiodatei und verwenden Sie dann die Ressource "fromtexttospeech" - sie gibt das Ergebnis aus gute Qualität und das in relativ kurzer zeit.



Wird geladen...
Spitze