Η εκτόξευση του νέο εργαλείο TTS, VALL-E, έχει κάνει το κοινό να σκεφτεί τι είναι το VALL-E. Ίσως αναρωτιέστε για τις λειτουργίες του Microsoft VALL-E και την αρχιτεκτονική του πλαισίου VALL-E.
Το VALL-E της Microsoft κυκλοφόρησε πρόσφατα μετά από άλλα εργαλεία τεχνητής νοημοσύνης όπως το DALL-E, το Point-E και το Google Imagen. Το Microsoft VALL-E είναι το εργαλείο μετατροπής κειμένου σε ομιλία επόμενης γενιάς. Το VALL-E έχει πολλά χαρακτηριστικά, κυρίως τη διαφορετικότητα και τη διατήρηση του τόνου του ηχείου. Τι γίνεται όμως με τη λειτουργία του Microsoft VALL-E;
Όταν πρόκειται για τη λειτουργία του Microsoft VALL-E, η βασική αρχή του VALL-E είναι η μοντελοποίηση γλώσσας νευρωνικού κωδικοποιητή. Η αρχιτεκτονική του VALL-E δείχνει ότι τα αποτελέσματα Phoneme Conversation και Audio Codec Encoder αποστέλλονται στο μοντέλο γλώσσας, το οποίο δημιουργεί τον διακριτό κώδικα. Επιτέλους, ο αποκωδικοποιητής Audio Codec χρησιμοποιείται για τη μετατροπή του σήματος στην κυματομορφή.
Είστε έκπληκτοι από το νέο εργαλείο μετατροπής κειμένου σε ομιλία, VALL-E, που κυκλοφόρησε από τη Microsoft; Ίσως να είστε πρόθυμοι να μάθετε για τη λειτουργία του Microsoft VALL-E. Αυτό το άρθρο θα σας παρέχει την αρχιτεκτονική του πλαισίου VALL-E και τη λειτουργία του Microsoft VALL-E. Συνέχισε να διαβάζεις!
Τι είναι το VALL-E;
Τι είναι το VALL-E; Το VALL-E είναι το προηγμένο μοντέλο για τη σύνθεση κειμένου σε ομιλία που σχεδιάστηκε από τη Microsoft. Δεν είναι δημοσίως διαθέσιμο για χρήση καθώς βρίσκεται υπό ανάπτυξη, αλλά η έρευνα που έχει γίνει μέχρι τώρα είναι έξω.
Εάν είστε ερευνητής και θέλετε να μάθετε περισσότερες λεπτομέρειες για το VALL-E, το εργαλείο μετατροπής κειμένου σε ομιλία επόμενης γενιάς, πρέπει να διαβάσετε το ερευνητική εργασία για το VALL-Eτο οποίο περιέχει όλες τις πληροφορίες του νέου αναδυόμενου πλαισίου TTS.
Το VALL-E είναι μια τεχνική γλωσσικού μοντέλου που χρησιμοποιείται για τη σύνθεση TTS. Αυτό το μοντέλο Microsoft VALL-E χρησιμοποιεί την εγγραφή ήχου ως αναφορά για τον τόνο φωνής. Με μια σύντομη εγγραφή μόλις 3 δευτερολέπτων και μια προτροπή κειμένου, δημιουργείται μια συνθετική ομιλία, διατηρώντας τη συναισθηματική φωνή του ομιλητή.
Θα μπορείτε να δημιουργήσετε τις εξόδους ομιλίας σε διαφορετικούς τόνους με το ίδιο κείμενο εισόδου αλλά διαφορετικές ηχογραφήσεις εισόδου. Αυτό είναι δυνατό λόγω του τόνου που χρησιμοποιείται στην εγγραφή, καθώς ο τόνος εξόδου εξαρτάται από αυτήν την εγγραφή 3 δευτερολέπτων.
Μέχρι τώρα, μπορεί να χρησιμοποιείτε το Google text-to-speech, αλλά με την κυκλοφορία του VALL-E, θα το προτιμήσετε. Μπορείτε επίσης να βρείτε τις κύριες διαφορές μεταξύ του Google text-to-speech και του VALL-E, γεγονός που καθιστά το Microsoft VALL E εφαρμόσιμο σε περισσότερες περιοχές.
Τα αποτελέσματα από το VALL-E είναι πιο ακριβή από οποιαδήποτε άλλη τεχνική μετατροπής κειμένου σε ομιλία, καθώς έχει εκπαιδευτεί σε δεδομένα TTS άνω των 60 χιλιάδων ωρών που είναι πολύ μεγαλύτερα από τα τρέχοντα μοντέλα. Πολλές περιπτώσεις χρήσης VALL-E βγήκαν αφού γνώρισαν τα χαρακτηριστικά, την αρχιτεκτονική και τη λειτουργία του.
Ας περάσουμε τώρα στην επόμενη ενότητα σχετικά με τη λειτουργία του Microsoft VALL-E. Θα καλύπτει την αρχιτεκτονική του πλαισίου VALL-E και τη λειτουργία του VALL-E.
Microsoft VALL-E Workings
Στη λειτουργία του Microsoft VALL-E, τα βήματα για τη σύνθεση σήματος περιλαμβάνουν: Προτροπή κειμένου που τροφοδοτείται στη συνομιλία τηλεφώνου > Ακουστική προτροπή που τροφοδοτείται στον κωδικοποιητή ήχου κωδικοποιητή > Σήματα από συνομιλία φωνής και κωδικοποιητής κωδικοποιητή ήχου στη μοντελοποίηση γλώσσας νευρωνικού κωδικοποιητή > Διακριτό σήμα εξόδου στον αποκωδικοποιητή κωδικοποιητή ήχου > Σήμα εξόδου.
Ποια είναι η λειτουργία του Microsoft VALL-E; Πριν μάθετε τη λειτουργία του Microsoft VALL-E, πρέπει να γνωρίζετε ότι το Microsoft VALL-E εργάζεται στη μοντελοποίηση γλώσσας νευρωνικού κωδικοποιητή για σύνθεση κειμένου σε ομιλία (TTS).
Εν ολίγοις, χρησιμοποιώντας το VALL-E, μπορείτε να δημιουργήσετε το αρχείο φωνής αλλάζοντας τη διατύπωση σύμφωνα με το κείμενο εισαγωγής, διατηρώντας τον τόνο του ηχείου. Αυτό είναι ένα από τα καλύτερα χαρακτηριστικά του Microsoft VALL-E.
Το Microsoft VALL-E παράγει τους διακριτούς κώδικες ήχου συνδυάζοντας το σήμα φωνήματος και την προτροπή κειμένου χρησιμοποιώντας την τεχνική μοντελοποίησης γλώσσας Neural Codec. Το σήμα εξόδου παράγεται με βάση την προτροπή κειμένου και τον τόνο του ηχείου.
Τα στοιχεία που χρησιμοποιούνται στο πλαίσιο Microsoft VALL-E είναι:
- Προτροπή κειμένου
- Τηλεφωνική συνομιλία
- Ακουστική προτροπή (ηχογράφηση φωνής 3 δευτερολέπτων)
- Κωδικοποιητής ήχου
- Μοντελοποίηση γλώσσας νευρωνικού κωδικοποιητή
- Αποκωδικοποιητής Audio Codec
Τώρα, για να κατανοήσετε τη λεπτομερή λειτουργία του Microsoft VALL-E, πρέπει να ανατρέξετε στην αρχιτεκτονική του πλαισίου VALL-E που εμφανίζεται στην αρχή του άρθρου. Στο σχήμα, μπορείτε να διαπιστώσετε ότι η προτροπή φωνής και τα ακουστικά διακριτικά της εγγεγραμμένης φωνητικής εγγραφής 3 δευτερολέπτων, η οποία περιορίζει τον ομιλητή και τις πληροφορίες περιεχομένου, αντίστοιχα, χρησιμοποιούνται από το VALL-E για τη δημιουργία των σχετικών ακουστικών διακριτικών για εξατομικευμένη σύνθεση ομιλίας (π.χ. TTS μηδενικής βολής).
Η έξοδος από το μοντέλο νευρωνικού κωδικοποιητή ήχου είναι με τη μορφή διακριτών ακουστικών διακριτικών. Το σύστημα μετατροπής κειμένου σε ομιλία θεωρείται επομένως ως μοντελοποίηση γλώσσας κωδικοποιητή υπό όρους λόγω αυτών των διακριτών διακριτικών ήχου. Η τελική κυματομορφή δημιουργείται χρησιμοποιώντας τα ακουστικά διακριτικά που δημιουργούνται και τον κατάλληλο αποκωδικοποιητή ήχου κωδικοποιητή.
Οι δραστηριότητες TTS μπορούν να επωφεληθούν από τις τεχνικές μεγάλων μοντέλων που βασίζονται σε προηγμένες προτροπές (όπως χρησιμοποιούνται στα GPT). Τα ακουστικά token παρέχουν επίσης διακριτές συνθετικές εξόδους στο TTS χρησιμοποιώντας διάφορες τεχνικές δειγματοληψίας κατά τη διάρκεια της εξαγωγής συμπερασμάτων.
Εάν θέλετε να κατανοήσετε τη λειτουργία του Microsoft VALL-E με απλά λόγια, πρέπει να ελέγξετε την επόμενη ενότητα. Συνέχισε να διαβάζεις!
Microsoft VALL-E Workings Επεξήγηση
Με άλλα λόγια, η διαδικασία σύνθεσης ομιλίας των λειτουργιών του Microsoft VALL-E ξεκινά όταν εισάγετε μια εγγραφή φωνής 3 δευτερολέπτων στον κωδικοποιητή ήχου και μια προτροπή κειμένου στη συνομιλία φωνής. Το κείμενο πρέπει να είναι η διατύπωση που θέλετε στην ομιλία εξόδου, ενώ η εγγραφή φωνής είναι για τον τόνο του ομιλητή.
Τώρα, οι έξοδοι από αυτόν τον κωδικοποιητή και το φώνημα είναι η είσοδος του μοντέλου γλώσσας κωδικοποιητή, το οποίο τελικά συνδυάζει τόσο τα σήματα φωνής όσο και τα σήματα κειμένου. Το μοντέλο παράγει το σήμα ομιλίας σε μια διακριτή μορφή. Έτσι, τελικά, για να ληφθεί ένα ηχητικό σήμα, ο αποκωδικοποιητής χρησιμοποιείται για τη μετατροπή του διακριτού σήματος σε κυματομορφή.
Το τελικό σήμα εξόδου που θα παραχθεί θα είναι το συνθετικό σήμα ομιλίας στο οποίο οι διατυπώσεις θα είναι ίδιες με αυτές που εισαγάγατε στο μήνυμα κειμένου, αλλά ο τόνος της φωνής του ομιλητή θα είναι ίδιος με την εγγραφή 3 δευτερολέπτων.
Δεν είναι καταπληκτικό; Γιατί να περιμένετε αν σας αρέσει περισσότερο η χρήση εργαλείων TTS, μεταβείτε και κατεβάστε το Microsoft VALL-E για να απολαύσετε τις διαθέσιμες επιδείξεις/δείγματά του.
Τυλίγοντας
Το Microsoft VALL-E είναι ένα νέο μοντέλο γλώσσας για τη σύνθεση ομιλίας, ένα σύστημα μετατροπής κειμένου σε ομιλία. Το VALL-E θα βοηθήσει τους ανθρώπους που έχουν χάσει τη φωνή τους και θα είναι πιο χρήσιμο σε περισσότερους τομείς στο μέλλον. Αν ψάχνετε για τη λειτουργία του Microsoft VALL-E, τότε αυτό το άρθρο θα σας βοηθήσει να κατανοήσετε την αρχή λειτουργίας του VALL-E.
Η αρχιτεκτονική του πλαισίου VALL-E εξηγεί το πλήρες διάγραμμα ροής του μοντέλου. Οι λειτουργίες του Microsoft VALL-E που εξηγούνται καλύπτουν τη λειτουργία κάθε στοιχείου που χρησιμοποιείται στο μοντέλο. Ακολουθήστε το Deasilex για να μάθετε περισσότερα για αυτήν τη νέα εξελισσόμενη τεχνολογία μετατροπής κειμένου σε ομιλία και τεχνητής νοημοσύνης!
Συχνές Ερωτήσεις
Ε. Τι είναι ο αγωγός λειτουργίας του VALL-E;
Ο αγωγός λειτουργίας του VALL-E είναι Phoneme Conversation – Discrete Code – Waveform.
Ε. Το VALL-E διατηρεί ποια συναισθήματα του ομιλητή;
Το Microsoft VALL-E διατηρεί τα πέντε συναισθήματα των ομιλητών, τα οποία είναι τα εξής:
Θυμός
Νυσταγμένος
Αηδιάζων
Διασκέδασε
Ουδέτερος
Ε. Ποιες είναι οι εφαρμογές Microsoft VALL-E;
Στο μέλλον, το Microsoft VALL-E μπορεί να εφαρμοστεί σε μια ποικιλία εργασιών σύνθεσης ομιλίας, όπως μηδενική λήψη TTS, επεξεργασία ομιλίας και δημιουργία περιεχομένου, όταν συνδυάζεται με άλλα μοντέλα τεχνητής νοημοσύνης όπως το GPT-3. Ωστόσο, η πιθανότητα λήψης ψευδών κλήσεων αυξάνεται όταν χρησιμοποιείται το Microsoft VALL-E.