Κύριος Νεωτερίζω Το νέο κείμενο κειμένου σε ομιλία της Google είναι τόσο καλό που στοιχηματίζουμε ότι δεν μπορείτε να το πείτε από έναν πραγματικό άνθρωπο

Το νέο κείμενο κειμένου σε ομιλία της Google είναι τόσο καλό που στοιχηματίζουμε ότι δεν μπορείτε να το πείτε από έναν πραγματικό άνθρωπο

Το Ωροσκόπιο Σας Για Αύριο

Μπορείτε να πείτε τη διαφορά μεταξύ της ομιλίας υπολογιστή που δημιουργείται από AI και ενός πραγματικού, ζωντανού ανθρώπου; Ίσως πάντα πίστευες ότι θα μπορούσες. Ίσως σας αρέσουν οι Alexa και Siri αλλά πιστεύετε ότι δεν θα συγχέατε ποτέ κανένα από αυτά με μια πραγματική γυναίκα.

Τα πράγματα πρόκειται να γίνουν πολύ πιο ενδιαφέροντα. Οι μηχανικοί της Google δούλεψαν σκληρά στη δημιουργία ενός συστήματος κειμένου σε ομιλία που ονομάζεται Tacotron 2 . Σύμφωνα με ένα χαρτί δημοσίευσαν αυτό το μήνα, το σύστημα δημιουργεί πρώτα ένα φασματογράφημα του κειμένου, μια οπτική αναπαράσταση του πώς πρέπει να ακούγεται η ομιλία. Αυτή η εικόνα τοποθετείται μέσω του υπάρχοντος αλγορίθμου WaveNet της Google, ο οποίος χρησιμοποιεί την εικόνα για να παράγει εξαιρετικά φυσικό ήχο ανθρώπινης ομιλίας.

καιρικό κανάλι Stephanie Abrams μισθός

Χρησιμοποιώντας αυτή τη μέθοδο, οι ερευνητές αναφέρουν, «Το μοντέλο μας επιτυγχάνει μέση βαθμολογία γνώμης (MOS) 4,53 συγκρίσιμη με MOS 4,58 για επαγγελματικά καταγεγραμμένη ομιλία». (Η μέση βαθμολογία γνώμης είναι ένας όρος τηλεπικοινωνιών που μετρά πόσο πραγματικά ακούγεται κάτι στη ζωή.)

Όπως καταδεικνύουν τα ηχητικά δείγματα της Google, το Tacotron 2 μπορεί να εντοπίσει από το περιβάλλον τη διαφορά μεταξύ του ουσιαστικού «έρημος» και του ρήματος «έρημος», καθώς και του ουσιαστικού «παρόν» και του ρήματος «παρόν» και να αλλάξει ανάλογα την προφορά του. Μπορεί να δώσει έμφαση στις λέξεις με κεφαλαία γράμματα και να εφαρμόσει την κατάλληλη κλίση όταν υποβάλλει μια ερώτηση παρά να κάνει μια δήλωση.

Και μπορεί να δημιουργήσει κείμενο που ακούγεται τόσο παρόμοιο με την ανθρώπινη ομιλία που είναι δύσκολο ή αδύνατο να γνωρίζουμε τη διαφορά. Αν θέλετε να δείτε πόσο δύσκολο είναι, μεταβείτε στο Google σελίδα δειγμάτων ήχου και μετακινηθείτε προς τα κάτω στο τελευταίο σύνολο δειγμάτων, με τίτλο 'Tacotron 2 or Human?' Εκεί θα βρείτε το Tacotron 2 και ένα αληθινό άτομο που λέει κάθε φράσεις όπως, «Αυτό το κορίτσι έκανε ένα βίντεο για το κραγιόν του Star Wars».

ΠΡΟΕΙΔΟΠΟΙΗΣΗ SPOILER: Για να δοκιμάσετε τον εαυτό σας, ακούστε τα δείγματα και μαντέψτε ποια είναι πριν να διαβάσετε την υπόλοιπη στήλη.

Λοιπόν, ποια δείγματα είναι κείμενο-σε-ομιλία και ποια είναι μια πραγματική ανθρώπινη φωνή; Οι μηχανικοί της Google δεν λένε, αλλά άφησαν μια πολύ μεγάλη ένδειξη. Κάθε ένα από τα δείγματα αρχείου .wav έχει ένα όνομα αρχείου που περιέχει είτε τον όρο «gen» είτε το «gt». Με βάση το άρθρο, είναι πολύ πιθανό ότι το «gen» υποδηλώνει ομιλία που δημιουργείται από το Tacotron 2 και το «gt» είναι πραγματική ανθρώπινη ομιλία. (Το «GT» σημαίνει πιθανώς «αλήθεια εδάφους», έναν όρο μηχανικής εκμάθησης που ουσιαστικά σημαίνει «την πραγματική συμφωνία».)

Υποθέτοντας ότι αυτό είναι σωστό, ακολουθούν οι απαντήσεις στο τεστ:

με τον οποίο είναι παντρεμένος ο Κρις Ισαάκ

'Αυτό το κορίτσι έκανε ένα βίντεο για το κραγιόν του Star Wars.'

Δείγμα 1: Πραγματικός άνθρωπος

Δείγμα 2: Tacotron 2

«Κέρδισε διδακτορικό στην κοινωνιολογία από το Πανεπιστήμιο της Κολούμπια».

Δείγμα 1: Tacotron 2

Δείγμα 2: Πραγματικός άνθρωπος

«Ο Τζορτζ Ουάσινγκτον ήταν ο πρώτος Πρόεδρος των Ηνωμένων Πολιτειών».

Δείγμα 1: Tacotron 2

Δείγμα 2: Πραγματικός άνθρωπος

Ελίζαμπεθ Μπέρκλεϋ καθαρή αξία 2016

«Είμαι πολύ απασχολημένος για ρομαντισμό».

Δείγμα 1: Πραγματικός άνθρωπος

Δείγμα 2: Tacotron 2

Πόσα πήρες σωστά; Και θα μπορούσατε πραγματικά να πείτε τη διαφορά ή απλά έπρεπε να μαντέψετε;