Anonim
צ'אט קולי

(Mr_Mrs_Marcha / shutterstock)

SEATTLE - האם אתה חושב ליצור יישום מונע בוט לדיבור לעסק שלך? כמה מההנחיות בנושא יצירת בוט - כפי שתוארו ב- Microsoft Build על ידי היזם השבדי, הפודקאסטרים ופיתוח הפלטפורמה של חלונות MVP ג'סיקה אנגסטרום - הם השכל הישר. לדוגמה, אל תבנה בוט קולי רק בגלל שזו טכנולוגיה חדשה ומגניבה, וודא שהוא מתאים למודל העסקי שלך.

אבל יש המון תרחישים שבהם הקול אכן מתאים. טענה אחת היא שהאדם הממוצע מקליד 40 מילים בדקה אך מדבר 150. כ -3, 000 בוטים חדשים משוחררים בשבוע בפלטפורמת מיקרוסופט בלבד, ו -95 אחוז מבעלי הסמארטפונים ניסו עוזר אישי.

עם זאת, לא הכל שיט חלק. אנגסטרום ציין את הניסוי הקולי-פלוס-AI האיום הרסני של מיקרוסופט, טיי, אותו נאלצה החברה למשוך פחות מיום לאחר שהאינטרנט לימד אותו להיות גזעני. והיא הצביעה על בורגר קינג, שהפעילה פרסומת שנועדה להפעיל את Google Home, אך במקום זאת קראה עמוד בוויקיפדיה בו נאמר שה- Whopper מכיל ציאניד.

הבדלים בנוסח טכניקת דיבור תכלת

כאשר מעצבים עוזר קולי, עליכם להגביל את היקף התשובות האפשריות, אמר אנגסטרום. אל תבקש ממנו לשאול שאלות פתוחות. הכשר את העוזר הקולי להתמודד עם דרכים רבות לנסח שאלה או פקודה. אפילו כתוב תסריט מלא לשיחה הגיוני לבוט שלך. לבסוף, צרו עזרה שמע, וספקו דוגמאות לסוג הדברים שהמשתמש יכול לומר.

חדש לטכנולוגיית דיבור Azure

אחת ההכרזות הגדולות ב- Build Keynote הייתה היכולת לתמלל נאום רב-מפלגתי בפגישות תוך כדי מעקב אחר הדובר שאמר מה. בפגישה נפרדת, ארת'י לונגינו, מנהל התוכנית הראשי לדיבור ושפה במיקרוסופט, הראה את זה עובד בממשק פיתוח מותאם אישית.

סקירה כללית על דיבור ב- Azure Speech Tech

ב- Build בשנה שעברה, הלהיט הגדול ביותר היה מפגש "חרוט" שהכיר את המשתתפים ותמלל את מה שאמרו כל אחד מהם. עכשיו החרוט הזה, שמגלם גם מצלמה של 360 מעלות, נבדק על ידי לקוחות מיקרוסופט בתצוגה מקדימה פרטית. אבל ישנם מכשירים אחרים שכל אחד יכול להגיע לבדיקת התמלול, כולל ערכת ה- Devob Smart Audio Roobo, שהודגה בצורה מרשימה במהלך ההפעלה.

תוכל למצוא התקני דיבור אלה לשירותים קוגניטיביים בכתובת aka.ms/sdsdk-get.

קשורים

  • כיצד להשתמש בזיהוי דיבור ולהכתיב טקסט ב- Windows 10 כיצד להשתמש בזיהוי דיבור ולהכתיב טקסט ב- Windows 10
  • Microsoft Edge on Chromium: מה המשמעות של זה? Microsoft Edge on Chromium: מה המשמעות של זה?
  • גוגל מציגה עוזר קולי 'הדור הבא' סופר מהיר - גוגל מציגה עוזר קולי 'הדור הבא' סופר מהיר.

בצד השני של הדיבור, ולפחות מרשים, הוא טקסט לדיבור (TTS). Qinying Liao של מיקרוסופט, מנהל התוכנית הראשי בשירותי דיבור, הראה התקדמות בדברים כמו קולות עצביים חדשים ונשמעים להפליא, שהיו כה חלקים עד שהנוכחים בחדר הצביעו בעדה על פני קורא אנושי אמיתי.

נכון לעכשיו, קולות עצביים זמינים רק עבור תשעה ניבים אנגליים אזוריים, אך יפנית, ספרדית ופורטוגזית נמצאים ביצירות.

יכולת חדשה נוספת היא להוסיף רגש ל- TTS: מילת מפתח פשוטה בקוד יכולה לגרום לקול שנוצר להישמע עליז או אמפטי. זה עובד גם הפוך. למעשה, טכנולוגיות התמלול של מיקרוסופט למוקדי טלפונים יכולים לזהות מתי אינטראקציה מתחילה להיות שלילית. שירותי הדיבור יאפשרו לעסקים להתאים אישית זיהוי ו- TTS תוך שימוש במינוח משלהם בפורטל דיבור מותאם אישית חדש. תוכלו לקרוא על כל שירותי הדיבור של Azure בעמוד עזרה זה.