מערכת זיהוי קולי
עולם הזיהוי הקולי צועד במהירות לעבר מערכת זיהוי קולי של "עוזר אישי".
הדילמה העומדת בפני כל מנהל ובעל עסק: מהי המערכת הטובה ביותר לעסק, למנהלים ולעובדים בתחום הזיהוי הקולי ובמה היא תסייע לעסק?
מערכות זיהוי קולי הפכו לחלק בלתי נפרד ממילון המונחים של עולם התקשורת כבר לפני כ-50 שנה. ההצלחה הייתה מאוד מתונה עד אפסית בגלל חולשת מנועי זיהוי הדיבור. האוזן האנושית והמוח האנושי יכולים לפענח דיבור לא רהוט, בסלנג, מה שמנועי זיהוי הדיבור התקשו מאוד לבצע.
התחום הזה לא ממש המריא (למעט כמה פלחי שוק צרים), עד הגעת Siri של אפל לשוק באוקטובר 2011, כחלק מהשקת האייפון 4S. מאז, גם גוגל (במסגרת מערכת ההפעלה אנדרואיד) החלה לספק ממשק קולי, והתחום הזה החל להתפתח די מהר, כשהפריחה הזו הגיעה גם (די באחור) לשוק העסקי. יש הטוענים, שממשק הקול של האנדרואיד (S-Voice) טוב יותר ממשק Siri של אפל. יישומים מוצלחים של האנדרואיד קיימים בשילוב היכולת הזו באפליקציות פופולריות דוגמת Waze ובמשקפי גוגל (Google Glasses).
בכל מקרה, הפתרונות גם של גוגל וגם של אפל לא מתאימים כרגע ליישומים עסקיים וארגוניים המביאים לבעלי העסקים איזה ערך עסקי ברור.
פלחי השוק העסקיים המרכזיים בהם נעשה שימוש במנועי זיהוי דיבור
א. ניתוב קולי. זאת, כתחליף למערכת ניתוב תפריטים – IVR במרכזיות, מערכת של הקשה על ספרות מכשיר הטלפון הנייח או הנייד. המחייג מבקש בקולו את היעד והמרכזיה שולחת אותו ישירות ליעד, בלי כל הקשות על מספרי עץ התפריטים. מערכות "נתב קולי" שולבו ברוב המרכזיות, למשל במרכזיות קורל / תדיראן טלקום בדגמים, שיצאו לשוק כבר מלפני עשור. בנוסף, כבר לפני עשור ומעלה פקודות קוליות בדיבוריות רכב היו מוצר נפוץ (מוטורולה הייתה כנראה הראשונה ליישם זאת בדיבוריות ברכב).
ב. אימות וזיהוי קולי. נעשה בעיקר במערכות פיננסיות, שבהן במקום שהמשתמש יקיש סיסמאות ומספרים וייתן פרטים מוכמנים על עצמו, הזיהוי החד-ערכי של המתקשר נעשה ע"י זיהוי חתימת קולו, מול חתימת קול הנשמרת במערכת, כאשר המשתמש נרשם בפעם הראשונה לשירות האימות הקולי.
ג. פקודות למחשב. ממשקי פקודות בקול למחשב היו כבר במערכות ההפעלה הוותיקות, ממש עם תחילת חייה של מערכת ההפעלה חלונות. זה לא תמיד עבד, אך עם השנים המערכות הללו די התקדמו וסיפקו יכולת לתת פקודות לתפריטים במערכת ההפעלה ובתוכנות נפוצות. כמו כן, נבנו יישומים בהם ניתן היה להכתיב בקול מסמך והמערכת הייתה מפענחת את הנאמר והופכת אותו לטקסט. כך גם נעשה בכיוון הפוך: המערכת הייתה מקריאה טקסט כתוב בקול למשתמש.
ד. שילוב של תפריטי קול ב-Call Center כדי לייעל את רמת השירות ללקוחות הקצה. כניסת מערכות VoIP לעולם ה-Call Centers אפשרה שילוב של מערכות זיהוי קולי בתפריטים ובמתן עזרה למתקשרים. מדובר במערכות סגורות עם תפריטי דיבור מוכנים מראש ולא בשיחה חופשית בקול מול המערכת.
מה התחדש במערכת זיהוי קולי לעסקים?
עולם התקשורת העסקית הניידת נמצא בתזזית. עובדים ומנהלים בהיקפים גדלים והולכים מביאים מהבית טאבלטים וסמארטפונים ומעוניינים להשתמש בהם גם בעבודה לצרכי העבודה וגם להשתמש ביישומים (אפליקציות) המצויים על המכשיר במהלך עבודתם (BYOD).
שוק התקשורת העסקית משנה במהירות את פניו, בשילוב של המעבר לעולם הנייד והמעבר לשירותי ענן.
הכיוון, שמתפתח בשוק, הוא חיבור התקשורת הארגונית למובייל ותמיכה מלאה בטרנד של BYOD. היכולת הזאת קיימת היום במספר מערכות כגון זו של מיקרוסופט לינק וגם במרכזיות אחרות, דוגמת אלקטל-לוסנט ותדיראן טלקום. פתרון מסוג זה מאפשר העברת שלוחת הטלפון המשרדי לאפליקציה בטלפון הנייד של העובד באופן שקוף (אוטומטית) או בפקודה קולית. האפליקציה מאפשרת לעובד לקבל ולבצע שיחות מהאפליקציה כאילו הוא נמצא במשרד.
הפתרון החשוב ביותר קשור להתקדמות טכנולוגית בתחום זיהוי דיבור הוא הטרנד של "עוזר אישי". רוב הטלפונים הארגוניים כוללים מסך קטן יחסית וממשק משתמש, שאינו נוח לכתיבת טקסט, דבר ההופך את תהליך חיפוש מספר טלפון של עובד לחוויה לא נעימה. בנוסף, רבים נדרשים לבצע חיפוש מספר הטלפון של עובד במהלך נהיגה או ביצוע פעולות אחרות מחוץ למשרד. העוזר האישי מאפשר לבצע פעולה זו ע"י דיבור בלבד. ההתקדמות הטכנולוגית של השנים האחרונות הביאה את זיהוי הדיבור לדיוק רב ללא צורך ב"אימון" המערכת לקולו של הדובר.
פתרונות אלו ואחרים מאפשרים שיפור של חוויית התקשורת הארגונית. אולם, קיימים מספר אתגרים בהטמעת פתרונות אלה במערכות קיימות:
- הטמעת הפתרון דורשת שדרוג תוכנה ולעיתים אף חומרה של המרכזייה כולה.
- העלות למשתמש בדרך כלל גבוהה, שכן במקרים רבים ניתן לרכוש את הפתרון מספק המרכזייה בלבד.
- קיים רצון לשלב בין פתרונות של מגוון יצרנים כדי לאפשר לארגון לבחור בפתרון המתאים ביותר. אולם, קיים חשש באשר לאינטגרטיביות של הפתרון עם המרכזייה הקיימת.
כיום, די ברור, שאנו עוברים מעולם של זיהוי דיבור אל עולם של עוזר אישי, שמספק את כל השירותים באופן שקוף למשתמש במכשיר הנייד עם התאמה אישית. העוזר האישי מביא למשתמש את מצב חשבון הבנק שלו, בדיוק כמו שהוא מזמין לו פיצה, או מקריא ושולח עבורו מייל או מסרון. הכול חייב להשתנות ולהיות שקוף עבור העוזר האישי. זו אינטגרציה של מערכות הנעשית מאחורי הקלעים, כדי שהעוזר האישי יוכל לתפקד ולמלא את מה שהמשתמש מבקש ממנו. עולם זיהוי הדיבור הפך להיות חלק מתעשייה שלמה, תעשיית הטיפול בלקוחות עם פרסונליזציה. היום, מדברים על VUI (ר"ת: Voice User Interface).
מוקדי שירות הם דבר מאוד יקר. הזמן, שמבלה לקוח במערכת התמיכה, הוא מאוד יקר לארגון. ההבנה העסקית דוחפת את עולם ניתוח הקול וזיהוי הקול קדימה כדי לחסוך בעלויות ולשפר את חוויית השירות. זה גם מאפשר להוציא תובנות ממה שהלקוח מדבר. כל אלה הם אתגרים עבור המפתחים, כדי לפתור את בעיית הקשר הנכון עם הלקוח בראייה הוליסטית. שיחת הדיבור היא חלק מסדרת ממשקים מגוונים, שהשיחה עצמה היא רק אחת מהם.
לכן, נכנס כאן עולם 'הסייען האישי'. סירי של אפל הייתה מייצג בולט של ההתפתחות הזו. לסירי יש הצלחה ויש לה כבר כמה מתחרות קשות:
א. Nina של ניואנס.
ב. Cortana של מיקרוסופט (פועלת כבר כחלק מחלונות 8.1 לנייח לסמארטפונים).
ג. Google Now של גוגל.
ד. Evi של אמזון.
ה. Cluzee עוזר אישי מאוד חכם פרי פיתוח של חברת Tronton.
ה. ויש עוד, כמו: MyDA, Sigi, Assistant ועוד.
דהיינו: לוקחים כלי של "שירות לקוחות" ומוסיפים לו תמונה של גבר או אישה וזה הופך ל'עוזרת אישית'. אפשר למתג את זה עם שם החברה. יש דוגמאות יפות בתחום זה. למשל, חברת נספרסו מיתגה עוזרת אישית מאוד מצליחה. העוזר האישי אמור להבין את הצרכים של כל משתמש ולבצע עבורו מטלות, שהוא מעוניין לעשות. למשל: להזמין לו כרטיס טיסה, להזמין לו מקום במסעדה, לשלם לו חשבונות, לקנות לו מוצרים בסופרמרקט, כל צורך שהוא. העוזר האישי יכיר את האדם בעל המכשיר המפעיל אותו. המערכת תלמד את בעל המכשיר ותוכל אף לתת לו התראות והוראות, למשל: מתי ללכת לרופא, מתי לקחת תרופה, מתי לצאת לפגישה, מתי לשלוח דו"ח למנהל וכך הלאה.
רוב המערכות הללו עובדות בענן. יש כאן הרבה אפשרויות ליישום. Nina עובדת למשל בענן. יש מערכות העובדות גם בסמארטפון עצמו וגם בענן במקביל. זה הכיוון בו מתפתחות רוב המערכות (שילוב במכשיר ובענן במקביל). כך, שגם אם יש ניתוק או הפרעות ברשת האינטרנט הנייד, עדיין המערכת תמשיך ותתפקד על מכשיר הסלולר עצמו.
העוזר האישי זו מערכת, שאמורה להיות מתואמת עם מערכות משלימות רבות. המערכת צריכה לשמור על הסיסמה של המשתמש, היא יכולה להיות השלמה לטביעת אצבע, או כל דרך של זיהוי אחר, משום שהעוזר האישי עושה פעולות בשמו של מתקין התוכנה על המכשיר שלו, והשמירה על הפרטיות וחסיון המידע מאוד חשובה. זאת, בעיקר אם המשתמש בעוזר האישי הוא בעל תפקיד חשוב בעסק, שמפעיל ומשתמש במידע עסקי רגיש.
כיום, משתמש נכנס לכל מאגר מידע אישי שלו כמו חשבון בנק, כרטיס אשראי, מאגרי מידע עסקי, מאגרי מידע פרטי, פורטל כלשהו, עם מערכות אימות וסיסמאות שונות לכל מערכת, עם תהליכי הזדהות שונים לכל מערכת. זה לא יכול לעבוד בצורה כזו בעולם של העוזר האישי. הכל חייב להשתנות מול המגמה הזו. העולם הולך לכיוון הזה בצורה ברורה ומהירה. זה הצורך של המשתמשים וזה מה שהם יקבלו בשנים הקרובות.
מנקודת המבט של ארגונים, יהיו 2 עננים לעוזר האישי. יהיה הענן הפרטי הפרסונלי, ובצדו יהיה ענן של הארגון, שיספק שירותים עסקיים ושירות לקוחות למשתמש הקצה, עם אותו כלי בדיוק. יהיה קשר ישיר בין העוזר האישי לעוזר העסקי. יהיו כאן ממשקים, שיתחברו ביחד למערכת אחת בידיו של המשתמש. עם הזמן, ייעלם הצורך במוקד שירות לקוחות. הכל יעבור דרך העוזר האישי. גם מאגרי המידע צריכים להשתנות. אם לעוזר האישי אין גישה ישירה למאגרי המידע, אז זמני התגובה יהיו איטיים והעוזר יפסיק לעזור באותה נקודה. לכן, העוזר חייב להיות מקושר באופן שקוף למאגרי המידע של כל נותני השירות. זו אינטגרציה לא פשוטה. צריך לעבוד קשה כדי לממש זאת כדי שזה יעבוד חלק. ברור, שאנו רק בתחילת הדרך בתחום זה.
שרות ניתוב שיחות ארגוני קולי – VocaNOM
מערכת VocaNOM (מבית אודיוקודס) היא חלק ממערכת One Voice ומאפשרת ביצוע ניתוב קולי תוך אירגוני לעובדי הארגון בדרכים או במשרד ולמתקשרים מזדמנים המתקשרים אל הארגון. אספקת השירות מאפשרת הטמעה מהירה ביותר של השירות וכן יכולת התאמת התשלום החודשי למספר המשתמשים. המערכת מבוססת על טכנולוגיות זיהוי קולי מבית NSC (שנרכשה ע"י אודיוקודס) ומוצעת גם כשירות ענן בגישת ה-SaaS. דהיינו: בשירות ענן לעסק יש רק OPEX ללא CAPEX. המערכת תומכת בכל מספר של עובדים ושלוחות, עד 25,000 עובדים.
השירות מבוסס על מערכת קיימת המותקנת בהצלחה בארגונים מובילים במשק ממגזרים שונים לרבות האקדמיה, ההייטק, תעשייה וארגונים מוניציפליים. מערכת VocaNOM מאפשרת לעובדי ארגונים ולמתקשרים חיצוניים לבצע התקשרות קולית אינטואיטיבית וניתוב קולי אוטומטי ישירות אל האדם המבוקש בארגון, באמצעות אמירת שמו, מכל מקום ומכל מכשיר נייח או נייד. המערכת מבטלת את הצורך בחיפוש מספרי טלפון, חיוג מספרי שלוחות או מעבר מיגע דרך מרכזנית.
המערכת מייעלת את התקשורת הטלפונית בתוך הארגון ומחוצה לו, ומאפשרת לקצץ משמעותית את עלויות השיחות הפנים-ארגוניות הבינלאומיות מהניידים, להפחית את עלויות המרכזניות, לספק חוויית שיחה בטוחה יותר בעת הנהיגה ולשפר את יעילות העובדים. המערכת תומכת במגוון שפות. כך, שאם השיחה הנכנסת מגיעה מארה"ב לדוגמא, הדיאלוג יתקיים באנגלית. כמו כן, המערכת מספקת יכולת IVR המשלבת עבודה בדיבור ו/או ב- DTMF ומייתרת במקרים רבים צורך ב-IVR נוסף לצרכי הארגון. כמו כן הפתרון כולל גם מגשר (Gateway) של חברת אודיוקודס ובכך מאפשר שילוב מהיר מול כל המרכזיות הקיימות בשוק.
כך, חברת אודיוקודס מספקת פתרונות המאפשרים לחבר בין ציוד התקשורת של הספקיות המובילות הקיים כבר בעסק. כחלק מסל הפתרונות היא מציעה סט של אפליקציות עצמאיות, שאינן תלויות בספק מרכזיות ספציפי, אך יודעות להתממשק לכל המרכזיות המובילות. הן נועדו להביא את יכולות התקשורת הארגונית לטלפון הנייד של העובד ולכל טלפון מחוץ לארגון ולהקפיץ את הארגון מהעולם האנלוגי הישן היישר למאה ה-21.
פתרון מתחרה למערכת הזו קיים מבית Gama Operations מפתח-תקווה. המחיר של המערכת של Gama הוא 41,000 ₪, מחיר רכישה כולל אחריות וביטוח לשנה. אחרי שנה משלמים מחיר סמלי יחסית על ביטוח ואחריות לכל שנה נוספת. מול זה, מחיר המערכת של אודיוקודס, תלוי בהיקף הפורטים וכל הציוד הנלווה מסביב הנרכש מאודיוקודס, נע בין עשרות אלפי ₪ למאה אלף ₪. הכרטיס הבסיסי ביותר של אודיוקודס לעסק קטן כולל 2 מעבדים ותומך ב-2-8 ערוצי דיבור במקביל ואינו מחייב רכישת חומרה או תוכנה חדשות וביצוע שדרוגים למערכות המחשוב הקיימות בארגון. כל שנדרש הוא חריץ PCI פנוי ומרכזיית טלפונים. בין השימושים האפשריים לכרטיס, שמחירו כ-1,900 דולרים, נמנים: ניהול ספרי טלפונים קוליים ארגוניים, מערכות דואר ומענה קוליים (VoiceMail), מוקדי שירות ועוד.
מערכת זיהוי קולי – טיפ
למי שמהסס להיכנס לעולם זיהוי קולי בשירותי ענן, מומלץ להתחיל "בקטן". דהיינו: לבחור מרכזיה של סניף יחסית קטן ולהעביר את השירות של הזיהוי הקולי בה לענן, או לבחור יישום אחד (נניח ניתוב שיחות חכם), שיועבר לקבלת השירות עם זיהוי קולי בענן, כולל במכשירי הסלולר. בחירה בפתרון הנכון דורשת ייעוץ מהמומחים לנושא.
צריך להתחיל בקטן, להתנסות וללמוד איך זה עובד, להפיק לקחים ולהשתפר, עם מבט רחב ומפוקח על המעבר המלא לענן, לאורך ציר זמן של שנה עד שנתיים. זה הכיוון. הטיפ החשוב ביותר כאן הוא: חובה להתנסות בשירותים של ספק שירותי תקשורת מכל הסוגים ובענן, גם אם זה נעשה בקנה מידה מצומצם. ההתנסות בקנה מידה קטן בענן תוכל להוסיף מידע לתהליך קבלת ההחלטות של הארגון.
לקבלת הצעת מחיר עבור מערכת זיהוי קולי
מערכת זיהוי קולי
AudioCodes' One Voice for Lync