מי אמר את זה?

קטגוריות: ,

אחד הדברים שבינה מלאכותית עושה היטב הוא לפגוע ביכולת שלנו להבחין בין מה שהוא אמיתי וטבעי לבין מה שהוא דיגיטלי ומלאכותי. היא עושה את זה מצוין בכל הנוגע לטקסט (האם אדם כתב את זה או ChatGPT?) היא עושה את זה לא רע בכל מה שקשור בתמונה, היא עושה את זה באופן בינוני מינוס (בינתיים) בכל מה שקשור בווידאו, והיא הולכת ומשתפרת בצעדי ענק בכל מה שקשור באודיו.

אתמול נתקלתי במודל שמשתמש בשם Mrfakename העלה ל-Hugging Face ושאפשר לשחק איתו. השם הקליט של המודל הוא E2-F5-TTS. המודל הזה מאפשר לכם להעלות קובץ אודיו שבו נשמע מישהו מדבר שאורכו עד 15 שניות (אם תעלו קובץ שגדול מ-15 שניות הוא פשוט יחתוך אותו ולא יתייחס לשנייה ה-16). לאחר מכן, אפשר לכתוב בתיבת הטקסט משפט כלשהו ואחרי ניתוח ועיבוד יחסית קצר, המערכת תשמיע לכם את המשפט בקול של האדם שמופיע בקובץ האודיו שבו השתמשתם.

התוצאה… התוצאה הולכת ומשתפרת.

הנה למשל דונלד טראמפ.

הנה אל פ'צינו.

והנה סקרלט ג'והנסן (Her).

יש פה כמה עניינים.

קודם כל, המערכת מתוכננת להסיר "שקט". אני מניח שזה נועד כדי לחסוך משאבים ואולי גם ברקע מתרחשים כל מיני דברים שמובילים ליצירה של יותר מדי שקט (מה שמחייב למחוק אותו), אבל התוצאה היא שהקולות שנוצרים "מדברים" יותר מדי מהר. הדרך לטפל בזה היא בעריכה, אם רוצים, אם כי התוצאה לא חלקה.

שנית, איכות הסאונד שנוצרת לא נקייה לגמרי. אני מניח שזה גם קשור לקובץ שבו משתמשים כדי לאמן את המערכת וגם בגלל שרוצים לחסוך במשאבים. המערכת מייצרת קובץ WAV עם Sample Rate של 24,000 הרץ, שזה נמוך מ-44,000 הרץ המקובלים.

שלישית, לעובדה שאפשר להשתמש בקובץ אימון של 15 שניות יש יתרונות גדולים אבל, כמובן, היא מגבילה את היכולת של המודל להבין ניואנסים.

לבסוף, מעבר לעובדה שבינתיים המודל מוגבל לשפה האנגלית והסינית, יש גבול לכמה פעמים אפשר להשתמש בממשק Hugging Face של המודל לפני שהוא מגביל אתכם. אפשר להתגבר על הבעיה באמצעות הרצת המודל באופן מקומי, על המחשב שלכם. אני עשיתי את זה באמצעות התקנת Pinokio שעליו התקנתי את המודל באמצעות עמוד ה-Discover. זה דבר די מגניב אבל זה לוקח זמן וזה מעיק על המחשב לא מעט.

בכל אופן, כפי שנהוג לומר בעולם הבינה המלאכותית, מה ששומעים פה זו התוצאה הכי רעה שנקבל. מכאן והלאה, הדברים רק ילכו וישתפרו.

ישתפרו, מה.

תגובות

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

דילוג לתוכן