Anonim
DeepMind פיתחה גרסה חזקה עוד יותר של AlphaGo.

AlphaGo, תוכנית המחשבים הראשונה שגברה על אלופת העולם במשחק גו, מצאה את עצמה לאחרונה מפסידה עשרות משחקים.

מי היה המתמודד החדש של התוכנית? גרסה חזקה יותר בפני עצמה.

AlphaGo החדש והמשופר הזה יכול למעשה ללמוד לשחק את המשחק בכוחות עצמו, ללא כל משוב מצד בני אדם, כך לפי DeepMind, חברת אלפבית שמאחורי תוכנית המחשב.

ביום רביעי, DeepMind פירט את ההתפתחות האחרונה של AlphaGo, שהיא מכנה אפס, במאמר מחקר חדש שפורסם ב- Nature.

מה שמבדיל את אפס מהגרסאות הישנות יותר של AlphaGo הוא האופן בו התוכנית לומדת. איטרציות קודמות עשו זאת על ידי תחרות עם שחקנים אנושיים, חובבים ומקצועיים כאחד.

אפס שונה. גרסה זו שנלמדה על ידי משחק המשחק כנגד עצמה, כתבה DeepMind בפוסט בבלוג.

כדי להשיג זאת, החברה השתמשה בטכניקת למידת מכונה בשם "למידת חיזוק" כדי לדחוף את אפס למטב את המשחק שלה. לאחר מכן הותאמו האלגוריתמים של התוכנית לחיזוי מהלכים עתידיים והמנצח בסופו של דבר בכל משחק.

החברה טענה כי "טכניקה זו חזקה יותר מגרסאות קודמות של AlphaGo מכיוון שהיא כבר לא מוגבלת על ידי גבולות הידע האנושי".

שינוי זה עזר לאפס להפוך לשחקן Go חזק עוד יותר מאשר האיטרציות הקודמות.

רמות המיומנות של גרסאות ה- AlphaGo השונות.

אחרי שלושה ימים בלבד של אימונים עצמיים, הגרסה החדשה הוגדרה נגד תוכנית קודמת של AlphaGo שהביסה בשנה שעברה את אלופת העולם ללי סדול בן 18. אפס ביצע כל כך טוב שהוא ניצח בכל 100 המשחקים ששיחקו.

"המערכת למדה בהדרגה את המשחק של גו מאפס, וצברה אלפי שנות ידע אנושי במהלך תקופה של כמה ימים בלבד", אמרה DeepMind.

לאחר 40 יום של אימונים עצמיים, זירו אז אפס נגד התוכנית AlphaGo שהביסה את אלופת העולם הנוכחית קאי ג'י מוקדם יותר השנה. זה המשיך לנצח 89 מתוך 100 המשחקים ששיחקו.

כיצד מחקר כלשהו עשוי לחול על תחומים אחרים מחוץ למשחק לוח עתיק עדיין לא ברור. אבל לפי DeepMind, הגרסה החדשה של AlphaGo מראה שתוכניות AI לא תמיד צריכות להסתמך על נתונים שנוצרו על ידי בני אדם כדי להיות חכמים.