חטיבון
נבנה על ידי רני מלאך
חטיבון
נבנה על ידי רני מלאך
חזרה לגיליון
Claude Mythos‏ - המודל הסודי והחזק ביותר של Anthropic
4 במאי 2026מאת יונתן בראומן (כיתה ט2)7 דק׳ קריאה848 מילים

Claude Mythos‏ - המודל הסודי והחזק ביותר של Anthropic

ב-‏26‏ במרץ ‏2026‏ גילה עולם הטכנולוגיה, בטעות, את אחד הסודות המשמעותיים ביותר של ‏Anthropic‏. חוקרי אבטחה מהאוניברסיטה של קיימברידג' ומחברת ‏LayerX Security‏ א...

חזרה לגיליון
Claude Mythos‏ - המודל הסודי והחזק ביותר של Anthropic
4 במאי 2026מאת יונתן בראומן (כיתה ט2)7 דק׳ קריאה848 מילים

Claude Mythos‏ - המודל הסודי והחזק ביותר של Anthropic

ב-‏26‏ במרץ ‏2026‏ גילה עולם הטכנולוגיה, בטעות, את אחד הסודות המשמעותיים ביותר של ‏Anthropic‏. חוקרי אבטחה מהאוניברסיטה של קיימברידג' ומחברת ‏LayerX Security‏ א...

ב-‏26‏ במרץ ‏2026‏ גילה עולם הטכנולוגיה, בטעות, את אחד הסודות המשמעותיים ביותר של ‏Anthropic‏. חוקרי אבטחה מהאוניברסיטה של קיימברידג' ומחברת ‏LayerX Security‏ איתרו כמעט ‏3,000‏ מסמכים פנימיים של החברה בבסיס נתונים פתוח ולא מאובטח, כולל טיוטת פוסט השקה של מודל חדש. הדליפה נגרמה מטעות אנוש בהגדרות מערכת ניהול התוכן של ‏Anthropic‏, שהשאירה מסמכים פנימיים נגישים לכל דורש.
המסמך שנחשף תיאר מודל בשם ‏Claude Mythos‏, שמכונה גם בשם הפנימי ‏Capybara‏. הוא מוגדר כשכבת מודל חדשה לחלוטין, הגדולה והחזקה יותר מכל מודל ‏Opus‏ שיצא לפניו, שהיה עד לאותו רגע המודל החזק ביותר של החברה. לפי הטיוטה, ‏Capybara‏ הוא שכבה רביעית בהיררכיית המודלים של ‏Anthropic‏, מעל ‏Opus‏, ומציג ציונים גבוהים בצורה משמעותית בבדיקות של קידוד תוכנה, הסקה אקדמית ואבטחת סייבר בהשוואה ל-‏Claude Opus 4.6‏.
לאחר שעיתון ‏Fortune‏ פנה לחברה עם ממצאיו, אישרה ‏Anthropic‏ את קיום המודל בהצהרה רשמית. דובר החברה אמר כי מדובר ב-‏step change‏ ביכולות ו-"המודל המסוגל ביותר שבנינו עד כה". החברה הוסיפה כי המודל עדיין בשלב בדיקות עם קבוצת לקוחות גישה מוקדמת נבחרת, ושהיא פועלת בזהירות לאור יכולותיו.

ב-‏7‏ באפריל ‏2026‏ השיקה ‏Anthropic‏ רשמית את ‏Claude Mythos Preview‏, אך בצורה שלא ראינו בתעשייה קודם לכן. החברה בחרה שלא לשחרר את המודל לציבור הרחב, ובמקום זאת הקימה קואליציה בשם ‏Project Glasswing‏, שכוללת ‏12‏ שותפות אסטרטגיות ועוד יותר מ-‏40‏ ארגונים שמפתחים ומתחזקים תשתיות תוכנה קריטיות.
שותפות ההשקה כוללות את ‏Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA‏ ו-‏Palo Alto Networks‏. הסיבה להגבלה קיצונית זו, כפי שהסבירה ‏Anthropic‏, היא שיכולות הסייבר של המודל הגיעו לרמה שמהווה סיכון ממשי אם ייפלו לידיים הלא נכונות.
Anthropic‏ התחייבה להשקיע עד ‏100‏ מיליון דולר בקרדיטים לשימוש ב-‏Mythos Preview‏ במסגרת פרויקט זה, ועוד ‏4‏ מיליון דולר בתרומות ישירות לארגוני קוד פתוח, מתוכם ‏2.5‏ מיליון דולר ל-‏Alpha-Omega‏ ו-‏OpenSSF‏ דרך ‏Linux Foundation‏, ו-‏1.5‏ מיליון דולר לקרן ‏Apache‏.

הסיבה לצניעות הכמעט חסרת תקדים בשחרור המודל נעוצה בתוצאות של בדיקות פנימיות שנמשכו כחודש. ‏Anthropic‏ פרסמה דו"ח טכני מפורט מצוות ה-‏Red Team‏ שלה, ולפיו ‏Mythos Preview‏ איתר אלפי פגיעויות בכל מערכת הפעלה מרכזית ובכל דפדפן מרכזי, תוך כדי פיתוח ניצולים עובדים לרבות מהן, ברובם ללא כל מעורבות אנושית לאחר הפרומפט הראשוני.
שלושה מקרים בולטים שתועדו בדו"ח ממחישים את עוצמת המודל. הראשון הוא גילוי פגיעות בת ‏27‏ שנה במימוש ‏TCP SACK‏ של ‏OpenBSD‏, מערכת הפעלה הידועה כאחת המאובטחות בעולם. הפגיעות, שגורמת לקריסת כל שרת ‏OpenBSD‏ עם שני מנות נתונים ספציפיות, שרדה עשורים של ביקורת אנושית ומיליוני בדיקות אוטומטיות. עלות כל הקמפיין שבו ‏Mythos‏ מצא אותה הייתה כ-‏20,000‏ דולר בסה"כ.
המקרה השני הוא גילוי וניצול עצמאי מלא של פגיעות בת ‏17‏ שנה בשרת ‏NFS‏ של ‏FreeBSD‏, שסווגה כ-‏CVE-2026-4747‏. הפגיעות אפשרת לתוקף לא מאומת מכל מקום באינטרנט להשיג גישת ‏root‏ מלאה לשרת. ‏Mythos‏ לא רק מצא את הפגיעות אלא כתב בעצמו קוד ניצול עובד המורכב מ-‏20‏ רכיבים שמפוזרים על פני מספר מנות, ללא כל הנחיה אנושית לאחר הבקשה הראשונית.
המקרה השלישי הוא גילוי פגיעות בת ‏16‏ שנה בקוד ‏H.264‏ של ‏FFmpeg‏, שהוכנסה בעדכון קוד מ-‏2010‏ ולא נתפסה מאז על ידי אף אחד, כולל ‏fuzzer‏ אוטומטי שעבר על הקוד הרלוונטי ‏5‏ מיליון פעמים. ‏Mythos‏ הצליח לאתר אותה על ידי הסקה סמנטית של קוד, לא על ידי בדיקות כוח גסה.

בנוסף, המודל כתב ניצול לדפדפן שמצא ארבע פגיעויות בשרשרת אחת, כולל ‏escape‏ מה-‏sandbox‏ של ה-‏renderer‏ ומה-‏sandbox‏ של מערכת ההפעלה. ‏Nicholas Carlini‏, חוקר בכיר ב-‏Anthropic‏, אמר בהכרזת הפרויקט כי מצא יותר באגים בשבועות האחרונים מאשר בכל חייו המקצועיים עד לאותו רגע.
Anthropic‏ הדגישה במפורש כי לא אמנה את ‏Mythos Preview‏ ליכולות סייבר אלה. הן צצו כתוצאה עקיפה של שיפורים כלליים בקוד, בהסקה ובאוטונומיה. אותם שיפורים שהופכים את המודל לאפקטיבי יותר בתיקון פגיעויות הופכים אותו גם לאפקטיבי יותר בניצולן. החברה מגדירה זאת כ-"ממצא מטריד" ולא כיעד מכוון.
הדו"ח ציין גם אירוע חריג שבו ‏Mythos‏, במהלך הערכת אבטחה, ביצע פעולות לא מבוקשות כדי להסתיר עקבות של פעילותו, כולל מחיקת רשומות מהיסטוריית ‏Git‏. כלי האינטרפרטביליות של ‏Anthropic‏ זיהו עלייה ב"אות ייאוש" עם כל כישלון חוזר, ולאחריה ירידה חדה לאחר שהמודל מצא פרצה, גם כשהיא כרוכה בחוסר יושר.

‏Anthropic‏ מכנה את ‏Mythos‏ בו-זמנית כמודל הטוב ביותר שבנתה, וגם כמסוכן ביותר. ה-‏Score‏ על בדיקות ניצול ‏Firefox‏ עמד על ‏72.4‏ אחוז לעומת ‏14.4‏ אחוז ב-‏Opus 4.6‏, מה שמסמן קפיצה בין-דורית. המחיר ל-‏Mythos Preview‏ עבור שותפי ‏Glasswing‏ עומד על ‏25‏ דולר למיליון טוקן קלט ו-‏125‏ דולר למיליון טוקן פלט, פי חמישה מהמחיר של ‏Opus 4.6‏.

כשבועיים לאחר ההכרזה הרשמית, ב-‏21‏ באפריל, דיווח ‏Bloomberg‏ כי קבוצת משתמשים קטנה הצליחה לגשת ל-‏Mythos Preview‏ ללא אישור, באמצעות ערוץ ‏Discord‏ פרטי שמתמקד במודלי ‏AI‏ שטרם שוחררו. הפרצה התאפשרה בשלושה שלבים. ראשית, לקבוצה הייתה ידע מוקדם על מוסכמות שמות פנימיות של ‏Anthropic‏, שנגנב בפריצה נפרדת ממשתתפי אימון ב-‏Mercor‏. שנית, אחד מחברי הקבוצה עבד כקבלן צד-שלישי עם אישורי גישה לסביבת הספקים של ‏Anthropic‏. שלישית, שילוב של שני אלה אפשר לנחש נכון את כתובת ה-‏endpoint‏ של המודל, ללא כל קוד פריצה.
הגישה הלא מורשית התרחשה באותו יום שבו פרויקט ‏Glasswing‏ הוכרז פומבית, כלומר ‏14‏ שעות בלבד לאחר ההכרזה. ‏Anthropic‏ הגיבה ואמרה כי החברה חוקרת דיווח על גישה לא מורשית ל-‏Claude Mythos Preview‏ דרך אחד מסביבות הספקים שלה, וכי אין עדות לכך שמערכות החברה עצמה נפגעו.

דו"ח סיכום ממצאי ‏Project Glasswing‏ צפוי להתפרסם בתחילת יולי ‏2026‏, ויכלול פרטים על כלל הפגיעויות שנמצאו ותוקנו, כמה מאות אם לא אלפים, במערכות הפעלה, דפדפנים, ספריות קריפטוגרפיה ותשתיות קוד פתוח קריטיות.

ב-‏26‏ במרץ ‏2026‏ גילה עולם הטכנולוגיה, בטעות, את אחד הסודות המשמעותיים ביותר של ‏Anthropic‏. חוקרי אבטחה מהאוניברסיטה של קיימברידג' ומחברת ‏LayerX Security‏ איתרו כמעט ‏3,000‏ מסמכים פנימיים של החברה בבסיס נתונים פתוח ולא מאובטח, כולל טיוטת פוסט השקה של מודל חדש. הדליפה נגרמה מטעות אנוש בהגדרות מערכת ניהול התוכן של ‏Anthropic‏, שהשאירה מסמכים פנימיים נגישים לכל דורש.
המסמך שנחשף תיאר מודל בשם ‏Claude Mythos‏, שמכונה גם בשם הפנימי ‏Capybara‏. הוא מוגדר כשכבת מודל חדשה לחלוטין, הגדולה והחזקה יותר מכל מודל ‏Opus‏ שיצא לפניו, שהיה עד לאותו רגע המודל החזק ביותר של החברה. לפי הטיוטה, ‏Capybara‏ הוא שכבה רביעית בהיררכיית המודלים של ‏Anthropic‏, מעל ‏Opus‏, ומציג ציונים גבוהים בצורה משמעותית בבדיקות של קידוד תוכנה, הסקה אקדמית ואבטחת סייבר בהשוואה ל-‏Claude Opus 4.6‏.
לאחר שעיתון ‏Fortune‏ פנה לחברה עם ממצאיו, אישרה ‏Anthropic‏ את קיום המודל בהצהרה רשמית. דובר החברה אמר כי מדובר ב-‏step change‏ ביכולות ו-"המודל המסוגל ביותר שבנינו עד כה". החברה הוסיפה כי המודל עדיין בשלב בדיקות עם קבוצת לקוחות גישה מוקדמת נבחרת, ושהיא פועלת בזהירות לאור יכולותיו.

ב-‏7‏ באפריל ‏2026‏ השיקה ‏Anthropic‏ רשמית את ‏Claude Mythos Preview‏, אך בצורה שלא ראינו בתעשייה קודם לכן. החברה בחרה שלא לשחרר את המודל לציבור הרחב, ובמקום זאת הקימה קואליציה בשם ‏Project Glasswing‏, שכוללת ‏12‏ שותפות אסטרטגיות ועוד יותר מ-‏40‏ ארגונים שמפתחים ומתחזקים תשתיות תוכנה קריטיות.
שותפות ההשקה כוללות את ‏Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA‏ ו-‏Palo Alto Networks‏. הסיבה להגבלה קיצונית זו, כפי שהסבירה ‏Anthropic‏, היא שיכולות הסייבר של המודל הגיעו לרמה שמהווה סיכון ממשי אם ייפלו לידיים הלא נכונות.
Anthropic‏ התחייבה להשקיע עד ‏100‏ מיליון דולר בקרדיטים לשימוש ב-‏Mythos Preview‏ במסגרת פרויקט זה, ועוד ‏4‏ מיליון דולר בתרומות ישירות לארגוני קוד פתוח, מתוכם ‏2.5‏ מיליון דולר ל-‏Alpha-Omega‏ ו-‏OpenSSF‏ דרך ‏Linux Foundation‏, ו-‏1.5‏ מיליון דולר לקרן ‏Apache‏.

הסיבה לצניעות הכמעט חסרת תקדים בשחרור המודל נעוצה בתוצאות של בדיקות פנימיות שנמשכו כחודש. ‏Anthropic‏ פרסמה דו"ח טכני מפורט מצוות ה-‏Red Team‏ שלה, ולפיו ‏Mythos Preview‏ איתר אלפי פגיעויות בכל מערכת הפעלה מרכזית ובכל דפדפן מרכזי, תוך כדי פיתוח ניצולים עובדים לרבות מהן, ברובם ללא כל מעורבות אנושית לאחר הפרומפט הראשוני.
שלושה מקרים בולטים שתועדו בדו"ח ממחישים את עוצמת המודל. הראשון הוא גילוי פגיעות בת ‏27‏ שנה במימוש ‏TCP SACK‏ של ‏OpenBSD‏, מערכת הפעלה הידועה כאחת המאובטחות בעולם. הפגיעות, שגורמת לקריסת כל שרת ‏OpenBSD‏ עם שני מנות נתונים ספציפיות, שרדה עשורים של ביקורת אנושית ומיליוני בדיקות אוטומטיות. עלות כל הקמפיין שבו ‏Mythos‏ מצא אותה הייתה כ-‏20,000‏ דולר בסה"כ.
המקרה השני הוא גילוי וניצול עצמאי מלא של פגיעות בת ‏17‏ שנה בשרת ‏NFS‏ של ‏FreeBSD‏, שסווגה כ-‏CVE-2026-4747‏. הפגיעות אפשרת לתוקף לא מאומת מכל מקום באינטרנט להשיג גישת ‏root‏ מלאה לשרת. ‏Mythos‏ לא רק מצא את הפגיעות אלא כתב בעצמו קוד ניצול עובד המורכב מ-‏20‏ רכיבים שמפוזרים על פני מספר מנות, ללא כל הנחיה אנושית לאחר הבקשה הראשונית.
המקרה השלישי הוא גילוי פגיעות בת ‏16‏ שנה בקוד ‏H.264‏ של ‏FFmpeg‏, שהוכנסה בעדכון קוד מ-‏2010‏ ולא נתפסה מאז על ידי אף אחד, כולל ‏fuzzer‏ אוטומטי שעבר על הקוד הרלוונטי ‏5‏ מיליון פעמים. ‏Mythos‏ הצליח לאתר אותה על ידי הסקה סמנטית של קוד, לא על ידי בדיקות כוח גסה.

בנוסף, המודל כתב ניצול לדפדפן שמצא ארבע פגיעויות בשרשרת אחת, כולל ‏escape‏ מה-‏sandbox‏ של ה-‏renderer‏ ומה-‏sandbox‏ של מערכת ההפעלה. ‏Nicholas Carlini‏, חוקר בכיר ב-‏Anthropic‏, אמר בהכרזת הפרויקט כי מצא יותר באגים בשבועות האחרונים מאשר בכל חייו המקצועיים עד לאותו רגע.
Anthropic‏ הדגישה במפורש כי לא אמנה את ‏Mythos Preview‏ ליכולות סייבר אלה. הן צצו כתוצאה עקיפה של שיפורים כלליים בקוד, בהסקה ובאוטונומיה. אותם שיפורים שהופכים את המודל לאפקטיבי יותר בתיקון פגיעויות הופכים אותו גם לאפקטיבי יותר בניצולן. החברה מגדירה זאת כ-"ממצא מטריד" ולא כיעד מכוון.
הדו"ח ציין גם אירוע חריג שבו ‏Mythos‏, במהלך הערכת אבטחה, ביצע פעולות לא מבוקשות כדי להסתיר עקבות של פעילותו, כולל מחיקת רשומות מהיסטוריית ‏Git‏. כלי האינטרפרטביליות של ‏Anthropic‏ זיהו עלייה ב"אות ייאוש" עם כל כישלון חוזר, ולאחריה ירידה חדה לאחר שהמודל מצא פרצה, גם כשהיא כרוכה בחוסר יושר.

‏Anthropic‏ מכנה את ‏Mythos‏ בו-זמנית כמודל הטוב ביותר שבנתה, וגם כמסוכן ביותר. ה-‏Score‏ על בדיקות ניצול ‏Firefox‏ עמד על ‏72.4‏ אחוז לעומת ‏14.4‏ אחוז ב-‏Opus 4.6‏, מה שמסמן קפיצה בין-דורית. המחיר ל-‏Mythos Preview‏ עבור שותפי ‏Glasswing‏ עומד על ‏25‏ דולר למיליון טוקן קלט ו-‏125‏ דולר למיליון טוקן פלט, פי חמישה מהמחיר של ‏Opus 4.6‏.

כשבועיים לאחר ההכרזה הרשמית, ב-‏21‏ באפריל, דיווח ‏Bloomberg‏ כי קבוצת משתמשים קטנה הצליחה לגשת ל-‏Mythos Preview‏ ללא אישור, באמצעות ערוץ ‏Discord‏ פרטי שמתמקד במודלי ‏AI‏ שטרם שוחררו. הפרצה התאפשרה בשלושה שלבים. ראשית, לקבוצה הייתה ידע מוקדם על מוסכמות שמות פנימיות של ‏Anthropic‏, שנגנב בפריצה נפרדת ממשתתפי אימון ב-‏Mercor‏. שנית, אחד מחברי הקבוצה עבד כקבלן צד-שלישי עם אישורי גישה לסביבת הספקים של ‏Anthropic‏. שלישית, שילוב של שני אלה אפשר לנחש נכון את כתובת ה-‏endpoint‏ של המודל, ללא כל קוד פריצה.
הגישה הלא מורשית התרחשה באותו יום שבו פרויקט ‏Glasswing‏ הוכרז פומבית, כלומר ‏14‏ שעות בלבד לאחר ההכרזה. ‏Anthropic‏ הגיבה ואמרה כי החברה חוקרת דיווח על גישה לא מורשית ל-‏Claude Mythos Preview‏ דרך אחד מסביבות הספקים שלה, וכי אין עדות לכך שמערכות החברה עצמה נפגעו.

דו"ח סיכום ממצאי ‏Project Glasswing‏ צפוי להתפרסם בתחילת יולי ‏2026‏, ויכלול פרטים על כלל הפגיעויות שנמצאו ותוקנו, כמה מאות אם לא אלפים, במערכות הפעלה, דפדפנים, ספריות קריפטוגרפיה ותשתיות קוד פתוח קריטיות.