הודלפו האלגוריתמים האמיתיים של מנוע החיפוש! | Yandex נפרץ

עודכן לאחרונה ב-29.6.2023

מנוע החיפוש Yandex (מנוע החיפוש הרביעי בגודלו) נפרץ על ידי האקרים שהדליפו את ה-Database (קרוב ל-45 GB) של כל הכלים שהוא מספק וביניהם של מנוע החיפוש שלו והקריטריונים לאיך נקבעים בו המיקומים.

אז איך המידע הזה עוזר לי אם אני מקדם בגוגל ולא ביאנדקס?

בקצרה Yandex היא חברה שהוקמה ברוסיה ומעניקה שירותים דומים לשל Google (דגש עיקרי על מנוע החיפוש, מייל, דפדפן למובייל ולדסקטופ כמו כרום, אנליטיקס ועוד)
נכון שאלו שני מנועי חיפוש שונים וכנראה שלא תואמים לגמרי בכל הפקטורים.

לאחר השוואה שעשיתי קיים הבדל בתוצאות המוצגות בשאילתות

  • בשאילתות באנגלית התוצאות זהות ב-40-60%
  • בשאילתות בעברית התוצאות זהות ב-30-60%
  • בשאילתות ברוסית התוצאות זהות ב-70-80%

עשיתי את זה באופן מאוד מדגמי וללא VPN, אני מאמין שהיחס יכול להשתנות לפי נישות ופרמטרים לוקאליים.
אני חושב שההבדל גדל ביחס להיכרות של מנוע החיפוש עם השפה, לפי ההיכרות שלי עם אנשים ממדינות הדוברות את השפה הרוסית – השימוש בהן מתחלק באופן כמעט שווה בין יאנדקס לגוגל.

ומכאן אפשר לראות שבשפה ששני המנועים מכירים באופן דאי שווה התוצאות יותר זהות, מה שמאפשר להגיע למסקנה שיש דמיון בין שני האלגוריתמים ואפשר להקדיש תשומת לב גם על דברים שיאנדקס בודק.

מה ניתן להסיק מהנתונים ב-Database?

אחד הדברים שניתן להשיג מזה שהפרמטר “Page-Rak” עדיין קיים שם ושיש עדיין חוקים “יבשים” שצריך להתייחס אליהם (כמו לדוגמה כמות מילים/לינקים מעמוד) ושלא הכל תלוי בחווית המשתמש (rankbrain אצל גוגל).

מהדאטא-בייס ניתן לראות שיאנדקס עדיין מתחשבים בקישורים, למרות שהם כבר יצאו בהצהרה שקישורים בשבילם הם לא פרמטר.

רשימה של הפרמטרים מעניינים שקובעים את המיקומים:

קיימים אלפי פקטורים, זאת רק רשימה של דברים שאולי יכולים לפתוח את הראש ולהבין כיצד מנועי חיפוש עובדים
*חשוב לזכור שיאנדקס זה לא גוגל
לא ניתן לדעת כעל כל פרמטר אם הוא חיובי או שלילי, רק שיש התייחסות לדבר

  1. קיימת התייחסות לקישורים חיצוניים
  2. יום בשבוע – התוצאות יכולות להשתנות לפי היום הרלוונטי בשבוע (אין לנו שליטה על כך)
  3. שעה ביום – אם לדוגמה גולש מחפש מסעדה בשעה 20:00, המנוע מציג לו בתוצאות הראשונות מסעדות שפתוחות בשעות האלו (כנראה שהסכמה הלוקאלית או כרטיס העסק עוזר למנוע להבין את זה)
  4. התייחסות שלילית ל-javascript
  5. התייחסות שלילית ל-facebook
  6. תוכן עדכני הוא תוכן עד-80 שעות
  7. האם האתר משתמש במודעות ממומנות של המנוע
  8. האם יש אזכורים על אפשרויות תשלום ב-SMS
  9. האם האתר מסחרי אבל לא מעודכן?
  10. זיהוי שם מסחרי באנקורים של הקישורים הנכנסים
  11. גיל קישורים + רלוונטיות
  12. גיל התוכן
  13. רלוונטיות הטקסט לשאילתה
  14. בחינת התנהגות המשתמש שנכנס לאתר דרך שאילתה מסוימת
  15. אמינות האחסון
  16. העדפה מראש של אתרים ספציפיים (לדוגמה כמו של ויקיפדיה)
  17. דירוג ממוצע של האתר בכל השאילתות (כמו שמופיע ב-SC קליקים, הופעות ומיקום ממוצע)
  18. תנועה (כמה שיותר) – עם דגש על מספר מבקרים, ייחודיים, חדשים וכו’
  19. תנועה ממומנת PPC משפיעה לטובה על הדירוג – כמה שיותר = יותר טוב
  20. מקורות תנועה שגולשים
  21. העדפת דפים לא ישנים מידי
  22. העדפה ל-URLS המכילים פחות סלאשים, מספרים וכל מיני סימנים שהם לא אותיות
  23. עדיפות לקוד נקי
  24. לינקים מויקיפדיה מקבלים חשיבות גבוהה במיוחד
  25. עדיפות ל-URLS המכילים את מילת המפתח
  26. פרמטרים המעידים על כך שההתאוששות מעונשים ביאנדקס מאוד קשה
  27. CTR (שיעור קליקים הוא פקטור ידוע שאפשר לעשות עליו מניפולציות)
  28. קליקים “חוזרים”
  29. אורך ה-URL
  30. שילוב ביטוי לוקאלי ב-URL
  31. מדידת המרחק בין מילים בתוכן, מספר מינימלי של תו/מילה
  32. מרחק הביטוי מההקשר הישיר (עד כמה הביטוי רלוונטי להקשר של השאילתה ועד כמה מורכב להשתמש בו בהקשר שונה)
  33. כמות המוצרים באתר/בדף (DSSM)
  34. פרמטר ה-YMYL – (בנושאים משפטיים, פיננסיים ורפואיים)
  35. האם האחסון הוא יקר או מוכר (אחסון זול יכול להיקשר לאתרים ספאמיים)
  36. TikTok – כמות תנועה מטיק-טוק ועוד פונקציות (ניתן ללמוד על כך שמנועי חיפוש עוקבים ונותנים חשיבות לרשתות חברתיות לפי פופולריות ולא רק לפי ותק)
  37. כמות העמודים שמציגים שגיאות 5XX ו-4XX
  38. נתונים מ-Yandex metrica (אנלוג של Google analytics), ממלית לקרוא על הכלי בלי קשר לנושא
  39. אינטגרציה של האתר עם שירותים וכלים נוספים של יאנדקס (לדוגמה אם המייל באתר הוא המייל של יאנדקס)
  40. זמן ביקור ממוצע
  41. נתונים על המשתמשים
  42. תנועת הגולשים באתר – עומק התנועה
  43. מילת מפתח בטקסט ובכותרות
  44. כמות החזרות על מילת המפתח
  45. תגית המטא keywords
  46. אלגוריתם BM25 לניתוח הטקסט. אלגוריתם שמנתח את הטקסט ומנסה למצוא את ההתאמה הטובה ביותר לכוונת המשתמש.
  47. מודעות ממומנות חיצוניות של האתר (לא של יאנדקס)
  48. בדיקה האם התוכן מיועד למבוגרים
  49. “עומק העמוד” – מרחק העמוד מהדף הראשי
  50. קישורים חיצוניים מעמודים ראשיים נותנים יותר כוח מקישורים בתוך עמודים “עמוקים”
  51. האם האתר שלך הוא האתר האחרון שהגולש ביקר בו לאחר באותה השאילתה (אם כן, כנראה הגולש קיבל את התשובה)
  52. כמות האנשים שמוסיפים את האתר למועדפים שלהם – כמו שציינתי, ליאנדקס יש דפדפן משלהם (אני בטוח שזה פרמטר שגם גוגל מתייחס אליו)
  53. פקטורים ייחודיים לקטעי וידיאו קצרים (נראה שקשור ל-yandex zen)
  54. הטמעות/שימוש ב-API של מפות – לדוגמה באתר תיירות הטמעת מפה תיתן נקודות בונוס
  55. אחוז האותיות הגדולות גם מהווה גורם דירוג
  56. -” שווה ערך ל “_” ב-URL
  57. התייחסות להטמעות (video, iframe…): הטמעה תקינה = מוסיף ניקוד, הטמעה לא תקינה/פגת תוקף = מורידה ניקוד
  58. הופעות ברשתות חברתיות (שהעמודים של הרשתות החברתיות יקשרו לאתר)
  59. ככל שהביטוי של הקישור החיצוני מדויק יותר – ככה טוב יותר (מה שמנועי החיפוש מחשיבים לספאם)
  60. מנוע החיפוש ממיין קישורים לפי קישורים “טובים” וקישורים “רעים” (לצערנו לא מצוין לפי איזה פרמטרים קישור נחשב לטוב או רע)
  61. איכות הטקסט
  62. כמות פרסומות בעמוד
  63. אלמנט האקראיות – מנוע החיפוש לפעמים מציג תוצאות אקראיות שלא תלויות לבדיקות האיכות שהוא מבצע בשביל ללמוד על התנהגות הגולשים
  64. הסקריפט של גוגל אנליטיקס באתר – יאנדקס מחשיב אתרים ששמים את האנליטיקס של גוגל באתר ליותר איכותיים
  65. Hard pessimization equal PR=0 – הכוונה שיאנדקס מורידה ציון על אופטימיזציה גרועה שנעשתה במכוון

עד כמה המידע רלוונטי?

המידע שהודלף רלוונטי לתחילת שנת 2022, כנראה שהאלגוריתם התעדכן מאז אבל המטרה היא ללמוד על אופן הפעולה של מנוע החיפוש ואיך המפתחים שלו חושבים.

מנוע החיפוש הוא מנוע איכותי, לפי דעתי שווה להקשיב להערות שלו. 
מה שהכי הפתיע אותי זה היחס הענק שהם נותנים ל-URL שבין הדברים העיקריים:

  1. פחות מספרים
    עדיף: המלונות-הטובים-ביותר
    מאשר: 100-המלונות-הטובים-ביותר
  2. פחות סלאשים “/” = פחות סלאגים 
    עדיף: דומיין/מחשבים
    מאשר: דומיין/חנות/טכנולוגיה/מחשבים
  3. לא ארוך
  4. ביטוי רלוונטי (רצוי במלואו)
    עדיף: חנות-טלפונים
    מאשר: טלפונים (במידה והביטוי המקודם הוא “חנות-טלפונים”)
  5. רצוי ללא תאריך ב-URL (במיוחד אם הוא לא עדכני)
  6. רצוי לעשות הפרדה בין המילים של הביטוי אם הוא מכיל יותר ממילה אחת באמצעות “-” או “_”

קישורים חיצוניים

				
					https://docs.google.com/spreadsheets/d/1qbwH29FnaA_zhgNLHQhpErJF3T4zo4HYJkd8am2eAp8/edit?usp=sharing
				
			
תוכן עניינים