אנחנו חיים בעידן דיגיטלי, ויש לכך משמעויות רבות עבור כולם ובטח שעבור עסקים, חברות וארגונים. אחת ההשפעות הבולטות של צורת החיים שגיבשנו לעצמנו, היא הצטברות אדירה של מאגרי מידע ובסיסי נתונים. על מנת להתמודד עם כמויות המידע הדיגיטלי שנוצרו וממשיכות להיווצר בקצב הולך וגובר, נדרש פתרון מתחום של בינה עסקית (BI), כלי שיאפשר לזהות ולנתח נתונים חשובים מתוך הרים של מידע.
הפתרון שהתפתח עם הזמן נקרא כריית מידע (data mining), או כריית נתונים, והוא אחד הכלים החשובים והעוצמתיים העומדים היום לרשות ארגונים שונים. למעשה, כריית מידע היא תהליך ארוך אשר כולל בתוכו שלב עיקרי של כריית נתונים, אך מרבית האנשים תופסים את שני המושגים כחופפים וגם זה בסדר. בדיוק כפי שכריית פחם, או אוצרות טבע אחרים, נועדה למציאת והפקת חומר בעל ערך מתוך האדמה, כריית נתונים נועדה להשגת חומר בעל ערך במאגרי מידע ענקיים. מהו חומר בעל ערך בהקשר הזה? גילוי מידע משמעותי, זיהוי דפוסים וניתוח מושכל של נתונים.
השיטות אשר משמשות עבור כריית מידע החלו להתפתח בשנות השמונים של המאה הקודמת, כאשר העולם העסקי התחיל לאבד שליטה על כמויות המידע שנאסף. בשלב מסוים, עסקים כבר לא הצליחו למצוא את ידיהם ורגליהם בתוך ערמות המידע, והחלו להשתמש בכלים אוטומטיים ובאלגוריתמים מתקדמים, שנוצרו בשביל להחליף את שיטות ניתוח המידע המסורתיות (בעיקר שיטות מתחום הסטטיסטיקה), אלה שהיו נהוגות לפני שהתחלנו לצבור כמעט אינסוף מידע דיגיטלי ופשוט לא התאימו לעידן החדש.
כיום, כריית נתונים תורמת לעסקים להתנהל, לקבל החלטות ולחשוב קדימה. השליטה במידע והיכולת לתחקר אותו לעומק ולהצליב בין שלל מקורות וסוגי מידע שונים, מעניקה אפשרות להגיע לתובנות, לייעל תהליכים ולזהות נתונים חריגים. מלבד העולם העסקי, כריית מידע הוא כלי שימושי גם עבור ממשלות, מדענים וחוקרים. בשורה התחתונה, כריית מידע מאפשרת ניתוח בסיסי נתונים שפשוט אי אפשר לנתח ידנית או בכלל באמצעות אנשים. כריית מידע נכונה ויעילה משיגה תוצאות שלא ניתן להשיג בשום צורה אחרת.
אילו מודלים של כריית נתונים קיימים?
יש הרבה מאוד סוגים של מודלים ושיטות לבצע data mining, אבל על מנת לעשות סדר נתמקד בארבעת הסוגים העיקריים והנפוצים ביותר:
1. מודלים תיאוריים – המודל הבסיסי ביותר של כריית מידע, אשר נועד לסווג ולזהות דפוסים, וגם לפלח נתונים. זהו מודל אשר מתבסס על ניתוח אשכולות – שיטה יחסית ישנה עבור כריית נתונים, שנוצרה עוד לפני העידן הדיגיטלי. במסגרת ניתוח אשכולות מחלקים פריטי מידע דומים לכמה קבוצות (לדוגמה: קבוצת בנים וקבוצת בנות), ומנתחים אותם באמצעות אלגוריתם מתאים. בעזרת המודל ניתן לגבש תובנות על העבר וגם לקבל החלטות בנוגע לעתיד. מודלים תיאוריים של כריית מידע, נמצאים בשימוש רחב מאוד בתחום השיווק, בעיקר כדי לנתח התנהגות צרכנים על ידי פילוח אוכלוסייה על פי חיתוכים שונים. המודלים שימושיים גם בעולם המדע, למשל לאיתור זנים חדשים של חיות.
2. מודלים לחיזוי – כריית נתונים נועדה פעמים רבות כדי לנסות לחזות את העתיד, לנסות להבין מה עשוי ועלול לקרות ומהם התרחישים בעלי הסבירות הגבוהה ביותר להתרחשות. בשביל לעשות את זה, מחלקים מערך נתונים גדול לקבוצות, ומנסים לאתר בהן דפוסים קבועים או משתנים, ובאמצעותם מסיקים מסקנות. במסגרת מודל לחיזוי באים לידי ביטוי סיווגים, ניתוח סדרות זמן ורגרסיה.
3. מודלים לכריית דפוסים – כפי שכנראה כבר הבנתם, אחת המטרות החשובות של כריית מידע היא זיהוי דפוסים. הרי, ממש לא קל למצוא דפוסים שחוזרים על עצמם בתוך כמויות כל כך גדולות של נתונים, ועם זאת איתורם עשוי להועיל רבות לעסק. באמצעות המודלים, אפשר לזהות חוקיות ולחשוף מידע שמונע שגיאות ומסייע לנהל סיכונים ולהתמודד עם תקלות.
4. מודלים לזיהוי אנומליה – אם זיהוי דפוסים הוא מרכיב חשוב של כריית נתונים, לפעמים המידע המשמעותי ביותר נמצא דווקא מחוץ לדפוסים הקבועים. מודלים לזיהוי אנומליה משלימים את העבודה שמבצעים המודלים האחרים, ומעניקים תמונה מלאה ושלמה. כך, אפשר לגלות מבעוד מועד תקלות, בעיות, תוצאות לא צפויות וכל חריגה מעבר לתבניות הקבועות של הנתונים. ניתוח אנומליה ניתן לבצע על ידי ניתוח אשכולות, למידה חישובית וכלים נוספים.
כיצד מתבצע תהליך כריית מידע?
תהליך כריית מידע כולל שלושה שלבים:
1. עיבוד מוקדם – לפני שיוצאים לדרך, חייבים לסדר את הנתונים באופן שיאפשר data mining אפקטיבי. לשם כך, מתחילים בהליך ראשוני של זיהוי דפוסים, סינון נתונים וניקוי המאגר. מכיוון שהתהליך של כריית מידע תלוי במידה רבה בגילוי תבניות הנמצאות בנתונים, יש לוודא כי מאגר הנתונים שעליו נעשה התהליך גדול מספיק כדי להכיל את אותן תבניות. מצד שני, המאגר צריך להיות תמציתי מספיק כדי שהתהליך לא ייקח יותר מדי זמן. לאחר סינון של נתונים לא רלבנטיים או חסרים, מייצרים מעין גרסת סיכום של המאגר באמצעות וקטורים מאפיינים. הווקטורים מפחיתים בהרבה את כמות המידע ואת רמת העיבוד הנדרשת לעיבודו, והגדרה נכונה שלהם הכרחית להצלחה כריית מידע.
2. כריית נתונים – השלב המרכזי בתהליך, שכולל את כל "הבשר": מציאת דפוסים, תבניות ואנומליות בתוך מסדי נתונים גדולים. זהו שלב בעל מטרות רבות, שאת חלקן כבר הזכרנו.
אלה עוד שתי דוגמאות –
- סיווג – סיווג של מקרים חדשים על פי דוגמאות שנאספו בעבר. לדוגמה, חברת אשראי יכולה לבנות מודל סיווג של לקוחות אשר מעוניינים לקבל הלוואה, בהתאם ללקוחות קודמים. כך, כאשר נקלטת בקשה נוספת להלוואה, היא מסווגת אוטומטית בהתאם למידת הוודאות שתוחזר במלואה ובזמן.
- קישור – מציאת קשר מעניין בין פריטים שונים של נתונים. הדוגמה הנפוצה ביותר למודל כזה של כריית נתונים היא ניתוח של סל קניות: האם יש חוקיות בין מוצרים שונים שנרכשו באותה קניה? כך, אפשר לדעת אילו מוצרים נרכשים ביחד בדרך כלל ולסדר את המוצרים בחנות בצורה הטובה ביותר.
3. אימות תוצאות – כדי להפוך סופית את המידע לידע, ולהיות בטוחים בממצאים, צריך לאמת את ביצועי האלגוריתם בטווח נתונים יותר רחב. לא כל התבניות הנמצאות במסגרת כריית מידע בהכרח נכונות, אבל לאחר ביצוע האימות ניתן לדעת איזה מהן תקפות.
כריית מידע ועולם ה-BI
מערכת בינה עסקית היא שם כולל לקשת רחבה מאוד של טכנולוגיות וכלים, שנועדו לספק לעסקים את כל המידע החשוב והרלבנטי ביותר לקבלת החלטות ולהסקת מסקנות. בינה עסקית (Business Intelligence – BI) מיישמת מגוון שיטות למחקר ותפעול נתונים, ואחת העיקריות שבהן היא כריית מידע (data mining). שיטות נוספות הן עיבוד אנליטי מקוון (Online analytical processing, OLAP), ניהול ביצועים עסקיים (Business performance management), מידוד (Benchmarking) וחיזוי אנליטי (Predictive analytics).
בינה עסקית נועדה לעסקים בכל תחום ובכל גודל, וממש לא רק לחברות גדולות ולתאגידים. כל עוד מאפיינים אותה נכון, ומנצלים אותה עם הכלים המתאימים, היא מסייעת לנהל את המידע ולהשתמש בו בצורה נבונה ומושכלת. בסופו של דבר, מערכת בינה עסקית מותאמת אישית לצרכי העסק, יכולה להביא לעלייה ברווחים שלו ולגרום לו לצמוח ולשגשג.