Web Data Scarping או “גירוד תוכן” בתרגום חופשי לעברית היא טכניקה שבאמצעותה סורקים תוכן מאתרי אינטרנט באופן אוטומטי
ומעבדים אותו על מנת להציגו באתר אינטרנט אחר.
האלגוריתם שמבצע את “הגירוד” בדרך כלל כולל גם סוג של בינה מלאכותית שיודעת להפריד בין פיסות שונות של מידע כמו למשל שמות של אנשים, פרטים טכניים, תמונות, מספרי טלפון, כתובות דואר אלקטרוני וכך הלאה, כך שניתן להכניס את כל אחד מסוגי המידע האלו אל שדה נפרד במסד הנתונים המשמש את האלגוריתם (לכן המידע שמתקבל בסופו של דבר נחשב למידע מובנה, structured Data).
שימושים חוקיים ל – Web Data Scraping
למרות שלעיתים קרובות, גירוד תוכן מוזכר בהקשר של גניבת תוכן מאתרים אחרים וניסיון לקדם אתרים בצורות שנויות במחלוקת במנועי חיפוש, יש לו גם מספר שימושים חוקיים:
אתרי מסחר אלקטרוני – באתרי מסחר אלקטרוני אפשר להשתמש בגירוד תוכן על מנת לייבא מפרטים טכניים , מוצרים או אפילו טקסטים שיווקים באנגלית ותמונות ישירות מהאתר של היצרן וכך לחסוך דקות ארוכות של העתקת המידע באופן ידני.
דוגמה נוספת בקטגוריה זו היא כמובן אתרי השוואת מחירים שסורקים את הרשת במטרה למצוא את המחיר הזול ביותר עבור מוצר ספציפי
(עד לרמת המודל או הדגם). בארץ כולנו מכירים את זאפ שבדרך כלל דורש להתקין קוד בכל אתר שרוצה להיכנס למאגר שלו, אבל בחו”ל יש גם אתרים שסורקים מחירים מבלי לבקש רשות מהאתרים אותם הם סורקים, וזאת על מנת להציג לגולשים שלהם את המידע האמין ביותר…
אתרי מידע עובדתיים – הכוונה לאתרים שאוספים מידע על אנשים או חברות מרחבי הרשת. לדוגמה, באילו פסקי דין הם מופיעים, האם יש להם בלוג או אתר רשמי, מהו מחזור העסקאות שלהם (במקרה של חברות) וכך הלאה.
למרבה הפלא, אתרים כאלו נוטים לעיתים להתברג במקומות גבוהים למדי במנועי החיפוש למרות שלכאורה מנועי החיפוש אמורים לפעול כנגד
אתרים שמעתיקים תוכן. הסיבה לכך היא כנראה שלמרות שכל פיסת מידע בפני עצמה היא לא מקורית, הרי שעדיין יש ערך לכל פיסות המידע האלו כאשר הן מונחות זו לצד זו…
ניתוח ואנליזה – כאשר חברות שיווק באינטרנט או מדיה רוצות ליצור דוח סטטיסטי, הן לעיתים ישתמשו ב – Data Scarping כשמדובר בדפים שיש בהם מידע מובנה או שניתן להפוך אותו לכזה בקלות.
לדוגמה, יש כמה חברות אשר סורקות את עמודי התוצאות של גוגל במטרה לזהות בהם דפוסים ומגמות לעומת סריקות קודמות, זאת בנוסף לסקרים ידניים שמנבאים את השינויים בשיטות הדירוג של גוגל באמצעות נסקרים אנושיים.
web data scraping יכול להפוך לחרב פיפיות
למרות של- Data Scarping יש הרבה מאוד יתרונות והוא יכול לחסוך פעולות שבאופן ידני היו אורכות ימים שלמים, חשוב לזכור שאם עושים
בו שימוש מוגזם, הוא עשוי לחזור אל מי שמשתמש בו
כמו בומרנג… לדוגמה, אתרים שמעתיקים דפים שלמים מאתרים אחרים כפי שהם בלי להוסיף להם שום דבר, בדרך כלל לא מצליחים להתברג
במקומות גבוהים בתוצאות החיפוש.
זכויות יוצרים
סוגיה חשובה נוספת היא כל עניין זכויות היוצרים : כאן יש להפריד בין העתקה של יצירה כמו מאמר או טקסט שיווקי ובין העתקה של עובדות ונתונים.
לעובדות ונתונים אין כשלעצמם זכויות יוצרים והדבר גם נפסק במספר מקרים של אתרים שנתבעו בארץ. מנגד, אם מעתיקים מאגרי מידע שלמים ומציגים אותם כפי שהם, בהחלט עשויה להיות עילה לתביעה מכיוון שיש זכויות יוצרים על המאגר עצמו…
מה אנחנו יכולים לעשות עבורך?
– עיצוב ופיתוח אתרי אינטרנט, תוכנה בהתאמה אשית, חנויות וירטואליות ואפליקציות
– תיקון תקלות נקודתיות ורוחביות
– שיפור פנומנאלי של מהירות האתר
– התממשקות למערכות סילקה, חשבוניות ומערכות ניהול מלאי
– סריקת מוצרים מהרשת או מכל קטלוג והעלאתם לחנות
ההתחייבות שלנו
– שירות מהיר
– זמינים בטלפון, במייל ובמערכת ניהול הקריאות
– אנחנו מומחים במה שאנחנו עושים!
מי אנחנו?
קורל טכנולוגיות הוא בוטיק תוכנה המסייע לך להפוך את פיתוח הטכנולוגיה ממכשול ליתרון ממשי.
אנו מומחים בהגשמת רעיונות באמצעים טכנולוגיים.
הצוות שלנו יקשיב, ייעץ, יפתח ויעניק לך פתרון טכנולוגי שיתמוך וירומם כל חזון עסקי.
החברה יושבת במשרדיה בסביון מאז 2006.
הצוות שלנו –
דורון בסון
ולנטיין גרין
אלק שפיטלניק
שמעיה שפירו
אלמוג כהן