في العشرين عامًا الماضية، أصبحت البيانات الجغرافية المكانية (المستخلصة من نظام التموضع العالمي (GPS)، ووسائل التواصل الاجتماعي ذات العلامات الجغرافية، وخرائط الطقس، والكوارث الطبيعية، وصور الأقمار الصناعية، والظروف الوبائية)، منتشرة في كل مكان. وقد أدى ذلك إلى ظهور علم البيانات المكانية كمجال ما يُشير عادة إلى استخلاص المعلومات ذات الأهمية من البيانات الجغرافية المكانية. ومع ذلك، فإن عدم قابلية التوسع والتفاعل في أنظمة البيانات المكانية الحديثة يجعل من الصعب جدًا على عالم البيانات تخزين البيانات الجغرافية المكانية واسعة النطاق واستردادها واستكشافها وتحليلها وتصوّرها والتعلم منها.
تلقي هذه الندوة عبر الإنترنت الضوء على (GeoSpark)، وهو نظام بيانات مفتوح المصدر، يعتمد على المحرك الأساسي (Apache Spark)، لمعالجة البيانات الجغرافية المكانية واسعة النطاق في بيئة حوسبية عنقودية بكفاءة.
وعلى المستوى الداخلي، يُمثل نظام (GeoSpark) البيانات الجغرافية المكانية باعتبارها (SpatialRDD)، التي صُممت خصيصًا لنموذج معالجة البيانات في ذاكرة (Apache Spark). ويسمح هذا النظام للمستخدمين كتابة مهام معالجة البيانات المكانية الخاصة بهم في لغة الاستعلامات البنيوية المكانية، وتجميع مدخلات هذه اللغة في مجموعة من عمليات (SpatialRDD) المحسنة، وأخيرًا تنفيذ مثل هذه العمليات بشكل جماعي.
يُقدم محمد سروت، الأستاذ المساعد في جامعة ولاية أريزونا، نظرة عامة على مخطط فهرسة (Hippo) الذي يتفوق على فهارس قاعدة البيانات الواقعية مثل شجرة–ب وشجرة-ر من حيث التخزين والصيانة العامة، بينما تستمر عملية تطبيق استعلامات النطاق في أداء مقارن على مثل هذه الفهارس.
علاوة على ذلك، قد يسمح عالم البيانات في بعض الأحيان بمقايضة طفيفة بين دقة التحليل وإمكانية التوسع. وللسماح لمثل هذه المقايضات، سيقدم سروت نظامًا للبرامج الوسيطة لأخذ العينات يُسمى (Tabula)، الذي يقع بين نظام البيانات وأداة علم البيانات، لجعل عملية التحليل البشري التفاعلي المتأصل بطبيعتها أكثر سلاسة وتفاعلية.
أستاذ مساعد في علوم الحاسوب، جامعة ولاية أريزونا
ما هي احتمالية أن تنصح أصدقاءك بمشاهدة هذا الدرس؟