12

دی

5

علاقه‌مند

زمان ثبت نام این رویداد به اتمام رسیده است . در صورتی که تا به حال ثبت نام نکرده‌اید به دفتر شاخه‌ مراجعه کنید.

گذری بر نظیریابی در داده‌های بزرگ

Adel
گذری بر نظیریابی در داده‌های بزرگ

روزی روزگاری: عمده‌ی داده‌های دنیا، ساخت‌یافته بودند. مدل‌های گوناگون پایگاهی، از سلسله‌مراتبی و شبکه‌ای تا مدل رابطه‌ای، برای مدیریت و استخراج اطلاعات ابداع شده و مورد بهره‌برداری قرار گرفته‌اند. در سال‌ها و دهه‌های اخیر، اما، عمده‌ی داده‌های تولیدشده، خصوصا در فضای وب، غیرساخت‌یافته و نیمه‌ساخت‌یافته هستند. داده‌های مربوط به موضوعات یکسان یا مرتبط، در قالب‌های متفاوت و گوناگونی عرضه می‌شوند (مانند صفحات HTML و متون زبان طبیعی)، و حاوی مقادیر قابل ملاحظه‌ای نویز هستند. از همین رو، تجمیع این داده‌ها در قالب یک مدل داده‌ای یکپارچه ، از جهت ارتقاء کیفیت داده‌ها، مدیریت حجم آنها و امکان اعمال روش‌های گوناگون استخراج اطلاعات و دانش، حائز اهمیت است. روش‌های نوین تجمیع داده‌ها (Data Integration) باید امکان یکنواخت‌سازی حجم بسیار زیادی از داده‌ها را با کیفیت بالا، در زمان قابل‌قبول و باکمترین میزان دخالت عامل انسانی فراهم آورند.
در این گفتار، فرآیند نظیریابی داده‌ها (Data Matching)، یکی از فرآیندهای مهم در سامانه‌های تجمیع، درچهارچوب پردازش داده‌های بزرگ، مورد بررسی اجمالی قرار می‌گیرد. هدف از نظیریابی، یافتن اقلام داده‌ای یکسان در پایگاه‌های گوناگون است. به‌عنوان مثال، چنین سامانه‌ای باید قادر به تشخیص یکسان بودن دو رکورد (محمد رضا لطفی، نوازنده تار) و (م. ر. لطفی، تارنواز) باشد. در ادامه، مراحل مختلف این فرآیند، چالش‌های پیش رو، و برخی راه‌حل‌های پیشنهادشده مورد اشاره قرار خواهند گرفت.
شنبه ۶/۱۰/۹۳ ساعت ۱۲:۳۰ تا ۱۳:۳۰ کلاس ۸۰۳ طبقه هشتم ساختمان جدید دانشکده‌ی مهندسی برق و کامپیوتر

روز ساعت مدت