در فرایند استخراج داده نیز صحیحتر آن است که از اصطلاح استخراج “دانش از داده” استفاده شود، که متأسفانه این عبارت نیز تا حدودی طولانی است. اگرچه اصطلاح کوتاهتر استخراج دانش ممکن است تأکید ما بر عملیات استخراج دانش از حجم زیادی داده را منعکس ننماید، ولی با این حال، میتوان استخراج را واژهای در نظر گرفت که به وضوح فرایند یافتن مجموعههای کوچک قطعات گرانبها را از میان مقدار زیادی از مواد خام توصیف میکند. بدین ترتیب، چنین اسم بیمسمایی تشکیل شده از دو واژه “داده” و “استخراج” به انتخابی محبوب مبدل گردید. علاوه بر این، اصطلاحات زیاد دیگری نیز با معنایی مشابه با دادهکاوی وجود دارند که از آن جمله میتوان استخراج دانش از داده، استخراج دانش، تجزیه و تحلیل الگو یا داده، باستانشناسی داده و لایروبی داده را نام برد.
بسیاری از مردم اصطلاح داده کاوی را به عنوان مترادف واژه مصطلح دیگر آن یعنی کشف دانش از داده به کار میبرند. این موضوع در حالی است که دیگران داده کاوی را صرفا به عنوان گامی اساسی در فرایند کشف دانش میدانند. فرایند کشف دانش فرایندی است که مراحل متوالی و تکرار شونده زیر را در برمیگیرد:
- پاکسازی داده (به منظور حذف دادههای متناقض)
- یکپارچهسازی داده (که ممکن است در آن منابع چندگانه داده ترکیب گردند)
- انتخاب داده (که در آن دادههای مربوط به عملیات تجزیه و تحلیل از پایگاه داده بازیابی میشود)
- تغییر شکل داده (که طی آن دادهها به منظور انجام عملیات استخراج به وسیله خلاصهسازی یا تجمیع به فرمهای مناسب تغییر شکل داده میشوند)
- داده کاوی (فرایندی اساسی که طی آن از روشهای هوشمند برای استخراج الگوهای داده استفاده میشود)
- ارزیابی الگو (برای شناسایی الگوهای جالبی که دانش را در اندازههای جالب توجه نشان میدهد)
- ارایه دانش (که در آن از تکنیکهای تجسمی و نمایشی برای ارایه دانش استخراج شده به کاربران استفاده میشود)
طی مراحل ۱ تا ۴ اشکال مختلف پیش پردازش برای آماده شدن داده برای استخراج انجام میشود. مرحله استخراج داده ممکن است در تعامل با کاربر و یا یک پایگاه دانش انجام شود الگوهای جالبی که استخراج شده برای کاربر نمایش داده میشود و در صورت تأیید کاربر به عنوان دانش جدید در پایگاه دانش ذخیره میشود (برگرفته شده از کتاب داده کاوی ترجمه دکتر حاجی حیدری و مهندس خاکباز، انتشارات دانشگاه تهران).