ডেটা মাইনিংকে বর্ণনামূলক বা ভবিষ্যদ্বাণীমূলক হিসাবে শ্রেণীবদ্ধ করা হয়। বর্ণনামূলক ডেটা মাইনিং হচ্ছে বিশাল ডেটা সেটগুলি অনুসন্ধান করা এবং ডেটাতে অপ্রত্যাশিত কাঠামো বা সম্পর্কগুলির অবস্থানগুলি, নিদর্শন, প্রবণতা, ক্লাস্টারগুলি এবং বিদেশীদের খুঁজে বের করা। অন্যদিকে, ভবিষ্যদ্বাণীমূলক হ'ল রিগ্রেশন, শ্রেণিবিন্যাস, প্যাটার্ন স্বীকৃতি, বা মেশিন লার্নিং কার্যগুলির জন্য মডেল এবং পদ্ধতিগুলি তৈরি করা এবং তাজা তথ্যগুলিতে প্রয়োগ করার সময় সেই মডেলগুলি এবং পদ্ধতিগুলির ভবিষ্যদ্বাণীপূর্ণ যথার্থতা মূল্যায়ন করা।
উচ্চ-মাত্রিক ডেটাতে নিদর্শন বা কাঠামো অনুসন্ধান করার জন্য ব্যবহৃত ব্যবস্থাগুলি ম্যানুয়াল বা স্বয়ংক্রিয় হতে পারে; অনুসন্ধানের জন্য ইন্টারেক্টিভভাবে একটি ডাটাবেস পরিচালন ব্যবস্থা জিজ্ঞাসা করা প্রয়োজন হতে পারে, বা এটি ভিজ্যুয়ালাইজেশন সফ্টওয়্যার ব্যবহার করে ডেটাতে অসাধারণতা খুঁজে পেতে পারে ent মেশিন-লার্নিংয়ের পদগুলিতে বর্ণনামূলক ডেটা মাইনিং নিরীক্ষণযোগ্য লার্নিং হিসাবে পরিচিত, যেখানে ভবিষ্যদ্বাণীমূলক ডেটা মাইনিং তদারকি করা শিক্ষণ হিসাবে পরিচিত।
ডেটা মাইনিংয়ে ব্যবহৃত বেশিরভাগ পদ্ধতি পরিসংখ্যান এবং মেশিন লার্নিংয়ে উন্নত পদ্ধতির সাথে সম্পর্কিত। এই পদ্ধতির মধ্যে সর্বাগ্রে হ'ল রিগ্রেশন, শ্রেণিবিন্যাস, ক্লাস্টারিং এবং ভিজ্যুয়ালাইজেশনের সাধারণ বিষয়। ডেটা সেটগুলির বিশাল আকারের কারণে, ডেটা মাইনিংয়ের প্রচুর অ্যাপ্লিকেশনগুলি মাত্রা-হ্রাস কৌশলগুলি (যেমন, পরিবর্তনশীল নির্বাচন) এবং এমন পরিস্থিতিতে যেগুলি উচ্চ-মাত্রিক ডেটা নিম্ন-মাত্রিক হাইপারপ্লেনের উপর পড়ে থাকতে পারে বলে সন্দেহ করে। সাম্প্রতিক মনোযোগ ননলাইনারি পৃষ্ঠ বা ম্যানিফোল্ডসগুলিতে থাকা উচ্চ মাত্রিক ডেটা সনাক্তকরণের পদ্ধতির দিকে পরিচালিত হয়েছে।
তথ্যের খনির ক্ষেত্রেও এমন পরিস্থিতি দেখা যায় যখন পরিসংখ্যানগত দিক থেকে - এর শাস্ত্রীয় অর্থে - এর কোনও অর্থ হয় না বা সন্দেহজনক বৈধতার হয়: পূর্ববর্তীটি ঘটে যখন উত্তরগুলি অনুসন্ধান করার জন্য আমাদের কাছে পুরো জনসংখ্যা থাকে এবং যখন পরে ডেটা সেট থাকে তখন ঘটে থাকে কিছু সুবিধাযুক্ত জনগোষ্ঠীর কাছ থেকে আঁকা এলোমেলো নমুনার চেয়ে "সুবিধা" নমুনা। যখন সময়ের মাধ্যমে ডেটা সংগ্রহ করা হয় (যেমন, খুচরা লেনদেন, শেয়ার-বাজারের লেনদেন, রোগীর রেকর্ড, আবহাওয়ার রেকর্ড), স্যাম্পলিংয়ের অর্থও বোধ হয় না; উপাত্ত তৈরির ঘটনাটি বোঝার জন্য পর্যবেক্ষণগুলির সময়-ক্রম অত্যন্ত গুরুত্বপূর্ণ, এবং পর্যবেক্ষণগুলিকে যখন স্বতঃসংশ্লিষ্ট হতে পারে তখন স্বাধীন হিসাবে বিবেচনা করা পক্ষপাতমূলক ফলাফল প্রদান করবে।
ডেটা মাইনিংয়ের কেন্দ্রীয় উপাদানগুলি হ'ল - পরিসংখ্যানগত তত্ত্ব এবং পদ্ধতিগুলি ছাড়াও - কম্পিউটিং এবং গণনা দক্ষতা, স্বয়ংক্রিয় ডেটা প্রসেসিং, গতিশীল এবং ইন্টারেক্টিভ ডেটা ভিজ্যুয়ালাইজেশন কৌশল এবং অ্যালগরিদম বিকাশ।
ডেটা মাইনিংয়ের সবচেয়ে গুরুত্বপূর্ণ বিষয়গুলির মধ্যে একটি হল স্কেলাবিলিটির গণ্য সমস্যা । ছোট এবং মাঝারি আকারের ডেটা সেটগুলিতে প্রয়োগ করার সময় স্ট্যান্ডার্ড অনুসন্ধান এবং নিশ্চিতকরণমূলক পরিসংখ্যান পদ্ধতির কম্পিউটিংয়ের জন্য বিকশিত অ্যালগরিদমগুলি দ্রুত এবং কম্পিউটিংয়ে দক্ষ করার জন্য ডিজাইন করা হয়েছিল; তবুও, এটি প্রদর্শিত হয়েছে যে এই আলগোরিদিমগুলির বেশিরভাগটি বিশাল ডেটা সেটগুলি পরিচালনা করার চ্যালেঞ্জের মধ্যে নেই। ডেটা সেট বাড়ার সাথে সাথে অনেকগুলি বিদ্যমান অ্যালগোরিদম নাটকীয়ভাবে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে বেড়ে যায়।