ডেটা মাইনিং এবং পরিসংখ্যান বিশ্লেষণের মধ্যে পার্থক্য কী?


19

ডেটা মাইনিং এবং পরিসংখ্যান বিশ্লেষণের মধ্যে পার্থক্য কী?

কিছু ব্যাকগ্রাউন্ডের জন্য, আমার পরিসংখ্যানগত শিক্ষাটি বরং আমি প্রচলিত বলে মনে করি। একটি নির্দিষ্ট প্রশ্ন পোস্ট করা হয়, গবেষণা নকশা করা হয়, এবং তথ্য সংগ্রহ করা হয় এবং বিশ্লেষণ করা হয় সেই প্রশ্নের উপর কিছু অন্তর্দৃষ্টি দেওয়ার জন্য। ফলস্বরূপ, আমি "ডেটা ড্রেজিং" হিসাবে বিবেচনা করা সম্পর্কে সর্বদা সন্দেহবাদী হয়েছি, অর্থাত্ একটি বড় ডেটাসেটে নিদর্শনগুলি অনুসন্ধান এবং সিদ্ধান্তগুলি আঁকতে এই নিদর্শনগুলি ব্যবহার করে। আমি পরবর্তীকে ডেটা মাইনিংয়ের সাথে যুক্ত করার প্রবণতা রাখি এবং সর্বদা এটিকে কিছুটা অবৈধিকভাবে বিবেচনা করেছি (অ্যালগোরিদমিক পরিবর্তনশীল নির্বাচনের রুটিনের মতো জিনিসগুলির সাথে)।

তবুও, ডেটা মাইনিং সম্পর্কিত একটি বৃহত এবং বর্ধমান সাহিত্য রয়েছে। প্রায়শই, আমি এই লেবেলটিকে ক্লাস্টারিং, ট্রি-ভিত্তিক শ্রেণিবিন্যাস ইত্যাদির মতো নির্দিষ্ট কৌশলগুলির উল্লেখ করে দেখছি, তবুও, আমার দৃষ্টিকোণ থেকে, এই কৌশলগুলি ডেটার একটি সেটে "আলগা সেট" করা যেতে পারে বা কাঠামোগতভাবে সম্বোধন করার জন্য কাঠামোগত উপায়ে ব্যবহার করা যেতে পারে প্রশ্ন। আমি পূর্ববর্তী ডেটা মাইনিং এবং পরবর্তী পরিসংখ্যান বিশ্লেষণকে কল করব।

আমি একাডেমিক প্রশাসনে কাজ করি এবং সমস্যা এবং সুযোগগুলি সনাক্ত করতে কিছু "ডেটা মাইনিং" করতে বলা হয়েছে। আমার পটভূমির সাথে সামঞ্জস্যপূর্ণ, আমার প্রথম প্রশ্নগুলি ছিল: আপনি কী শিখতে চান এবং এমন বিষয়গুলি যা আপনার ইস্যুতে অবদান রাখে বলে মনে করেন? তাদের প্রতিক্রিয়া থেকে, এটি পরিষ্কার ছিল যে আমি এবং প্রশ্ন করা ব্যক্তিটির ডেটা মাইনিংয়ের প্রকৃতি এবং মূল্য সম্পর্কে বিভিন্ন ধারণা ছিল।



3
এটির সদৃশ হলে আমি অনুমান করতে পারি যে ডেটা মাইনিং এবং মেশিন লার্নিং একই জিনিস!
জর্জ ডোনটাস

@ জর্জি ডোনটাস হ্যাঁ, আমি মন্তব্যগুলির একটি লিঙ্ক থেকে এখানে এসেছি যদি অন্য প্রশ্নে এমএল এবং ডেটা মাইনিংয়ের মধ্যে পার্থক্য রয়েছে তা দেখার আশায়।
ডিজেজি

উত্তর:


20

জেরোম ফ্রেডম্যান কিছুক্ষণ আগে একটি কাগজ লিখেছিলেন: ডেটা মাইনিং এবং স্ট্যাটিস্টিক্স: সংযোগটি কী? , যা আমি মনে করি আপনি আকর্ষণীয় পাবেন।

ডেটা মাইনিং ছিল মূলত বাণিজ্যিক উদ্বেগ এবং ব্যবসায়ের চাহিদা দ্বারা চালিত (বিক্রেতাদের ব্যবসায়ের কাছে সফ্টওয়্যার এবং হার্ডওয়্যার সিস্টেম বিক্রি করার "প্রয়োজন" এর সাথে মিলিত)। ফ্রিডম্যান একটি জিনিস লক্ষ্য করেছেন যে সমস্ত "বৈশিষ্ট্যগুলি" হাইপাইড হচ্ছে - অ্যালগরিদম এবং নিউরাল জাল জাতীয় পদ্ধতি থেকে শুরু করে জিইউআই চালিত ডেটা বিশ্লেষণ - এবং theতিহ্যগত পরিসংখ্যানের অফারগুলির কোনওটিই এই ব্যবস্থার কোনও অংশ বলে মনে হয় নি statistics (রিগ্রেশন, হাইপোথিসিস টেস্টিং ইত্যাদি)। "আমাদের মূল পদ্ধতিটি মূলত উপেক্ষা করা হয়েছে।" আপনি যে মন্তব্য করেছেন তার লাইন ধরে এটি ব্যবহারকারী হিসাবে চালিত হিসাবে বিক্রিও হয়েছিল: এখানে আমার ডেটা, এখানে আমার "ব্যবসায়িক প্রশ্ন", আমাকে একটি উত্তর দিন।

আমার মনে হয় ফ্রেডম্যান প্ররোচিত করার চেষ্টা করছিল। তিনি ভাবেননি যে ডেটা মাইনিংয়ের ক্ষেত্রে গুরুতর বৌদ্ধিক ধারণা রয়েছে যেখানে পদ্ধতিটি উদ্বেগযুক্ত ছিল, তবে এটি পরিবর্তিত হবে এবং পরিসংখ্যানবিদদের এটিকে উপেক্ষা করার পরিবর্তে একটি ভূমিকা পালন করা উচিত।

আমার নিজের ধারণাটি এটি কমবেশি ঘটেছে। লাইনগুলি অস্পষ্ট করা হয়েছে। পরিসংখ্যানবিদরা এখন ডেটা মাইনিং জার্নালে প্রকাশ করেন। আজকাল ডেটা মাইনারদের মনে হয় কিছু পরিসংখ্যানিক প্রশিক্ষণ রয়েছে। যদিও ডেটা মাইনিং প্যাকেজগুলি এখনও লিনিয়ার মডেলগুলিকে সাধারণীকরণ করে না, ক্লাস্টারিং এবং নিউরাল নেট ছাড়াও লজিস্টিক রিগ্রেশন বিশ্লেষকদের মধ্যে সুপরিচিত। সর্বোত্তম পরীক্ষামূলক ডিজাইন ডেটা মাইনিং কোরের অংশ নাও হতে পারে, তবে সফটওয়্যারটি পি-মানগুলিকে ছড়িয়ে দিতে কোক্সেক্স করা যেতে পারে। অগ্রগতি!


1
এটি একটি দুর্দান্ত কাগজ এবং ডেটা মাইনিং কী এবং আমার পরিসংখ্যানের সাথে এটি সামঞ্জস্যপূর্ণ যা এটি পরিসংখ্যান থেকে পৃথক। ধরাটা 1997 এর! কাগজ বা আপনার প্রস্তাবনার একটি অভিযোগ নোট করুন, তবে আমি ডেটা মাইনিংয়ের সাথে যে ডিগ্রি অবধি রেখেছি। মনে হচ্ছে ডেটা মাইনিংয়ের জন্য আমার একটি বর্তমান বই ধরতে হবে।
ব্রেট

হেই, আমি তারিখটি উদ্দেশ্য অনুসারে রেখেছি কারণ আমি ভেবেছিলাম সময়কালটি লক্ষ্য করা মজাদার হবে। :) মাইকেল বেরি এবং গর্ডন লিনফের বইগুলি বেশ ভাল এবং এটি পরিসংখ্যানবিদদের কাছে আবেদন করবে (পরিসংখ্যান কৌশলগুলি শেখার চেয়ে বিস্তৃত এক্সপোজারের জন্য)। আপনি যদি এই ক্ষেত্রটির অস্পষ্ট, "এন্টারপ্রাইজ" দিকটি অনুধাবন করতে চান তবে এসএএস এর এন্টারপ্রাইজ মাইনার বা এসপিএসএসের ক্লিমেন্টিনের মতো কোনও বিক্রেতার পণ্যের উপর যে কোনও বইয়ের সাহায্যে স্কিমিং সহায়তা করতে পারে। আপনি যদি পণ্যটির সাথে নিজেই কাজ না করেন তবে আমি সেগুলি কেনার পরামর্শ দেব না।
আর্স

10

পরিসংখ্যান এবং ডেটা মাইনিংয়ের মধ্যে পার্থক্য মূলত একটি historicalতিহাসিক, যেহেতু তারা বিভিন্ন traditionsতিহ্য থেকে এসেছে: পরিসংখ্যান এবং কম্পিউটার বিজ্ঞান। কৃত্রিম বুদ্ধিমত্তা এবং পরিসংখ্যানের ক্ষেত্রে কাজের বাইরে সমান্তরালভাবে ডেটা মাইনিং বৃদ্ধি পেয়েছিল।

উইটেন এবং ফ্রাঙ্কের বিভাগ 1.4 আমার দৃষ্টিভঙ্গিকে সংক্ষিপ্তসার করে তাই আমি এটির দৈর্ঘ্যে উদ্ধৃতি দিতে যাচ্ছি:

মেশিন লার্নিং এবং পরিসংখ্যানের মধ্যে পার্থক্য কী? সিনাইকরা, এই অঞ্চলে বাণিজ্যিক আগ্রহের (এবং হাইপ) বিস্ফোরণের দিকে কটাক্ষ করে তাকিয়ে, ডেটা মাইনিংকে পরিসংখ্যান এবং বিপণনের সাথে সমান করে। সত্য কথা বলতে গেলে, আপনাকে মেশিন লার্নিং এবং পরিসংখ্যানগুলির মধ্যে বিভাজক রেখাটির সন্ধান করা উচিত নয় কারণ তথ্য বিশ্লেষণ কৌশলগুলির একটি ধারাবাহিকতা - এবং এটিতে বহুমাত্রিক একটি রয়েছে। কিছু স্ট্যান্ডার্ড পরিসংখ্যান কোর্সে শেখানো দক্ষতা থেকে প্রাপ্ত, এবং অন্যরা কম্পিউটার বিজ্ঞানের ফলে যে ধরনের মেশিন লার্নিং তৈরি হয়েছিল তার সাথে আরও ঘনিষ্ঠভাবে জড়িত। .তিহাসিকভাবে, উভয় পক্ষের পরিবর্তে পৃথক .তিহ্য রয়েছে। যদি জোরের একক পার্থক্যের দিকে নির্দেশ করতে বাধ্য করা হয়, তবে এটি এমন হতে পারে যে পরিসংখ্যানগুলি হাইপোপিসগুলি পরীক্ষার সাথে আরও বেশি উদ্বিগ্ন হয়েছে,

অতীতে, খুব অনুরূপ পদ্ধতিগুলি মেশিন লার্নিং এবং পরিসংখ্যানের সমান্তরালে বিকাশ করেছে ...

তবে এখন দুটি দৃষ্টিভঙ্গি একত্রিত হয়েছে।

এনবি 1 আইএমও, ডেটা মাইনিং এবং মেশিন লার্নিং খুব নিবিড়ভাবে সম্পর্কিত পদগুলি। এক অর্থে, মেশিন লার্নিং কৌশলগুলি ডেটা মাইনিংয়ে ব্যবহৃত হয়। আমি নিয়মিতভাবে এই পদগুলিকে বিনিময়যোগ্য হিসাবে দেখতে পাই এবং যতক্ষণ না সেগুলি আলাদা, সেগুলি সাধারণত একসাথে যায়। আমি আমার মূল প্রশ্নটি থেকে "দুটি সংস্কৃতি" কাগজের পাশাপাশি অন্যান্য থ্রেডগুলি সন্ধান করার পরামর্শ দেব।

এনবি 2 "ডেটা মাইনিং" শব্দটির কোনও নেতিবাচক ধারণা ছাড়াই ডেটাতে কিছু অ্যালগোরিদম আলগাভাবে ছেড়ে দেওয়া বোঝার জন্য কথোপকথন হিসাবে ব্যবহার করার সময় একটি নেতিবাচক অর্থ হতে পারে। ধারণাটি হ'ল ডেটা মাইনিংয়ের কারণে উত্সাহজনক ফলাফল এবং ওভার-ফিটিং হবে। ফলস্বরূপ অ-বিশেষজ্ঞদের সাথে কথা বলার সময় আমি সাধারণত এই শব্দটি ব্যবহার করা এড়িয়ে চলি এবং এর পরিবর্তে মেশিন লার্নিং বা পরিসংখ্যান শেখার সমার্থক শব্দ হিসাবে ব্যবহার করি।


এনবি 2 সম্পর্কে - আমি মনে করি আপনি ডেটা মাইনিংয়ের অর্থটি সম্পর্কে ঠিক বলেছেন এবং আমি মেশিন লার্নিংয়ের সাথে সংযোগটি তৈরি করি নি। আমার প্রশিক্ষণ সর্বদা অতিরিক্ত ফিটনেস, উদ্দীপনা এবং সুযোগের মূলধনগুলির সমস্যাগুলিকে জোর দিয়েছিল এবং যেমন আমি ডিএম সম্পর্কে সন্দিহান ছিলাম - এবং এখনও রয়েছি, যতক্ষণ না কেউ আমাকে সত্যিই বলছেন যে তারা কী করছে এবং কীভাবে। ধন্যবাদ।
ব্রেট

1
এমএল / ডিএম পার্থক্য সম্পর্কে আমার একমাত্র বাচ্চাটি হ'ল আমি মনে করি ডিএম বিস্তৃত। উদাহরণস্বরূপ, ওএলএপি এবং সম্পর্কিত সরঞ্জামগুলির মধ্যে খনির প্রযুক্তি অন্তর্ভুক্ত রয়েছে। তবে এগুলি মেশিন লার্নিংয়ের পরিবর্তে কম্পিউটার বিজ্ঞানের ডাটাবেস দিক থেকে আসে। ডেটা মাইনিংয়ের "অর্থ" গঠনে বাণিজ্যের ভূমিকা উপেক্ষা করা শক্ত - এটি ম্যানেজমেন্ট সায়েন্স, অপারেশন গবেষণা, মেশিন লার্নিং এবং প্রয়োজনীয় পরিসংখ্যানের উপাদান নিয়ে আসে। এটি ক্ষতিকারক কিছুটির ধারণা দেয় তবে এটি সাধারণত চিকিত্সক নয় বরং বিশুদ্ধবাদীদের পক্ষে একটি সমস্যা।
আর্স

@ বার্স: আমি একমত আমি "মেশিন লার্নিং কৌশলগুলি ডেটা মাইনিংয়ে ব্যবহৃত হয়" (অর্থাৎ ডেটা মাইনিং একটি সুপার-সেট) বলে কিছুটা বলার চেষ্টা করছিলাম। বাণিজ্যিক অ্যাপ্লিকেশনগুলি সম্পর্কে আপনার পয়েন্টটিও স্পষ্ট। যদিও এখন কোনও বাণিজ্যিক অ্যাপ্লিকেশনে থাকা কোনও ব্যক্তি তাদের কাজটিকে অন্য কিছু হিসাবে উল্লেখ করতে পারে (যেমন "ডেটা বিজ্ঞান")।
শেন

ঠিক আছে, আমার বলা উচিত ছিল যে আপনি যা লিখেছিলেন তা না করে আমি পার্থক্যগুলি সরিয়ে দেওয়ার চেষ্টা করছি। ভুল দিকনির্দেশনার জন্য দুঃখিত। "ডেটা সায়েন্স" গ্রহণের মতো সময় এবং পদ পরিবর্তনের পক্ষে ভাল বক্তব্য। গ্যালম্যানের একটি বই কি "পরিসংখ্যান ডেটা বিজ্ঞান" এর মতো কিছু দিয়ে শুরু করে না? সুতরাং পরিসংখ্যানবিদদের কাছ থেকে তারা চুরি করছে। আবার। :)
Ars

8

ডেটা মাইনিংকে বর্ণনামূলক বা ভবিষ্যদ্বাণীমূলক হিসাবে শ্রেণীবদ্ধ করা হয়। বর্ণনামূলক ডেটা মাইনিং হচ্ছে বিশাল ডেটা সেটগুলি অনুসন্ধান করা এবং ডেটাতে অপ্রত্যাশিত কাঠামো বা সম্পর্কগুলির অবস্থানগুলি, নিদর্শন, প্রবণতা, ক্লাস্টারগুলি এবং বিদেশীদের খুঁজে বের করা। অন্যদিকে, ভবিষ্যদ্বাণীমূলক হ'ল রিগ্রেশন, শ্রেণিবিন্যাস, প্যাটার্ন স্বীকৃতি, বা মেশিন লার্নিং কার্যগুলির জন্য মডেল এবং পদ্ধতিগুলি তৈরি করা এবং তাজা তথ্যগুলিতে প্রয়োগ করার সময় সেই মডেলগুলি এবং পদ্ধতিগুলির ভবিষ্যদ্বাণীপূর্ণ যথার্থতা মূল্যায়ন করা।

উচ্চ-মাত্রিক ডেটাতে নিদর্শন বা কাঠামো অনুসন্ধান করার জন্য ব্যবহৃত ব্যবস্থাগুলি ম্যানুয়াল বা স্বয়ংক্রিয় হতে পারে; অনুসন্ধানের জন্য ইন্টারেক্টিভভাবে একটি ডাটাবেস পরিচালন ব্যবস্থা জিজ্ঞাসা করা প্রয়োজন হতে পারে, বা এটি ভিজ্যুয়ালাইজেশন সফ্টওয়্যার ব্যবহার করে ডেটাতে অসাধারণতা খুঁজে পেতে পারে ent মেশিন-লার্নিংয়ের পদগুলিতে বর্ণনামূলক ডেটা মাইনিং নিরীক্ষণযোগ্য লার্নিং হিসাবে পরিচিত, যেখানে ভবিষ্যদ্বাণীমূলক ডেটা মাইনিং তদারকি করা শিক্ষণ হিসাবে পরিচিত।

ডেটা মাইনিংয়ে ব্যবহৃত বেশিরভাগ পদ্ধতি পরিসংখ্যান এবং মেশিন লার্নিংয়ে উন্নত পদ্ধতির সাথে সম্পর্কিত। এই পদ্ধতির মধ্যে সর্বাগ্রে হ'ল রিগ্রেশন, শ্রেণিবিন্যাস, ক্লাস্টারিং এবং ভিজ্যুয়ালাইজেশনের সাধারণ বিষয়। ডেটা সেটগুলির বিশাল আকারের কারণে, ডেটা মাইনিংয়ের প্রচুর অ্যাপ্লিকেশনগুলি মাত্রা-হ্রাস কৌশলগুলি (যেমন, পরিবর্তনশীল নির্বাচন) এবং এমন পরিস্থিতিতে যেগুলি উচ্চ-মাত্রিক ডেটা নিম্ন-মাত্রিক হাইপারপ্লেনের উপর পড়ে থাকতে পারে বলে সন্দেহ করে। সাম্প্রতিক মনোযোগ ননলাইনারি পৃষ্ঠ বা ম্যানিফোল্ডসগুলিতে থাকা উচ্চ মাত্রিক ডেটা সনাক্তকরণের পদ্ধতির দিকে পরিচালিত হয়েছে।

তথ্যের খনির ক্ষেত্রেও এমন পরিস্থিতি দেখা যায় যখন পরিসংখ্যানগত দিক থেকে - এর শাস্ত্রীয় অর্থে - এর কোনও অর্থ হয় না বা সন্দেহজনক বৈধতার হয়: পূর্ববর্তীটি ঘটে যখন উত্তরগুলি অনুসন্ধান করার জন্য আমাদের কাছে পুরো জনসংখ্যা থাকে এবং যখন পরে ডেটা সেট থাকে তখন ঘটে থাকে কিছু সুবিধাযুক্ত জনগোষ্ঠীর কাছ থেকে আঁকা এলোমেলো নমুনার চেয়ে "সুবিধা" নমুনা। যখন সময়ের মাধ্যমে ডেটা সংগ্রহ করা হয় (যেমন, খুচরা লেনদেন, শেয়ার-বাজারের লেনদেন, রোগীর রেকর্ড, আবহাওয়ার রেকর্ড), স্যাম্পলিংয়ের অর্থও বোধ হয় না; উপাত্ত তৈরির ঘটনাটি বোঝার জন্য পর্যবেক্ষণগুলির সময়-ক্রম অত্যন্ত গুরুত্বপূর্ণ, এবং পর্যবেক্ষণগুলিকে যখন স্বতঃসংশ্লিষ্ট হতে পারে তখন স্বাধীন হিসাবে বিবেচনা করা পক্ষপাতমূলক ফলাফল প্রদান করবে।

ডেটা মাইনিংয়ের কেন্দ্রীয় উপাদানগুলি হ'ল - পরিসংখ্যানগত তত্ত্ব এবং পদ্ধতিগুলি ছাড়াও - কম্পিউটিং এবং গণনা দক্ষতা, স্বয়ংক্রিয় ডেটা প্রসেসিং, গতিশীল এবং ইন্টারেক্টিভ ডেটা ভিজ্যুয়ালাইজেশন কৌশল এবং অ্যালগরিদম বিকাশ।

ডেটা মাইনিংয়ের সবচেয়ে গুরুত্বপূর্ণ বিষয়গুলির মধ্যে একটি হল স্কেলাবিলিটির গণ্য সমস্যা । ছোট এবং মাঝারি আকারের ডেটা সেটগুলিতে প্রয়োগ করার সময় স্ট্যান্ডার্ড অনুসন্ধান এবং নিশ্চিতকরণমূলক পরিসংখ্যান পদ্ধতির কম্পিউটিংয়ের জন্য বিকশিত অ্যালগরিদমগুলি দ্রুত এবং কম্পিউটিংয়ে দক্ষ করার জন্য ডিজাইন করা হয়েছিল; তবুও, এটি প্রদর্শিত হয়েছে যে এই আলগোরিদিমগুলির বেশিরভাগটি বিশাল ডেটা সেটগুলি পরিচালনা করার চ্যালেঞ্জের মধ্যে নেই। ডেটা সেট বাড়ার সাথে সাথে অনেকগুলি বিদ্যমান অ্যালগোরিদম নাটকীয়ভাবে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে বেড়ে যায়।


8

ডেটা মাইনিং হ'ল কিছু সামান্য পার্থক্য সহ পরিসংখ্যান। আপনি এটিকে পুনরায় ব্র্যান্ডিং পরিসংখ্যান হিসাবে ভাবতে পারেন, কারণ পরিসংখ্যানবিদরা দয়ালু অদ্ভুত।

এটি প্রায়শই গণনা সংক্রান্ত পরিসংখ্যানগুলির সাথে সম্পর্কিত হয়, অর্থাত্ কম্পিউটারের মাধ্যমে কেবলমাত্র স্টাফই আপনি করতে পারেন।

ডেটা মাইনাররা বহুবিধ পরিসংখ্যানগুলির একটি উল্লেখযোগ্য অনুপাত চুরি করে এবং এটিকে তাদের নিজস্ব বলে। যে কোনও 1990 এর বহুগুণ বইয়ের সামগ্রীর টেবিলটি দেখুন এবং এটি একটি নতুন ডেটা মাইনিং বইয়ের সাথে তুলনা করুন। অনেকটাই একই রকম.

পরিসংখ্যান পরীক্ষার অনুমানের সাথে এবং মডেল বিল্ডিংয়ের সাথে যুক্ত, যেখানে ডেটা মাইনিং অনুধাবন এবং শ্রেণিবিন্যাসের সাথে আরও যুক্ত, বোধগম্য মডেল কিনা তা বিবেচনা না করেই।


1
সদৃশ কী? আমি সুস্পষ্ট কিছুই দেখতে পাচ্ছি না।
রব হ্যান্ডম্যান

1
আমি ভেবেছিলাম এটির
নীল ম্যাকগুইগান

1
ঠিক আছে. আমি ডেটা মাইনিংয়ের জন্য অনুসন্ধান করছিলাম, মেশিন লার্নিংয়ের জন্য নয়। আপনি যদি এটি সদৃশ মনে করেন তবে বন্ধ করতে ভোট দিন।
রব হ্যান্ডম্যান

হুঁ, তাই ডেটা মাইনিং == মেশিন লার্নিং?
Ars

1
1) আমি কমপ স্ট্যাট পার্থক্য দেখছি না। পরিসংখ্যানবিদদের এমন কোনও কিছু নেই যা কম্পিউটারের প্রয়োজন হয় না। আমি মনে করি আপনি গণনাগতভাবে নিবিড় পদ্ধতি যেমন পুনরাবৃত্ত সমাধানগুলি ইত্যাদির অর্থ বোঝায়? তবে, আধুনিক পরিসংখ্যান সংক্রান্ত এগুলিও সাধারণ যা ডেটা মাইনিং নয়। 2) আমার নিজের (পরিসংখ্যান) কাজের ক্ষেত্রে, আমি সমস্যার উপর নির্ভর করে ব্যাখ্যা এবং পূর্বাভাসের জন্য মডেল বিল্ডিংয়ে আগ্রহী ছিলাম-আমি সেই ডেটা মাইনিং বিবেচনা করতাম না। 3) আমি এই সিদ্ধান্তে পৌঁছে গেছি যে আধুনিক ডিএম হ'ল পরিসংখ্যানগুলির একটি বিশেষ প্রয়োগ, যা আমি মনে করি এটি একটি দুর্দান্ত উপসংহার।
ব্রেট

6

আমি আগে একটি পোস্ট লিখেছিলাম যেখানে আমি মনোবিজ্ঞানের সাথে ডেটা মাইনিংয়ের সাথে তুলনা করে কয়েকটি পর্যবেক্ষণ করেছি। আমি মনে করি এই পর্যবেক্ষণগুলি আপনি চিহ্নিত করছেন এমন কিছু পার্থক্যকে ক্যাপচার করতে পারে:

  1. "ডেটা মাইনিং প্রচ্ছন্ন ভেরিয়েবলের কার্যকারিতাটি বোঝার চেয়ে পর্যবেক্ষিত ভেরিয়েবলগুলি ব্যবহারের পূর্বাভাসের সাথে আরও বেশি উদ্বিগ্ন বলে মনে হয়; মনস্তত্ত্ব সাধারণত সুপ্ত ভেরিয়েবলের কার্যকারণ ব্যবস্থার সাথে বেশি উদ্বিগ্ন।
  2. ডেটা মাইনিংয়ে সাধারণত ডেটা মাইনিংয়ের উদ্দেশ্য ব্যতীত অন্য কোনও উদ্দেশ্যে সংগ্রহ করা বিশাল ডেটাসেটগুলি (যেমন 10,000+ সারি) জড়িত। মনস্তাত্ত্বিক ডেটাসেটগুলি সাধারণত ছোট (উদাহরণস্বরূপ, 1,000 বা 100 টিরও কম) এবং একটি গবেষণা প্রশ্ন অন্বেষণ করার জন্য স্পষ্টভাবে সংগ্রহ করা হয়।
  3. মানসিক বিশ্লেষণ সাধারণত নির্দিষ্ট মডেল পরীক্ষা জড়িত। স্বয়ংক্রিয় মডেল বিকাশের পদ্ধতির তাত্ত্বিকভাবে আকর্ষণীয় না হয়ে থাকে to "- ডেটা মাইনিং এবং আর

আমি মনে করি 2 এবং 3 পয়েন্টগুলি দরকারী মন্তব্যগুলি এবং যা আমি দুটি এসএ এবং ডিএম এর মধ্যে পার্থক্য হিসাবে দেখছি তার সাথে সামঞ্জস্যপূর্ণ। আমি আপনার প্রথম পয়েন্ট সম্পর্কে খুব নিশ্চিত না। আমি পরিসংখ্যানমূলক কাজ করেছি যেখানে আমি কার্যকারিতা সম্পর্কে বোঝার উন্নতিতে আগ্রহী ছিলাম। তবে, আমি পরিসংখ্যানমূলক কাজও করেছি যেখানে কাজটি ছিল পরিচিত সম্পর্কগুলি গ্রহণ করা এবং পূর্বাভাসের একমাত্র উদ্দেশ্য নিয়ে মডেলগুলি বিকাশ করা যা "ডেটা মাইনিং" এর অন্যান্য বৈশিষ্ট্যগুলির সাথে ভাগ করে নিল।
ব্রেট

4

আমার মনে হয় না যে পার্থক্যটি আপনি করেছেন তা ডেটা মাইনিং এবং পরিসংখ্যান বিশ্লেষণের মধ্যে পার্থক্যের সাথে সম্পর্কিত related আপনি অনুসন্ধান বিশ্লেষণ এবং মডেলিং-ভবিষ্যদ্বাণী পদ্ধতির মধ্যে পার্থক্য সম্পর্কে কথা বলছেন।

আমি মনে করি স্ট্যাটিসিকের traditionতিহ্যটি সমস্ত পদক্ষেপগুলি নিয়ে নির্মিত: অনুসন্ধান বিশ্লেষণ, তারপরে মডেলিং, তারপরে অনুমান, তারপরে পরীক্ষণ, তারপরে পূর্বাভাস / ইনফারিং। পরিসংখ্যানবিদ ডেটা দেখতে কেমন তা নির্ধারণ করার জন্য অনুসন্ধানী বিশ্লেষণ করেন (আর এর অধীনে ফাংশন সংক্ষিপ্তসার!) আমি অনুমান করি যে ডেটামিনিং কম কাঠামোগত এবং এটি অনুসন্ধানী বিশ্লেষণের সাথে চিহ্নিত করা যেতে পারে। তবে এটি পরিসংখ্যান থেকে কৌশলগুলি ব্যবহার করে যা অনুমান, পূর্বাভাস, শ্রেণিবিন্যাস থেকে ....


আমি এটি কিনতে পারি। ডেটা মাইনিং পরিসংখ্যানগত কৌশলগুলির আরও অনুসন্ধানের প্রয়োগ application যদিও, আমি মনে করি না যে পার্থক্য যথেষ্ট। যখন আমি একটি নকশা করা পরীক্ষা থেকে আমার 100 টি পর্যবেক্ষণের সেটটিতে ইডিএ করছি, তখন আমার মনে হয় না যে কেউ সেই ডেটা মাইনিংকে কল করবে, তারা কি করবে?
ব্রেট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.