খাঁটি ভবিষ্যদ্বাণীমূলক মডেলিং করার সময় কি অনুসন্ধানের ডেটা বিশ্লেষণ গুরুত্বপূর্ণ?


23

মেশিন লার্নিং কৌশলগুলি ব্যবহার করে ভবিষ্যদ্বাণীপূর্ণ মডেল তৈরি করার সময়, অনুসন্ধানের ডেটা বিশ্লেষণ (ইডিএ) করার কী লাভ? বৈশিষ্ট্য উত্পন্ন করতে এবং আপনার মডেল (গুলি) তৈরি করতে সোজা ঝাঁপ দেওয়া কি ঠিক আছে? ইডিএ-তে বর্ণনামূলক পরিসংখ্যান কীভাবে গুরুত্বপূর্ণ?


6
আপনি "অনুসন্ধানের তথ্য বিশ্লেষণ" সম্পর্কে জিজ্ঞাসা করেন, তবে আপনি ট্যাগটিও অন্তর্ভুক্ত করেন [descriptive-statistics]এবং বর্ণনামূলক পরিসংখ্যান গুরুত্বপূর্ণ কিনা তা আপনার চূড়ান্ত প্রশ্ন। এই প্রসঙ্গে আপনি যখন ইডিএর কথা উল্লেখ করেন তখনই কেবল বিভিন্ন বর্ণনামূলক পরিসংখ্যানের গণনা করা বা আপনি বর্ণনামূলক পরিসংখ্যান এবং ইডিএ উভয় সম্পর্কে জিজ্ঞাসা করছেন? আমি জিজ্ঞাসা করি কারণ অনেক লোক (আমাকে সহ) ইডিএকে কেবল বর্ণনামূলক পরিসংখ্যানের চেয়ে বেশি মনে করে।
গুং - মনিকা পুনরায়

"ফিচার জেনারেশন" আসলে কী? এটি কি কোনও অনুসন্ধানের প্রক্রিয়া নয়?
আইনার

5
ইদানীং, আমাকে ৩ individuals জন দ্বারা 224 টি পর্যবেক্ষণ দেওয়া হয়েছে। আমি অন্যদের মধ্যে তদন্ত করার পরিকল্পনা করেছিলাম- লিঙ্গ / লিঙ্গের প্রভাব, যখন বর্ণনামূলক বিশ্লেষণ আমাকে বলেছিল, সেখানে 36 জন মহিলা এবং 1 জন পুরুষ ছিল। এই বর্ণনামূলক পরিসংখ্যানের কারণে, আমি লিঙ্গ / লিঙ্গ সম্পর্কিত সমস্ত বিশ্লেষণ বাদ দিয়েছি। এটি আমার কাছে গুরুত্বপূর্ণ ছিল কারণ বর্ণনাগুলি আমার মডেল বিল্ডিং প্রক্রিয়াটিকে প্রভাবিত করেছিল। এখানে ডেটা সম্পর্কে আরও তথ্য দেখুন stats.stackexchange.com/questions/352015/…
বার্নহার্ড

উত্তর:


47

খুব বেশি দিন আগে, আমার একটি ডেটা সায়েন্স পজিশনের জন্য একটি সাক্ষাত্কার টাস্ক ছিল। আমাকে একটি ডেটা সেট দেওয়া হয়েছিল এবং কয়েক ঘন্টা সময়সীমার সাথে অন্যদের দেওয়া নির্দিষ্ট বাইনারি ভেরিয়েবলের পূর্বাভাস দেওয়ার জন্য একটি ভবিষ্যদ্বাণীমূলক মডেল তৈরি করতে বলা হয়েছিল।

আমি পরিবর্তিত প্রতিটি ভেরিয়েবলের মধ্য দিয়ে গিয়েছিলাম, তাদের গ্রাফিকিং, সংক্ষিপ্ত পরিসংখ্যান ইত্যাদি গণনা করে আমি সংখ্যার ভেরিয়েবলগুলির মধ্যে পারস্পরিক সম্পর্কও গণনা করেছি।

আমি যে জিনিসগুলি পেয়েছি সেগুলির মধ্যে ছিল:

  • একটি স্পষ্টতামূলক পরিবর্তনশীল লক্ষ্যটির সাথে প্রায় পুরোপুরি মেলে।
  • দুই বা তিনটি ভেরিয়েবলের অর্ধেকেরও বেশি মান অনুপস্থিত ছিল।
  • বেশ কয়েকটি ভেরিয়েবলের চরম বহিরাগত ছিল।
  • দুটি সাংখ্যিক ভেরিয়েবল পুরোপুরি সম্পর্কযুক্ত ছিল।
  • প্রভৃতি

আমার বক্তব্যটি হ'ল এগুলি সেই জিনিসগুলি ছিল যা মডেল তৈরির চেষ্টা করার আগে লোকেরা তাদের লক্ষ্য করবে কিনা তা জানার জন্য রেখে দেওয়া হয়েছিল । সংস্থাটি তাদের এনেছিল কারণ এগুলি হ'ল ধরণের জিনিস যা বাস্তব জীবনে ঘটতে পারে এবং মডেলের কার্য সম্পাদনকে মারাত্মকভাবে প্রভাবিত করে।

হ্যাঁ, ইডিএ মেশিন লার্নিং করার সময় গুরুত্বপূর্ণ!


8
আমি যখন শিক্ষার্থীদের অ্যাসাইনমেন্ট দিই, আমি প্রায়শই এটিও করি ;-)।
গুং - মনিকা পুনরায়

14

অবশ্যই, হ্যাঁ

ডেটা বিশ্লেষণ আপনাকে অনেকগুলি পয়েন্টে নিয়ে যেতে পারে যা আপনার ভবিষ্যদ্বাণীমূলক মডেলটিকে আঘাত করবে:

অসম্পূর্ণ ডেটা

ধরে নিই আমরা পরিমাণগত ডেটা নিয়ে কথা বলছি, আপনি সিদ্ধান্ত নিতে হবে আপনি কলামটি উপেক্ষা করতে চান (যদি খুব বেশি ডেটা অনুপস্থিত থাকে) অথবা আপনার "ডিফল্ট" মানটি কী হবে তা নির্ধারণ করতে হবে (গড়, মোড, ইত্যাদি)। আপনি প্রথমে আপনার ডেটা অন্বেষণ না করে এটি করতে পারবেন না।

অস্বাভাবিক ডেটা

আপনি ডাটা যে বেশ জোরালোভাবে সম্পর্কিত করা হয় কিন্তু আছে আপনার ডেটার একটি 2% হল না, তারা বলে উপায় এই পারস্পরিক সম্পর্ক বন্ধ। আপনার ভবিষ্যদ্বাণীমূলক মডেলটিকে সহায়তা করতে আপনি এই ডেটা পুরোপুরি সরিয়ে দিতে চাইবেন

অত্যধিক সম্পর্কযুক্ত কলামগুলি সরান

ঠিক আছে এটি আমার পূর্ববর্তী পয়েন্টটিকে সামান্য বিপরীতমুখী করে তবে ইংরেজি আমার মূল ভাষা নয় তাই আমি আশা করি আপনি বুঝতে পারবেন।

আমি একটি বোবা উদাহরণ গ্রহণ করব, বলুন আপনি কোনও ফুটবলের স্টেডিয়ামের ডেটাসেট বিশ্লেষণ করুন এবং আপনার Width, Length, Areaপরামিতি রয়েছে। ঠিক আছে, আমরা সহজেই ধারণা করতে পারি যে এই তিনটি পরামিতি দৃ strongly়ভাবে সম্পর্কযুক্ত হবে। আপনার কলামের মধ্যে অত্যধিক সম্পর্ক থাকার কারণে ভবিষ্যদ্বাণীমূলক মডেলটিকে একটি ভুল দিকে নিয়ে যায়। আপনি প্যারামিটারগুলির এক বা একাধিক ফ্লাশ করার সিদ্ধান্ত নিতে পারেন।

নতুন বৈশিষ্ট্যগুলি সন্ধান করুন

আমি ছোট টাইটানিক কাগল "প্রতিযোগিতা" এর উদাহরণ নেব । লোকদের নাম তাকানোর সময়, আপনি বুঝতে পারবেন যে আপনি Titleকোনও ব্যক্তির বৈশিষ্ট্যটি বের করতে পারেন । মডেলিংয়ের ক্ষেত্রে এই বৈশিষ্ট্যটি বেশ গুরুত্বপূর্ণ হয়ে দাঁড়িয়েছে, তবে আপনি যদি প্রথমে আপনার ডেটা বিশ্লেষণ না করেন তবে আপনি এটিটি মিস করবেন।

আপনি আপনার অবিচ্ছিন্ন ডেটা বিনের সিদ্ধান্ত নিতে পারেন কারণ এটি আরও উপযুক্ত বোধ করে বা একটি অবিচ্ছিন্ন বৈশিষ্ট্যটিকে শ্রেণীবদ্ধে পরিণত করে।

কোন ধরণের অ্যালগরিদম ব্যবহার করতে হবে তা সন্ধান করুন

আমি এখনই প্লট আঁকতে পারি না, তবে আসুন এটির একটি সাধারণ উদাহরণ।

কল্পনা করুন যে আপনার কাছে একটি বৈশিষ্ট্য কলাম এবং একটি বাইনারি (কেবল 0 বা 1) "ফলাফল" কলাম সহ একটি ছোট মডেল রয়েছে। আপনি এই ডেটাসেটের জন্য ভবিষ্যদ্বাণীমূলক শ্রেণিবদ্ধকরণ মডেল তৈরি করতে চান।

যদি, উদাহরণস্বরূপ, আপনি আবার এটি প্লট করার জন্য ছিলেন (তাই, আপনার ডেটা বিশ্লেষণ করুন), আপনি বুঝতে পারেন যে প্লটটি আপনার 1 মানের চারপাশে একটি নিখুঁত বৃত্ত তৈরি করে। এ জাতীয় দৃশ্যে, যদি আপনি স্পষ্টতই স্পষ্ট হন যে আপনি সরাসরি ডিএনএন-তে লাফানোর পরিবর্তে একটি দুর্দান্ত মডেল তৈরি করতে বহুপদী শ্রেণিবদ্ধ ব্যবহার করতে পারেন। (স্পষ্টতই, আমার উদাহরণে দুটি মাত্র কলাম রয়েছে তা বিবেচনা করে, এটি একটি দুর্দান্ত উদাহরণ তৈরি করে না, তবে আপনি পয়েন্টটি পান)

সামগ্রিকভাবে, আপনি যদি ডেটাটি প্রথমে না দেখেন তবে আপনি কোনও ভবিষ্যদ্বাণীমূলক মডেলটি ভাল পারফরম্যান্সের আশা করতে পারবেন না।


8

ইডিএর দ্বারা করা একটি গুরুত্বপূর্ণ কাজ হ'ল ডেটা এন্ট্রি ত্রুটি এবং অন্যান্য ব্যতিক্রমী বিষয়গুলি খুঁজে পাওয়া।

আরেকটি হ'ল ভেরিয়েবলগুলির বিতরণ আপনার মাপতে চেষ্টা করা মডেলগুলিকে প্রভাবিত করতে পারে।


8

রসায়নের ক্ষেত্রে আমাদের একটি বাক্যাংশ ছিল:

" ল্যাবটিতে কাটানো দুই সপ্তাহ আপনাকে স্কিফিন্ডারে দুটি ঘন্টা বাঁচাতে পারে "।

আমি নিশ্চিত যে একই জিনিস মেশিন লার্নিংয়ের ক্ষেত্রে প্রযোজ্য:

" দুই সপ্তাহ ব্যয় করা নিউরালনেট আপনাকে ইনপুট ডেটা দেখে 2 ঘন্টা বাঁচাতে পারে "।

যে কোনও এমএল প্রক্রিয়া শুরু করার আগে এই জিনিসগুলি আমিই পেরেছি।

  • প্রতিটি (অবিচ্ছিন্ন) ভেরিয়েবলের ঘনত্ব প্লট করুন। সংখ্যাগুলি কীভাবে বিদ্ধ? ডেটা বোধগম্য করার জন্য আমার কি লগের রূপান্তর দরকার? বহিরাগতরা কতটা দূরে? এমন কোনও মান আছে যা শারীরিক বা যৌক্তিক ধারণা তৈরি করে না?
  • এনএগুলির জন্য নজর রাখুন। সাধারণত, আপনি কেবল এগুলি বাতিল করতে পারেন, তবে যদি তাদের মধ্যে অনেকগুলি থাকে, বা যদি তারা সিস্টেমটির আচরণের জন্য কোনও গুরুত্বপূর্ণ দিক উপস্থাপন করে তবে আপনাকে ডেটা পুনরুদ্ধারের উপায় খুঁজে বের করতে হবে। এটি নিজেই এবং একটি প্রকল্প হতে পারে।
  • প্রতিক্রিয়া ভেরিয়েবলের বিপরীতে প্রতিটি ভেরিয়েবল প্লট করুন। চোখের জল ফেলে আপনি এটিকে কতটা বোঝাতে পারবেন? ফাংশন সঙ্গে সজ্জিত করা যেতে পারে যে সুস্পষ্ট বক্ররেখা আছে?
  • আপনার প্রথমে জটিল এমএল মডেল দরকার কিনা তা নির্ধারণ করুন। কখনও কখনও লিনিয়ার রিগ্রেশন আপনার সত্যই প্রয়োজন হয়। তা না হলেও এটি আপনার এমএল মডেলের উন্নতি করার জন্য একটি ভাল বেসলাইন ফিট সরবরাহ করে।

এই প্রাথমিক পদক্ষেপের বাইরে, এমএল প্রক্রিয়াগুলিতে এটি প্রয়োগ করার আগে আমি ডেটা দেখার জন্য অতিরিক্ত অতিরিক্ত সময় ব্যয় করব না। আপনার যদি ইতিমধ্যে প্রচুর পরিমাণে ভেরিয়েবল থাকে, তবে তাদের মধ্যে জটিল ননলাইনার সংমিশ্রণগুলি কেবল সন্ধান করা নয়, প্লট করা এবং বোঝাও ক্রমশ কঠিন হয়ে উঠছে। এটি কম্পিউটারের মাধ্যমে হ্যান্ডলগুলি সাজানো সর্বোত্তম।


6

পরিসংখ্যানগত দৃষ্টিকোণ:

মডেলিংয়ের পর্যায়ে ত্রুটিগুলি বাদ দিয়ে প্রথমে ইডিএ না করে ভবিষ্যদ্বাণী করার চেষ্টা থেকে তিনটি সম্ভাব্য ফলাফল রয়েছে:

  1. পূর্বাভাস সুস্পষ্ট বাজে ফলাফল দেয়, কারণ আপনার ইনপুট ডেটা আপনার পূর্বাভাস পদ্ধতির অনুমানকে লঙ্ঘন করেছে। সমস্যাটি কোথায় রয়েছে তা জানতে আপনাকে এখন ফিরে যেতে হবে এবং ইনপুটগুলি পরীক্ষা করতে হবে, তারপরে সমস্যাটি ঠিক করুন এবং বিশ্লেষণটি আবার করুন। সমস্যার প্রকৃতির উপর নির্ভর করে আপনার এমনকি আপনার পূর্বাভাসের পদ্ধতিগুলি পরিবর্তন করতে হতে পারে। (আপনার অর্থ কী, এটি একটি স্বতন্ত্র পরিবর্তনশীল?)
  2. পূর্বাভাস ফলাফল দেয় যা খারাপ তবে স্পষ্টতই খারাপ নয় কারণ আপনার ডেটা কিছুটা কম সুস্পষ্ট উপায়ে অনুমানকে লঙ্ঘন করেছে। হয় আপনি ফিরে যান এবং যাইহোক যাইহোক এই অনুমানগুলি পরীক্ষা করুন (এই ক্ষেত্রে, উপরে # 1 দেখুন) বা আপনি খারাপ ফলাফল গ্রহণ করেন accept
  3. সৌভাগ্যক্রমে, আপনার ইনপুট ডেটা হ'ল আপনি যা প্রত্যাশা করেছিলেন ঠিক তা হ'ল (আমি বুঝতে পারি এটি মাঝে মধ্যে ঘটেছিল) এবং ভবিষ্যদ্বাণীটি ভাল ফলাফল দেয় ... যা দুর্দান্ত হবে, আপনি যদি এই এবং # এর মধ্যে পার্থক্য বলতে পারবেন না 2 উপরে।

প্রকল্প-পরিচালনার দৃষ্টিভঙ্গি:

ডেটা সমস্যাগুলি সমাধান করা একটি উল্লেখযোগ্য পরিমাণ সময় এবং প্রচেষ্টা নিতে পারে। এই ক্ষেত্রে:

  • ডেটাটি নোংরা এবং এটি পরিষ্কার করার জন্য আপনার প্রক্রিয়া বিকাশের জন্য সময় ব্যয় করতে হবে। (উদাহরণস্বরূপ: সময় আমি কোডে সমস্ত লোক যারা জানুয়ারিতে ভুল বছর লিখতে থাকো জন্য একটি স্বতঃ-সংশোধন, এবং মানুষ প্রবেশ যারা ছিল তারিখ মধ্যে বছর ক্ষেত্র, এবং সিস্টেম যে DD / MM / হল YYYY হিসাবে তারিখ পার্স করা হয় ডিডি / এমএম / ওয়াইওয়াইওয়াইয়ের পরিবর্তে)
  • ডেটাটির অর্থ কী তা সম্পর্কে আপনাকে প্রশ্ন জিজ্ঞাসা করতে হবে এবং কেবল জোয়ান তাদের উত্তর দিতে পারে। জোয়ান ছয় মাসের ছুটিতে যাচ্ছেন, আপনার প্রকল্প শুরু হওয়ার দুই সপ্তাহ পরে শুরু হবে।
  • ডেটা সীমাবদ্ধতাগুলি আপনাকে বিতরণ করার উদ্দেশ্যে যা কিছু ছিল তা সরবরাহ করা থেকে বাধা দেয় (সিএফ। বার্নহার্ডের লিঙ্গ / লিঙ্গ দ্বারা বিশ্লেষণ উত্পাদন করতে অক্ষম হওয়ার উদাহরণ কারণ ডেটা সেটটিতে কেবলমাত্র একজন মহিলা ছিল) এবং আপনার / আপনার ক্লায়েন্টদের কী করতে হবে তা নির্ধারণ করতে হবে ।

এর আগে আপনি এই জাতীয় সমস্যাগুলি সনাক্ত করতে পারবেন, আপনার প্রকল্পটিকে রেলগুলিতে রাখার, সময়মতো শেষ করার এবং আপনার ক্লায়েন্টকে খুশি করার সম্ভাবনাগুলি তত ভাল।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.