শুধুমাত্র প্রশিক্ষণ ডেটাसेटে অনুসন্ধানের ডেটা বিশ্লেষণ করা কি আরও ভাল?


15

আমি একটি ডেটাসেটে অনুসন্ধানের তথ্য বিশ্লেষণ (ইডিএ) করছি। তারপরে আমি নির্ভরশীল ভেরিয়েবলের পূর্বাভাস দেওয়ার জন্য কয়েকটি বৈশিষ্ট্য নির্বাচন করব।

প্রশ্নটি হল:
আমি কি আমার প্রশিক্ষণ ডেটাসেটের জন্য ইডিএ করব? বা আমি কি প্রশিক্ষণ এবং টেস্ট ডেটাসেটগুলিতে একসাথে যোগদান করতে পারি তবে তাদের উভয়ের বিষয়ে ইডিএ করা এবং এই বিশ্লেষণের ভিত্তিতে বৈশিষ্ট্যগুলি নির্বাচন করতে হবে?

উত্তর:


6

আমি "7.10.2 ভুল ও সঠিক ভাবে ক্রস-বৈধতা থেকে" মধ্যে কটাক্ষপাত থাকার পরামর্শ চাই http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf

লেখকরা একটি উদাহরণ দিয়েছেন যার মধ্যে কেউ নিম্নলিখিত কাজগুলি করে:

  1. ভবিষ্যদ্বাণীকারীদের স্ক্রিন করুন: ক্লাস লেবেলের সাথে মোটামুটি দৃ strong় (অদ্বিতীয়) পারস্পরিক সম্পর্ক দেখানো "ভাল" ভবিষ্যদ্বাণীকের একটি উপসেট সন্ধান করুন
  2. ভবিষ্যদ্বাণীকারীদের কেবলমাত্র এই উপসেটটি ব্যবহার করে একটি বহুবিধ শ্রেণিবদ্ধ তৈরি করুন।
  3. অজানা টিউনিং প্যারামিটারগুলি অনুমান করতে এবং চূড়ান্ত মডেলের ভবিষ্যদ্বাণী ত্রুটিটি অনুমান করতে ক্রস-বৈধতা ব্যবহার করুন

এটি আপনার ডেটার সবগুলিতে (অর্থাত্ প্রশিক্ষণ প্লাস পরীক্ষা) ইডিএ করার এবং "ভাল" ভবিষ্যদ্বাণীকারী নির্বাচন করতে ইডিএ ব্যবহার করার সাথে খুব মিল বলে মনে হচ্ছে।

লেখকগণ কেন এটি সমস্যাযুক্ত তা ব্যাখ্যা করেছেন: ক্রস-বৈধতাযুক্ত ত্রুটির হার কৃত্রিমভাবে কম হবে, যা আপনাকে একটি ভাল মডেল খুঁজে পেয়েছে ভেবে ভ্রান্ত করতে পারে।


1

সুতরাং আপনি স্বতন্ত্র ভেরিয়েবলগুলি সনাক্ত করতে চান যা আপনার নির্ভরশীল ভেরিয়েবলের উপর প্রভাব ফেলে?

তারপরে, আপনার উভয় পন্থা আসলেই সুপারিশযোগ্য নয়।

আপনার গবেষণা প্রশ্ন সংজ্ঞায়িত করার পরে, আপনার তত্ত্বটি বিকাশ করা উচিত। এর অর্থ হল, সাহিত্যটি ব্যবহার করে আপনার এমন পরিবর্তনশীলগুলি চিহ্নিত করা উচিত যাগুলির একটি প্রভাব থাকতে হবে (কারণটি আপনি ব্যাখ্যা করতে সক্ষম হবেন)।


6
যদিও এই মতামত পরিসংখ্যানগত পরীক্ষার শাস্ত্রীয় ধারণার সাথে একমত হতে পারে মনে হয় (এবং যেমন এটি আমাকে অসম্মতি জানায়) তবে প্রচুর আধুনিক সমস্যা রয়েছে যার জন্য এটি কেবল সম্ভব নয় as উদাহরণস্বরূপ, ধরুন আপনি দেখতে চান যে ২০,০০০ প্রোটিন-কোডিং জিন কোনও নতুন বংশগত রোগের সাথে যুক্ত কিনা। এমন কোনও ব্যাকগ্রাউন্ড নেই যা আপনাকে প্রস্তুত করবে, "তত্ত্বের সাথে আসার" উপায় নেই এবং ইডিএ শুরু করার একমাত্র উপায়। এবং যদি আপনার কাছে একটি EDA এবং নিশ্চিতকরণ বিশ্লেষণের জন্য পর্যাপ্ত ডেটা থাকে তবে আপনি আসলে কোথাও পেতে পারেন।
ক্লিফ এবি

3
"আপনার তত্ত্বটি বিকাশ করা উচিত" - এটি একটি ভাল ধারণা, তবে সর্বদা সম্ভব নয়, বিশেষ করে শিল্পে। কখনও কখনও, আপনি কোনও তত্ত্ব বিকাশ না করে কেবল পূর্বাভাস দিয়ে এগিয়ে যান
আকসকল

1

পরীক্ষার ডেটাতে ইডিএ প্রয়োগ করা ভুল।

প্রশিক্ষণ হ'ল সেরা মডেল তৈরির সঠিক উত্তরগুলি অনুসন্ধান করার প্রক্রিয়া। এই প্রক্রিয়াটি কেবল প্রশিক্ষণের ডেটাতে চলমান কোডের মধ্যে সীমাবদ্ধ নয়। কোন মডেলটি ব্যবহার করবেন, প্যারামিটারগুলি টুইঙ্ক করতে হবে এবং ঠিক ততক্ষণে ইডিএ থেকে তথ্য ব্যবহার করা প্রশিক্ষণ প্রক্রিয়ার অংশ এবং তাই পরীক্ষার ডেটাতে অ্যাক্সেসের অনুমতি দেওয়া উচিত নয়। তাই নিজের কাছে সত্য হতে, কেবলমাত্র আপনার মডেলের কর্মক্ষমতা পরীক্ষা করতে পরীক্ষার ডেটা ব্যবহার করুন।

এছাড়াও, যদি আপনি বুঝতে পারছেন যে পরীক্ষার সময় মডেলটি ভাল পারফর্ম করে না এবং তারপরে আপনি আপনার মডেলটি সামঞ্জস্য করতে ফিরে যান তবে তাও ভাল নয়। পরিবর্তে, আপনার প্রশিক্ষণ তথ্য দুটি বিভক্ত করুন। প্রশিক্ষণের জন্য অন্যটি ব্যবহার করুন এবং অন্যটি আপনার মডেল (গুলি) পরীক্ষার জন্য এবং এটির জন্য কাজ করতে পারেন। দেখুন পরীক্ষা সেট এবং বৈধতা সেট মধ্যে পার্থক্য কি?


0

এই উত্তরের অনুচ্ছেদ পরে । হস্টি আরও ব্যাখ্যা করেছেন p.245 :

"এই উদাহরণে ক্রস-বৈধকরণ সম্পাদনের সঠিক উপায়:

  1. নমুনাগুলি কে ক্রস-বৈধতা ভাঁজ (গ্রুপ) এলোমেলোভাবে ভাগ করুন।
  2. প্রতিটি ভাঁজ কে = 1, 2,। । । , কে
    (ক) "ভাল" ভবিষ্যদ্বাণীকারীদের একটি উপসেট সন্ধান করুন যা শ্রেণিবদ্ধ লেবেলের সাথে মোটামুটি দৃ strong় (অদ্বিতীয়) পারস্পরিক সম্পর্ক দেখায়, ভাঁজ কে ছাড়া সমস্ত নমুনা ব্যবহার করে।
    (খ) ভবিষ্যদ্বাণীকারীদের কেবলমাত্র এই উপসেটটি ব্যবহার করে, ভাঁজ কে ছাড়া কেবলমাত্র সমস্ত নমুনা ব্যবহার করে একটি মাল্টিভারিয়েট শ্রেণিবদ্ধ তৈরি করুন।
    (গ) ভাগে কে-তে নমুনাগুলির জন্য শ্রেণিবদ্ধ লেবেলগুলির পূর্বাভাস দিতে শ্রেণিবদ্ধ ব্যবহার করুন ""

-3

আপনি সম্পূর্ণ ডেটা সেটটিতে ইডিএ করেন। উদাহরণস্বরূপ, আপনি যদি লে-ওয়ান-আউট ক্রস বৈধতা ব্যবহার করছেন , আপনি কীভাবে কেবল প্রশিক্ষণ ডেটা সেটে ইডিএ করবেন ? এই ক্ষেত্রে প্রতিটি পর্যবেক্ষণ প্রশিক্ষণ এবং হোল্ডআউট অন্তত একবার হয় least

সুতরাং, না, আপনি সম্পূর্ণ নমুনায় ডেটা সম্পর্কে আপনার বোঝার গঠন করেন। যদি আপনি শিল্প স্থাপনে থাকেন তবে এটি আরও স্পষ্ট। আপনি ফার্মের স্টেকহোল্ডারদের কাছে উপাত্তের ট্রেন্ডস এবং সাধারণ বিবরণ প্রদর্শন করার প্রত্যাশা করছেন এবং এটি পুরো নমুনায় আপনি করেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.