ট্রেনিং-এবং টেস্টসেটের মান নির্ধারণ / নরমালাইজেশন কীভাবে প্রয়োগ করতে হবে যদি ভবিষ্যদ্বাণী করা লক্ষ্য হয়?


47
  1. আমি কি একই সাথে আমার সমস্ত ডেটা বা ফোল্ডগুলি (যদি সিভি প্রয়োগ করা হয়) রূপান্তর করি? যেমন

    (allData - mean(allData)) / sd(allData)

  2. আমি কি ট্রেনসেট এবং টেস্টসেটকে আলাদাভাবে রূপান্তর করব? যেমন

    (trainData - mean(trainData)) / sd(trainData)

    (testData - mean(testData)) / sd(testData)

  3. অথবা আমি ট্রেনসেটটি রূপান্তর করব এবং টেস্টসেটে গণনাগুলি ব্যবহার করব? যেমন

    (trainData - mean(trainData)) / sd(trainData)

    (testData - mean(trainData)) / sd(trainData)

আমি বিশ্বাস করি 3 সঠিক উপায়। যদি 3টি সঠিক হয় তবে আমাকে কী 0 না হওয়া বা পরিসীমা [0 এর মধ্যে না থাকার বিষয়ে চিন্তা করতে হবে; 1] বা [-1; 1] টেস্টসেটের (সাধারণীকরণ)?


এটিতে কোড দেওয়ার কোনও দুর্দান্ত উপায় আছে কি R? : এই প্রশ্ন দেখতে পাবেন stackoverflow.com/questions/49260862/...
Boern

উত্তর:


41

তৃতীয় উপায়টি সঠিক। স্ট্যাটিস্টিকাল লার্নিংয়ের উপাদানগুলিতে হুবহু কেন আশ্চর্যজনকভাবে আবরণ করা হয়েছে, শেয়ার বাজারের উদাহরণে "ভুল এবং সঠিক পথ ক্রস-বৈধকরণের" বিভাগটি দেখুন, এবং ডেটা লার্নিং থেকে ডেটা চূড়ান্ত অধ্যায়েও শেয়ার বাজারের উদাহরণে দেখুন।

মূলত, 1 এবং 2 পদ্ধতিগুলি আপনার প্রতিক্রিয়া সম্পর্কে বা ভবিষ্যত থেকে আপনার মডেলটির প্রশিক্ষণ বা মূল্যায়নের জন্য নির্ধারিত তথ্য থেকে তথ্য ফাঁস করে। এটি আপনার মডেল মূল্যায়নে যথেষ্ট আশাবাদ পক্ষপাত করতে পারে।

মডেল যাচাইয়ের ধারণাটি হল আপনার মডেল যখন উত্পাদন সংক্রান্ত সিদ্ধান্ত নেবেন তখন আপনি যে পরিস্থিতিটি তৈরি করবেন, যখন আপনার সত্যিকারের প্রতিক্রিয়াতে অ্যাক্সেস থাকবে না m ফলাফলটি হ'ল আপনি পূর্বাভাসিত মানগুলির তুলনা বাদ দিয়ে পরীক্ষার জবাবটি কোনও কিছুর জন্য ব্যবহার করতে পারবেন না ।

এর নিকটবর্তী হওয়ার অন্য উপায়টি কল্পনা করা যে আপনি একবারে আপনার হোল্ড আউট থেকে কেবলমাত্র একটি ডেটা পয়েন্ট অ্যাক্সেস পেয়েছেন (উত্পাদন মডেলগুলির জন্য একটি সাধারণ পরিস্থিতি)। এই অনুমানের অধীনে আপনি যা কিছু করতে পারবেন না তা আপনার দুর্দান্ত সন্দেহের মধ্যে থাকা উচিত। স্পষ্টতই, আপনি যা করতে পারবেন না তা হ'ল আপনার ডেটা উত্পাদন প্রবাহকে স্বাভাবিক করার জন্য সমস্ত নতুন ডেটা-পয়েন্টগুলি অতীত এবং ভবিষ্যতের উপরে সামগ্রিক - সুতরাং মডেল বৈধতার জন্য একই কাজ করা অবৈধ।

আপনার পরীক্ষার সেটটি শূন্য-নন হওয়ার বিষয়ে আপনাকে চিন্তা করতে হবে না, এটি আপনার পারফরম্যান্সের প্রাক্কলন অনুমানের চেয়ে পক্ষপাতদুষ্ট হওয়ার চেয়ে ভাল অবস্থা। যদিও, অবশ্যই, যদি পরীক্ষাটি সত্যই আপনার ট্রেনের হিসাবে একই অন্তর্নিহিত বিতরণ থেকে নেওয়া হয় (পরিসংখ্যানগত শিক্ষার একটি প্রয়োজনীয় অনুমান), বলেন গড়টি প্রায় শূন্য হিসাবে বের হওয়া উচিত।


আমি যা ভেবেছিলাম. এটি পরিষ্কার করার জন্য আপনাকে ধন্যবাদ!
ডারটম

Clearly, one thing you cannot do is aggregate over all new data-points past and future to normalize your production stream of data। কেন না?
আনমল সিং জাগি

1
@ আনমোলসিংহ জাগি এটি "ভবিষ্যত"। আপনি যদি এখনও তথ্যটি সংগ্রহ না করেন তবে আপনি এটি ব্যবহার করে স্বাভাবিক করতে পারবেন না।
ম্যাথু ড্র্যুরি

4
y

1
@MatthewDrury। আপনার পরিষ্কার ব্যাখ্যার জন্য ধন্যবাদ। আমি এখন আপনার সাথে একমত। শুধুমাত্র তৃতীয় উপায় সঠিক।
বন্যা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.