আমাদেরও পরীক্ষার ডেটাতে নরমালাইজেশন প্রয়োগ করা উচিত?


17

আমি লেখক সনাক্তকরণ সমস্যা নিয়ে একটি প্রকল্প করছি। আমি ডেটা প্রশিক্ষণের জন্য টিএফ-আইডিএফ নরমালাইজেশন প্রয়োগ করেছি এবং তারপরে সেই ডেটাতে একটি এসএমএম প্রশিক্ষিত করেছি।

ক্লাসিফায়ার ব্যবহার করার সময় আমারও পরীক্ষার ডেটাগুলিকে স্বাভাবিক করা উচিত। আমি অনুভব করি যে সাধারণকরণের মূল লক্ষ্য হ'ল শেখার সময় আরও গুরুত্বপূর্ণ বৈশিষ্ট্যগুলিকে আরও বেশি ওজন দেওয়া the সুতরাং একবার এটি প্রশিক্ষিত হয়ে গেলে এটি ইতিমধ্যে জানে যে কোন বৈশিষ্ট্যগুলি গুরুত্বপূর্ণ, কোনটি নয়। সুতরাং ডেটা পরীক্ষা করার জন্য কি নরমালাইজেশন প্রয়োগের কোনও প্রয়োজন আছে?

আমি এই ক্ষেত্রে নতুন। সুতরাং দয়া করে প্রশ্নটি নিরীহ প্রদর্শিত হয় যদি উপেক্ষা করুন?


4
আপনার পরীক্ষার ডেটা আপনার প্রশিক্ষণের ডেটার মতোই স্কেল হওয়া উচিত।
জন

উত্তর:


37

হ্যাঁ আপনার অ্যালগোরিদম যদি স্বাভাবিক প্রশিক্ষণ ডেটা * এর সাথে কাজ করে বা প্রয়োজন হয় তবে ডেটা পরীক্ষা করতে আপনার স্বাভাবিককরণ প্রয়োগ করতে হবে।

এর কারণ আপনার মডেলটি এর ইনপুট ভেক্টরদের দেওয়া উপস্থাপনে কাজ করে। এই সংখ্যাগুলির স্কেল উপস্থাপনের অংশ। এটি পা এবং মিটারের মধ্যে রূপান্তর করার মতো। । । একটি মডেল বা সূত্রটি সাধারণত এক ধরণের ইউনিটের সাথে কাজ করবে।

কেবলমাত্র আপনাকে সাধারণীকরণের প্রয়োজন নেই, তবে আপনার প্রশিক্ষণের ডেটার মতো সঠিক স্কেলিংটি প্রয়োগ করা উচিত। তার অর্থ আপনার প্রশিক্ষণ ডেটার সাথে ব্যবহৃত স্কেল এবং অফসেট সংরক্ষণ করা এবং এটি আবার ব্যবহার করা। একটি সাধারণ শিক্ষামূলক ভুলটি হ'ল পৃথকভাবে আপনার ট্রেন এবং পরীক্ষার ডেটা স্বাভাবিক করা।

পাইথন এবং এসকেলেয়ারনে, আপনি স্ট্যান্ডার্ড স্কেলারটি ব্যবহার করে আপনার ইনপুট / এক্স মানগুলি স্বাভাবিক করতে পারেন:

scaler = StandardScaler()
train_X = scaler.fit_transform( train_X )
test_X = scaler.transform( test_X )

কীভাবে train_Xকোনও ফাংশন (প্যারামগুলি দেখায়) ব্যবহারের রূপান্তর কীভাবে তারপরে স্বাভাবিক হয় Note যতক্ষণ test_Xরূপান্তর মাত্র রূপান্তরিত করে, একই প্যারাম এটি ট্রেন তথ্য থেকে শিখেছি ব্যবহার করে।

আপনি যে টিএফ-আইডিএফ নরমালাইজেশন করছেন তা একইভাবে কাজ করা উচিত, কারণ এটি সম্পূর্ণ হিসাবে সেট করা ডেটা থেকে কিছু পরামিতি (সমস্ত নথিতে শব্দের ফ্রিকোয়েন্সি) এবং পাশাপাশি প্রতিটি নথিতে প্রাপ্ত অনুপাত ব্যবহার করে।


* কিছু অ্যালগরিদম (যেমন সিদ্ধান্ত গাছের উপর ভিত্তি করে) সাধারণকরণের ইনপুটগুলির প্রয়োজন হয় না এবং বিভিন্ন বৈশিষ্ট্যগুলির মধ্যে বিভিন্ন মাপের স্কেলগুলির সাথে লড়াই করতে পারে।


পরীক্ষার জন্য সাধারণকরণের পরামিতিগুলি প্রশিক্ষণ থেকে নির্ধারিতগুলির মতো হওয়া উচিত + এটি আমার বোধগম্য যে এই যুক্তিটি কোনও বৈধতা সেটগুলিতেও প্রসারিত।
গ্রিনস্টিক

@ গ্রিনস্টিক: হ্যাঁ অবশ্যই, এটি মডেলটিতে খাওয়ানো সমস্ত ডেটার চিকিত্সা পর্যন্ত প্রসারিত। যদি কোনও মডেল উত্পাদনের অনুক্রমের জন্য ব্যবহৃত হয় তবে নতুন ডেটা সহ। আমি মনে করি যে যদিও এই সমস্তটি না allেকে উত্তরটি যথেষ্ট দীর্ঘ, এবং আপনি যাচাইকরণের ডেটা বিভক্ত করেছেন সেই বিন্দুতে অনেকগুলি পরিবর্তিত হয় (অনেক মডেল এটি প্রশিক্ষণের ধাপে অন্তর্নির্মিত থাকে), সুতরাং কোড উদাহরণটি প্রদর্শন করতে পারেনি।
নীল স্লেটার

2
আপনার প্রশিক্ষণের ডেটা দিয়ে পরীক্ষার ডেটা (ফিট_ ট্রান্সফর্ম) স্কেল করা উচিত? অথবা একই স্কেল (স্কেল। ট্রান্সফর্ম) ব্যবহার করে এটি আলাদাভাবে করবেন?
বব এবার্ট

2
@ BobEbert: আপনি যে কোনটি করতে পারেন। প্রযুক্তিগতভাবে আপনি পরীক্ষা থেকে প্রশিক্ষণের জন্য অল্প পরিমাণে তথ্য ফাঁস করতে পারেন, যদি আপনি সম্মিলিত ডেটা সেটে কোনও স্কেলারের সাথে ফিট করে থাকেন - তবে "অফিসিয়াল" সংস্করণটি স্কেলারের জন্য কেবল প্রশিক্ষণের ডেটা ফিট করতে পারে এবং এটি অন্য সমস্ত ক্ষেত্রে প্রয়োগ করা যেতে পারে এরপরে ডেটা সেট করে। তবে, এই ফাঁসটি খুব সামান্য এবং আপনি যদি আপনার সমস্ত ডেটাতে স্কেলারের সাথে ফিট করে তবে এটি বাস্তবে কোনও সমস্যার কারণ হতে দেখিনি।
নিল স্লেটার

আমার অনুমানটি নিশ্চিত করার জন্য ধন্যবাদ যে আমাকে পরীক্ষার ডেটার জন্য প্রশিক্ষণ সেট-ডেরিভড স্কেলিংটি ব্যবহার করতে হবে। কিন্তু আপনি কি এর পেছনের ব্যাখ্যার সাথে একটি লিঙ্ক সরবরাহ করতে পারেন? সম্পাদনা: কিছুই নয়, ব্যাখ্যা এখানে রয়েছে: ডেটাসায়েন্স.স্ট্যাকেক্সেঞ্জার
প্রশ্নস

6

অবশ্যই আপনার ডেটা স্বাভাবিক করা উচিত। আপনি নিম্নলিখিত লক্ষ্যগুলির জন্য ডেটাটিকে সাধারণকরণ করুন:

  • একই স্কেলে বিভিন্ন বৈশিষ্ট্য থাকার জন্য, যা শেখার প্রক্রিয়া ত্বরান্বিত করার জন্য।

  • স্কেল যত্ন না করে মোটামুটি বিভিন্ন বৈশিষ্ট্য যত্ন নেওয়ার জন্য।

প্রশিক্ষণের পরে, আপনার শিখার অ্যালগরিদমটি মাপা আকারে ডেটাগুলি মোকাবেলা করতে শিখেছে, তাই প্রশিক্ষণের ডেটার জন্য ব্যবহৃত সাধারণকরণের পরামিতিগুলির সাহায্যে আপনাকে আপনার পরীক্ষার ডেটা স্বাভাবিক করতে হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.