পিসিএ এবং ট্রেন / পরীক্ষা বিভক্ত


35

আমার কাছে একটি ডেটাসেট রয়েছে যার জন্য আমার কাছে বাইনারি লেবেলের একাধিক সেট রয়েছে। প্রতিটি সেট লেবেলের জন্য, আমি একটি শ্রেণিবদ্ধ প্রশিক্ষণ দিচ্ছি, এটি ক্রস-বৈধকরণের মাধ্যমে মূল্যায়ন করে। আমি মূল উপাদান বিশ্লেষণ (পিসিএ) ব্যবহার করে মাত্রিকতা হ্রাস করতে চাই। আমার প্রশ্নটি হ'ল:

পুরো ডেটাসেটের জন্য একবার পিসিএ করা এবং তারপরে উপরে বর্ণিত ক্রস-বৈধতার জন্য নিম্ন মাত্রিকতার নতুন ডেটাসেট ব্যবহার করা কি সম্ভব ? বা আমার কি প্রতিটি প্রশিক্ষণ সংস্থার জন্য পৃথক পিসিএ করা দরকার (যার অর্থ প্রতিটি শ্রেণিবদ্ধের জন্য এবং প্রতিটি ক্রস-বৈধতা ভাঁজের জন্য পৃথক পিসিএ করা)?

একদিকে, পিসিএ লেবেলগুলির কোনও ব্যবহার করে না। অন্যদিকে, এটি রূপান্তরটি করতে পরীক্ষার ডেটা ব্যবহার করে, তাই আমি আশঙ্কা করছি এটি ফলাফলকে পক্ষপাতিত্ব করতে পারে।

আমার উল্লেখ করা উচিত যে আমাকে কিছু কাজ বাঁচানোর পাশাপাশি পুরো ডেটাসেটে একবার পিসিএ করলে আমাকে একবারে সমস্ত লেবেল সেটগুলির জন্য ডেটাসেটটি কল্পনা করতে দেয়। প্রতিটি লেবেল সেটের জন্য আমার কাছে আলাদা পিসিএ থাকলে, প্রতিটি লেবেল সেটকে আলাদাভাবে আমার কল্পনা করতে হবে।


ভবিষ্যতের রেফারেন্সের জন্য। caretপ্যাকেজ সহ পিসিএ দিয়ে ক্রস-বৈধকরণ কীভাবে করবেন সে সম্পর্কে এই প্রশ্নটি দেখুন : ক্যারেটে পিসিএ এবং কে-ভাঁজ ক্রস বৈধকরণ
অ্যামিবা বলেছেন মনিকা


উত্তর:


34

জেনারালাইজেশন ত্রুটি পরিমাপ করার জন্য, আপনাকে পরবর্তীটি করা দরকার: প্রতিটি প্রশিক্ষণ সংস্থার জন্য পৃথক পিসিএ (যার অর্থ প্রতিটি শ্রেণিবদ্ধ এবং প্রতিটি সিভি ফোল্ডারের জন্য পৃথক পিসিএ করা)।

তারপরে আপনি পরীক্ষার সেটে একই রূপান্তরটি প্রয়োগ করেন: অর্থাত আপনি পরীক্ষার সেটটিতে পৃথক পিসিএ করবেন না ! আপনি এখানে ট্রেনিং সেটটির গড় (এবং যদি মান বিচ্যুতি দ্বারা বিভাজনের প্রয়োজন হয়) বিয়োগ করুন: প্রশিক্ষণের সেটটিতে পিসিএর পরে পরীক্ষার সেটটি জিরোকে কেন্দ্র করে নেওয়া । তারপরে আপনি প্রশিক্ষণের সেটটির পিসিগুলিতে ডেটা প্রজেক্ট করুন।


  • পিসি ব্যবহারের জন্য আপনাকে একটি স্বয়ংক্রিয় মানদণ্ড সংজ্ঞায়িত করতে হবে।
    "প্রকৃত" শ্রেণিবিন্যাসের আগে এটি কেবলমাত্র প্রথম তথ্য হ্রাসের পদক্ষেপ হিসাবে, খুব বেশি কয়েকটি পিসি ব্যবহার করা পারফরম্যান্সকে ক্ষতিগ্রস্থ করবে না not আপনার যদি কোনও প্রত্যাশা থাকে যে কতগুলি পিসি অভিজ্ঞতা থেকে ভাল হবে, আপনি সম্ভবত এটি ব্যবহার করতে পারেন।

  • আপনি পরে পরীক্ষা করতে পারেন যে প্রতি সরোগেট মডেলের জন্য পিসিএ পুনরায় করা প্রয়োজনীয় ছিল (কেবলমাত্র একটি পিসিএ মডেল দিয়ে বিশ্লেষণটি পুনরাবৃত্তি করা)। আমি মনে করি এই পরীক্ষার ফলাফলটি রিপোর্ট করার মতো।

  • আমি একবার পিসিএ'র পুনরাবৃত্তি না করার পক্ষপাত পরিমাপ করেছিলাম এবং দেখেছিলাম যে আমার বর্ণালী সংক্রান্ত শ্রেণিবিন্যাসের ডেটা দিয়ে, প্রতিটি সরোগেট মডেলের জন্য পিসিএ পুনর্নির্মাণ না করার সময় আমি সাধারণীকরণ ত্রুটি হারের অর্ধেক খুঁজে পেয়েছি।

বলা হচ্ছে, আপনি বর্ণনামূলক (যেমন ভিজ্যুয়ালাইজেশন) উদ্দেশ্যে সম্পূর্ণ ডেটা সেটের একটি অতিরিক্ত পিসিএ মডেল তৈরি করতে পারেন । আপনি নিশ্চিত হন যে আপনি দুটি পদ্ধতির একে অপরের থেকে পৃথক রেখেছেন।


ক্লাসের লেবেলগুলি না দেখে পুরো ডেটাসেটের প্রাথমিক পিসিএ কীভাবে ফলাফলকে পক্ষপাত করবে তা অনুভব করা এখনও আমার পক্ষে কঠিন হয়ে পড়েছে।

তবে এটি ডেটা দেখে না। এবং যদি শ্রেণীর মধ্যে বৈকল্পিকের মধ্যে-শ্রেণীর বৈকল্পিকের তুলনায় বৃহত্তর হয়, তবে শ্রেণিবদ্ধের পার্থক্য পিসিএ প্রজেকশনকে প্রভাবিত করে। সাধারণত পিসিএ পদক্ষেপটি করা হয় কারণ আপনার শ্রেণিবিন্যাসকে স্থিতিশীল করতে হবে। যে একটি অবস্থা যেখানে অতিরিক্ত ক্ষেত্রে, হয় না মডেল প্রভাবিত।

যদি শ্রেণিবদ্ধের পার্থক্যটি ছোট হয়, তবে এই পক্ষপাতিত্ব খুব বেশি হবে না, তবে সেই ক্ষেত্রে পিসিএ উভয়ই শ্রেণিবিন্যাসে সহায়তা করবে না: পিসিএ প্রক্ষেপণ তখন শ্রেণীর মধ্যে পৃথকীকরণের উপর জোর দেওয়াতে সহায়তা করতে পারে না।


ধন্যবাদ, এটি হ'ল আমি যা ভাবলাম তাই এটি স্বাধীন উত্স থেকে শুনে ভাল। ক্লাসের লেবেলগুলি না দেখে পুরো ডেটাসেটের প্রাথমিক পিসিএ কীভাবে ফলাফলকে পক্ষপাত করবে তা অনুভব করা এখনও আমার পক্ষে কঠিন হয়ে পড়েছে।
বিটওয়াইজ

@ বিটওয়াইজ: দয়া করে আমার সম্পাদনাটি দেখুন
সিবিলেটগুলি মনিকা

হাই @ কেবেলাইটস, আমি এই থ্রেডটিকে পিসিএ এবং ট্রেন / পরীক্ষার বিভাজন সম্পর্কে প্রশ্নগুলির জন্য "প্রচলিত" থ্রেড তৈরি করতে চাই (অনেকগুলি আছে!) এবং সেগুলি সদৃশ হিসাবে চিহ্নিত করুন। আমি আপনার উত্তরে একটি বাক্য যুক্ত করতে স্বাধীনতা নিয়েছি যা নকল প্রশ্নে প্রায়শই দেখা দেয় এমন একটি ভুল বোঝাবুঝি পরিষ্কার করতে পারে। আশা করি আপনি আমার সম্পাদনায় খুশি, তবে দয়া করে চেক করুন! +1, বিটিডব্লিউ
অ্যামিবা বলেছেন

@ আমেবা, আপনাকে অনেক ধন্যবাদ হ্যাঁ, এটি আপনার যুক্ত হওয়া একটি গুরুত্বপূর্ণ বিষয়। প্রশ্নের সংগ্রহগুলি পরিষ্কার করার জন্য আপনি যে কাজটি রেখেছেন তার জন্য অনেক ধন্যবাদ।
সিবিলেটগুলি

1
@ ফিলিপআলমিডা: হ্যাঁ
সিবিলেটগুলি

2

এই প্রশ্নের উত্তর আপনার পরীক্ষামূলক ডিজাইনের উপর নির্ভর করে। আপনি যতটা ডেটা ভবিষ্যদ্বাণী করতে চেষ্টা করছেন তা জানার আগে আপনার মডেলটি তৈরি করার প্রয়োজন না হওয়ায় পুরো ডেটা সেটটিতে পিসিএ করা যেতে পারে। আপনার যদি এমন একটি ডেটাসেট থাকে যেখানে আপনার কাছে একগুচ্ছ নমুনা রয়েছে যার কয়েকটি পরিচিত এবং কিছু অজানা এবং আপনি অজানাগুলির পূর্বাভাস দিতে চান, পিসিএর অজানাগুলি আপনাকে ডেটা বৈচিত্র্যের আরও গভীর দৃষ্টিভঙ্গি দেবে এবং কার্য সম্পাদনকে উন্নত করতে সহায়তা করতে পারে মডেল। যেহেতু পিসিএ নিরীক্ষণবিহীন, এটি "পিকিং" নয় কারণ আপনি অজানা নমুনাগুলিতে একই জিনিস করতে পারেন হিসাবে আপনি জানেন।

অন্যদিকে, যদি আপনার কাছে এমন একটি ডেটা সেট থাকে যেখানে আপনাকে এখনই মডেলটি তৈরি করতে হবে এবং ভবিষ্যতে কোনও মুহুর্তে আপনি নতুন নমুনাগুলি পেয়ে যাবেন যেগুলি প্রাক-বিল্ট মডেলটি ব্যবহার করে আপনার পূর্বাভাস দিতে হবে, আপনাকে অবশ্যই প্রতিটি ভাগে পৃথক পিসিএ করতে হবে এটি সাধারণীকরণ হবে তা নিশ্চিত হওয়া যেহেতু এই ক্ষেত্রে আমরা নতুন বৈশিষ্ট্যগুলি দেখতে কেমন তা জানি না এবং আমরা নতুন বৈশিষ্ট্যগুলির জন্য অ্যাকাউন্টে মডেলটি পুনর্নির্মাণ করতে পারি না, পরীক্ষার ডেটাতে পিসিএ করা "পিকিং" হবে। এই ক্ষেত্রে, অজানা নমুনাগুলির জন্য বৈশিষ্ট্যগুলি এবং ফলাফলগুলি উভয়ই উপলভ্য নয় যখন মডেলটি অনুশীলনে ব্যবহৃত হবে, সুতরাং মডেলটিকে প্রশিক্ষণ দেওয়ার সময় সেগুলি পাওয়া উচিত নয়।


0

পরবর্তীকালে, পিসিএ প্রশিক্ষণ প্রতিটি সময় সেট করুন

পিসিএতে, আমরা হ্রাসিত ম্যাট্রিক্স শিখি: ইউ যা আমাদের অভিক্ষেপ পেতে সহায়তা করেZ_train = U x X_train

পরীক্ষার সময়, আমরা প্রশিক্ষণ পর্ব থেকে শিখেছি একই ইউ ব্যবহার করি এবং তারপরে প্রক্ষেপণটি গণনা করিZ_test = U x X_test

সুতরাং, মূলত আমরা প্রশিক্ষণের সময় প্রাপ্ত হ্রাস ফিচার স্পেসের উপর পরীক্ষা সেটটি প্রজেক্ট করছি ।

অন্তর্নিহিত অনুমান, পরীক্ষা এবং ট্রেন সেট একই বিতরণ থেকে আসা উচিত, যা উপরের পদ্ধতিটি ব্যাখ্যা করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.