ক্রস-বৈধকরণের আগে নিরীক্ষণ করা বৈশিষ্ট্য নির্বাচন করা কি আসলেই ভাল?


9

ইন পরিসংখ্যান শেখার উপাদানসমূহ , আমি নিম্নোক্ত বিবৃতি পেয়েছি:

একটি যোগ্যতা রয়েছে: নমুনাগুলি বাদ দেওয়ার আগে প্রাথমিক আপত্তিহীন স্ক্রিনিং পদক্ষেপগুলি করা যেতে পারে। উদাহরণস্বরূপ, আমরা ক্রস-বৈধকরণ শুরু করার আগে, 50 টি সমস্ত নমুনা জুড়ে সর্বাধিক বৈকল্পিক সহ 1000 ভবিষ্যদ্বাণীকে নির্বাচন করতে পারি। যেহেতু এই ফিল্টারিংয়ে শ্রেণিবদ্ধ লেবেল জড়িত না তাই এটি ভবিষ্যদ্বাণীকারীদেরকে অন্যায্য সুবিধা দেয় না।

এটি কি আসলে বৈধ? আমি বলতে চাইছি, বৈশিষ্ট্যগুলি আগে থেকে ফিল্টার করে, আমরা প্রশিক্ষণের ডেটা / নতুন ডেটা এনভায়রনমেন্টটি অনুকরণ করি না - সুতরাং এই বিষয়টি কি আমাদের ফিল্টারিংটি পর্যবেক্ষণ করা হচ্ছে না? ক্রস-বৈধকরণ প্রক্রিয়ার মধ্যে সমস্ত প্রাক প্রসেসিং পদক্ষেপগুলি করা কি ভাল নয় ? যদি এটি না হয় তবে এর অর্থ হ'ল বৈশিষ্ট্য নরমালাইজেশন / পিসিএ ইত্যাদিসহ সমস্ত আনসারভিজড প্রিপ্রোসেসিং আগেই সম্পাদন করা যেতে পারে তবে পুরো প্রশিক্ষণের সেটটিতে এটি করার মাধ্যমে আমরা প্রকৃতপক্ষে প্রশিক্ষণ সংস্থায় কিছু তথ্য ফাঁস করছি। আমি সম্মত হতে পারি যে তুলনামূলকভাবে স্থিতিশীল ডেটাসেটের সাথে, এই পার্থক্যগুলি খুব সম্ভবত খুব ক্ষুদ্র হওয়া উচিত - তবে এর অর্থ এই নয় যে তাদের উপস্থিত নেই, তাই না? এ সম্পর্কে ভাবার সঠিক উপায় কী?

উত্তর:


2

ক্রস বৈধকরণের আগে সম্পন্ন মঞ্চ হিসাবে, নিরীক্ষণযোগ্য বৈশিষ্ট্য নির্বাচন বৈশিষ্ট্যটি সাধারণীকরণের সাথে কিছুটা মিল:

  1. ক্রস বৈধকরণের একটি নির্দিষ্ট ভাঁজ দেখার দৃষ্টিকোণ থেকে ট্রেনের ডেটা পরীক্ষার ডেটাতে উঁকি দেওয়া হয়েছে (কেবলমাত্র স্বাধীন ভেরিয়েবলগুলিতে হলেও)।

  2. এই উঁকি দেওয়া তুলনামূলকভাবে হালকা।

এই প্রশ্নে ক্রস বৈধকরণের আগে বৈশিষ্ট্য স্বাভাবিককরণের বিষয়ে আলোচনা করা হয়েছিল । ডিকরান মার্সুপিয়ালের উত্তরটি উদ্ধৃত করে

পরিসংখ্যানগত পদ্ধতির কর্মক্ষমতা অনুমানের জন্য একটি পরিসংখ্যানের মডেলের চেয়ে ক্রস-বৈধকরণকে সর্বোত্তম পদ্ধতি হিসাবে দেখা হয়। সুতরাং নিরপেক্ষ পারফরম্যান্সের অনুমানের জন্য, আপনাকে ক্রস-বৈধকরণের প্রতিটি ভাগে পৃথকভাবে সেই পদ্ধতির প্রতিটি উপাদান পুনরাবৃত্তি করতে হবে, যাতে স্বাভাবিককরণ অন্তর্ভুক্ত থাকবে।

সুতরাং আপনি যদি সংস্থানগুলি ছাড়তে পারেন তবে সর্বোত্তম বিষয় হ'ল প্রতিটি ক্রস-বৈধতা ভাঁজটি স্ক্র্যাচ থেকে কোনও ডেটা নির্ভর নির্ভর প্রক্রিয়াকরণ করতে পারে।

যাইহোক, এই প্রশ্নের উত্তর হিসাবে, বাস্তবে বলা হয়, ক্রমটি পরিবর্তন করা সম্ভবত জিনিসগুলিকে খুব বেশি পরিবর্তন করতে পারে না। নির্ভরশীল বৈশিষ্ট্য নির্বাচন প্রদর্শন করার মতো যথেষ্ট পরিমাণে অন্যায্য সুবিধা অবশ্যই নেই । আইএমএইচও, এটি স্ট্যাটাসটিকাল লার্নিংয়ের উপাদানগুলির উদ্ধৃতিটির ব্যাখ্যা ।Y


ঠিক আছে, এটি মূলত আমার চিন্তাগুলির সাথে মিলে যায় এবং এখানে শেষ বাক্যটি আসলে আমার প্রশ্নের সংক্ষিপ্ত উত্তর। ধন্যবাদ, আমি এটি একটি গ্রহণযোগ্য উত্তর করব।
মেটেক

1
প্রভাবটি ছোট হতে পারে তবে এটি খুব কম নয়। যেমন আপনি বলেছেন, এটি সিভির আগে আপনার স্বাধীন ভেরিয়েবলগুলি প্রাক-স্কেলিংয়ের মতো, যা "বর্তমান" (প্রশিক্ষণের ডেটা) স্কেল করতে "ভবিষ্যত" (পরীক্ষার ডেটা) ব্যবহার করবে, যা বাস্তব বিশ্বে ঘটবে না। আপনার যদি এলোমেলো ভাঁজ থাকে (টাইম সিরিজ, স্ট্র্যাটিফিকেশন ইত্যাদি ব্যবহার না করা) এটির প্রভাব কম তবে ট্রেন / টেস্ট বাধা এবং সমস্ত কেন ভাঙবেন?
ওয়েইন

@ ওয়েইন আমি অবশ্যই আপনার সাথে একমত যে যখনই সম্ভব, ট্রেন / পরীক্ষার বাধা না ভাঙাই ভাল। ব্যক্তিগতভাবে, আমি কখনই বাস্তব-জগতের মামলাগুলির মুখোমুখি হইনি যেখানে এটি একটি পার্থক্য করেছে (আর্ট আনসারভিজড এফএস এবং / অথবা সাধারণীকরণ), তবে আমি এমন ক্ষেত্রেও মুখোমুখি হয়েছি যেখানে বৈশিষ্ট্য নির্বাচনকে "সঠিক উপায়ে" করা একেবারেই অপ্রয়োজনীয় ছিল (অর্থাত্ প্রতিটি ক্ষেত্রেই) ভাঁজ). যাইহোক, আমি আপনার সূক্ষ্ম উত্তর (যা আমি upvoting) থেকে দেখতে পাচ্ছি যে আপনি বিপরীত ক্ষেত্রে সম্মুখীন হয়েছে, সুতরাং দৃশ্যত উভয় পরিস্থিতিতেই বিদ্যমান।
অমি টাভরি

আমি নিশ্চিত নই যে আমি সিভি ফলাফলের মুখোমুখি হয়েছি যেখানে নরমালাইজেশনের ফলে কোনও পার্থক্য হয়েছে, যা আমি সাধারণত 10-গুণ সিভি করাকে বলেছি যার অর্থ পরীক্ষার ভাঁজটি কেবলমাত্র 10%, যা এর প্রভাবকে আরও ছোট করে। আমি 67/33 বা 75/25 নন-সিভি বিভাজনের মতো কিছুতে পার্থক্য দেখেছি।
ওয়েইন

9

আমি @ অ্যামিটিভোরির ​​মতামত এবং পরিসংখ্যানগত শিক্ষার উপাদানগুলির সাথে এই প্রশ্নের মধ্যে পৃথক হতে অনুরোধ করছি।

খুব কম নমুনা মাপের সাথে একটি প্রয়োগ ক্ষেত্র থেকে আগত , আমার এমন অভিজ্ঞতা রয়েছে যা নিরীক্ষণমূলক প্রাক-প্রক্রিয়াজাতকরণ পদক্ষেপগুলি গুরুতর পক্ষপাত প্রবর্তন করতে পারে।

আমার ক্ষেত্রে এমন কোনও শ্রেণিবদ্ধ প্রশিক্ষণপ্রাপ্ত হওয়ার আগে মাত্রিক মাত্রা হ্রাসের জন্য পিসিএ হবে। আমি এখানে ডেটা প্রদর্শন করতে না পারার সময়, আমি পিসিএ + (ক্রস ভ্যালিটেড এলডিএ) বনাম ক্রস যাচাই করা (পিসিএ + এলডিএ) ত্রুটির হারকে প্রায় এক মাত্রার ক্রম দ্বারা অবমূল্যায়ন করে দেখেছি । (এটি সাধারণত একটি সূচক যে পিসিএ স্থিতিশীল নয়))

উপাদানগুলির "অন্যায্য সুবিধা" যুক্তি হিসাবে, যদি কল্পনা + পরীক্ষার কেসগুলির বৈকল্পিকতা পরীক্ষা করা হয়, তবে আমরা এমন বৈশিষ্ট্যগুলি দিয়ে শেষ করি যা প্রশিক্ষণ এবং পরীক্ষা উভয় ক্ষেত্রেই ভাল কাজ করে। সুতরাং, আমরা এখানে একটি স্ব-পরিপূর্ণ ভবিষ্যদ্বাণী তৈরি করি যা অতিমাত্রায় পক্ষপাতিত্বের কারণ। যদি আপনার পক্ষে যুক্তিসঙ্গতভাবে স্বাচ্ছন্দ্য নমুনার আকার থাকে তবে এই পক্ষপাতিত্ব কম।

সুতরাং আমি এমন একটি পদ্ধতির প্রস্তাব দিচ্ছি যা উপাদানগুলির তুলনায় কিছুটা রক্ষণশীল:

  • একের অধিক কেস বিবেচনা করে প্রিপ্রোসেসিং গণনাগুলিকে বৈধতার মধ্যে অন্তর্ভুক্ত করা দরকার: অর্থাত্ সেগুলি কেবলমাত্র সংশ্লিষ্ট প্রশিক্ষণ সংস্থায় গণনা করা হয় (এবং তারপরে পরীক্ষার ডেটাতে প্রয়োগ করা হয়)
  • প্রতিটি পদক্ষেপ নিজস্ব বিবেচনা করে এমন প্রাক পদক্ষেপগুলি (আমি বর্ণবাদী: উদাহরণগুলি বেসলাইন সংশোধন এবং তীব্রতা নরমালাইজেশন, যা একটি সারি অনুসারে সাধারণীকরণ হবে) যতক্ষণ না তারা প্রথম পদক্ষেপের আগেই ক্রস বৈধতা থেকে বেরিয়ে আসতে পারে একাধিক ক্ষেত্রে গণনা করে।

বলা হচ্ছে, ক্রস ভ্যালিয়েশনও সঠিক বৈধতা অধ্যয়ন করার জন্য একটি শর্ট কাট। সুতরাং, আপনি ব্যবহারিকতার সাথে তর্ক করতে পারেন:

  • প্রশ্নটিতে প্রাক-প্রক্রিয়াকরণ স্থিতিশীল ফলাফল দেয় কিনা তা আপনি পরীক্ষা করতে পারেন (ক্রস বৈধকরণের মাধ্যমে আপনি এটি করতে পারেন)। যদি আপনি এটি ইতিমধ্যে নিম্ন নমুনার আকারগুলির সাথে পুরোপুরি স্থিতিশীল দেখতে পান তবে IMHO আপনি যুক্তি দিতে পারেন যে ক্রস বৈধতার বাইরে এনে বেশি পক্ষপাতিত্ব চালু করা হবে না।

  • তবে, পূর্ববর্তী তত্ত্বাবধায়ককে উদ্ধৃত করার জন্য: গণনার সময় কোনও বৈজ্ঞানিক যুক্তি নয়।
    ক্রস যাচাইকরণের জন্য কয়েকটি কোড (ফলাফলগুলির সংক্ষিপ্তসার / গ্রাফগুলি সহ) নিশ্চিত করার জন্য আমি প্রায়শই কয়েকটি ভাঁজ এবং কয়েকটি পুনরাবৃত্তির "পূর্বরূপ" যেতে এবং তারপরে রাত্রে বা সপ্তাহান্তে বা সার্ভারে এটি রেখে যাই আরও সূক্ষ্ম দানা ক্রস বৈধতা।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.