পিসিএ এবং এলোমেলো বন


12

সাম্প্রতিক কাগল প্রতিযোগিতার জন্য, আমি (ম্যানুয়ালি) আমার প্রশিক্ষণ সংস্থার জন্য 10 টি অতিরিক্ত বৈশিষ্ট্য সংজ্ঞায়িত করেছি, যা পরে এলোমেলো বন শ্রেণিবদ্ধ প্রশিক্ষণ দেওয়ার জন্য ব্যবহৃত হবে। তারা একে অপরের সাথে কীভাবে তুলনা করে তা দেখার জন্য আমি নতুন বৈশিষ্ট্যগুলি সহ ডেটাসেটে পিসিএ চালানোর সিদ্ধান্ত নিয়েছি। আমি দেখেছি যে ~ 98% বৈকল্পিকতা প্রথম উপাদান (প্রথম ইগেনভেেক্টর) দ্বারা বহন করা হয়েছিল। আমি তখন ক্লাসিফায়ারকে একাধিকবার প্রশিক্ষণ দিয়েছিলাম, একবারে একটি বৈশিষ্ট্য যুক্ত করেছি এবং শ্রেণিবদ্ধকরণের মান তুলনা করতে ক্রস-বৈধতা এবং আরএমএস ত্রুটি ব্যবহার করেছি। আমি দেখতে পেয়েছি যে প্রতিটি অতিরিক্ত বৈশিষ্ট্য সহ শ্রেণিবদ্ধকরণগুলি উন্নত হয়েছিল এবং চূড়ান্ত ফলাফল (সমস্ত 10 টি নতুন বৈশিষ্ট্য সহ) 2 টি বৈশিষ্ট্য সহ প্রথম রান করার চেয়ে অনেক ভাল ছিল।

  • প্রদত্ত যে পিসিএ দাবি করেছে যে dat 98% ভেরিয়েন্সটি আমার ডেটাসেটের প্রথম উপাদানটিতে ছিল, কেন শ্রেণিবদ্ধের মান এত উন্নত হল?

  • এটি কি অন্য শ্রেণিবদ্ধীদের পক্ষে সত্য? আরএফ একাধিক কোর জুড়ে স্কেল করে, তাই এসভিএম (বলার অপেক্ষা) এর চেয়ে বেশি প্রশিক্ষণ দেওয়া।

  • আমি যদি ডেটাসেটটিকে "পিসিএ" স্পেসে রুপান্তরিত করে রূপান্তরিত স্থানটিতে শ্রেণিবদ্ধী চালিতাম তবে কী হবে। কীভাবে আমার ফলাফল পরিবর্তন হবে?


2
আপনি কি পিসিএ চালানোর আগে আপনার ডেটাটিকে স্বাভাবিক করেছিলেন? যদি আমি অনুমান করতে পারি যে আমি ভাবতে পারি যে আপনার বৈশিষ্ট্যগুলির মধ্যে একটি অন্যদের তুলনায় অনেক বড় আকারে ছিল ...
মার্ক শিওয়ার্স

1
পিসিএ ফাংশন গণনা করার সময় স্বয়ংক্রিয়ভাবে সবকিছুকে স্বাভাবিক করে তোলে।
বিশাল

1
হতে পারে এটি কেবল আমি, তবে আপনি কি নিম্নলিখিত বিষয়গুলি পরিষ্কার করতে পারেন: আপনার প্রথম ধাপে একবারে একটি করে 10 (কাঁচা) বৈশিষ্ট্য যুক্ত করা বা আপনি পিসিএ উপাদানগুলির সাথে সরাসরি কাজ করেছিলেন? যেমনটি বলা হয়েছে, আমি বুঝতে পারছি এটি প্রথম কেস এবং আপনি পিসিএ থেকে ফলাফল নিয়ে সরাসরি কাজ করতে পারবেন কিনা তা আপনি ভাবছেন। উভয় ক্ষেত্রেই, আপনি নতুন বৈশিষ্ট্য সহ সমস্ত ভেরিয়েবলগুলিতে পিসিএ প্রয়োগ করেছিলেন, বা কেবল পরে?
chl

আমি 10 টি অতিরিক্ত বৈশিষ্ট্য সহ মূল ম্যাট্রিক্সে পিসিএ প্রয়োগ করেছি। আমি তখন ক্লাসিফায়ারকে একবারে একটি বৈশিষ্ট্য যুক্ত করে প্রশিক্ষণ দিয়েছি, যাতে প্রতিটি বৈশিষ্ট্য সংযোজন সহ প্রদত্ত বর্ধিত উন্নতি পরিমাপ করতে পারি। আমার প্রশ্নটি কী ছিল যদি আমি ডেটাসেটটি (10 টি নতুন বৈশিষ্ট্য সহ) পিসিএ স্পেসে রুপান্তরিত করি এবং তারপরে পিসিএ স্পেসে সরাসরি ডেটাশেটের ক্লাসিফায়ার চালাতাম
বিশাল

উত্তর:


7

ভবিষ্যদ্বাণীপূর্ণ মডেলিং করার সময়, আপনি প্রতিক্রিয়াতে বৈশিষ্ট্যগুলির মধ্যে ভিন্নতাটি ব্যাখ্যা করার চেষ্টা করছেন না। বিশ্বাস করার কোনও কারণ নেই যে বৈশিষ্ট্যটির একক নতুন বৈশিষ্ট্যে পরিবর্তনের ফলে পুরো বৈশিষ্ট্যগুলির ভবিষ্যদ্বাণীপূর্ণ শক্তির বিশাল পরিমাণ ক্যাপচার হবে।

এটি প্রায়শই আংশিক স্বল্প স্কোয়ারের পরিবর্তে অধ্যক্ষ উপাদান উপাদানগুলির মধ্যে পার্থক্য হিসাবে ব্যাখ্যা করা হয়।


"বিশ্বাস করার কোনও কারণ নেই যে বৈশিষ্ট্যটির একক নতুন বৈশিষ্ট্যে পরিবর্তনের ফলে পুরো বৈশিষ্ট্যগুলির ভবিষ্যদ্বাণীপূর্ণ শক্তির একটি বিশাল পরিমাণ ক্যাপচার হবে" " এটি কখনই বিন্দু ছিল না এবং এটি করার ফলে খুব বিভ্রান্ত শ্রেণিবদ্ধ হবে! লক্ষ্যটি ছিল সাধারণকরণের ত্রুটি হ্রাস করার অভিপ্রায় সহ বিভিন্ন বৈশিষ্ট্য, যা সমস্ত ডেটাসেটের বিভিন্ন দিক চিত্রিত করে। পিসিএ নেওয়ার বিষয়টি দেখতে পেল যে বৈশিষ্ট্যগুলি কতটা আলাদা। এবং আমার পোস্টিংয়ের বিষয়টি হ'ল আমার বৈশিষ্ট্যগুলি আলাদা ছিল না, তবুও আরএফের ফলাফলগুলি আরও উন্নত হয়েছিল।
বিশাল

1
একই যুক্তি এখনও প্রয়োগ করতে পারেন। একটি পূর্ববর্তী বৈশিষ্ট্য সহ একটি নতুন বৈশিষ্ট্য অত্যন্ত কলিনিয়ার এখনও আরও ভবিষ্যদ্বাণীপূর্ণ শক্তি আনতে পারে। বিশেষত একটি র্যান্ডমফোরস্টের জন্য: যদি নিকটবর্তী সদৃশ বৈশিষ্ট্যটি সাধারণভাবে গুরুত্বপূর্ণ হয় তবে একটি সংস্করণ বা অন্যটি এখন বিভাজনকারী প্রার্থী হিসাবে নির্বাচিত হওয়ার সম্ভাবনা বেশি।
শেয়া পার্কস

এটি ফলো-আপ প্রশ্নটির সূত্রপাত করে, আপনি কীভাবে শ্রেণিবদ্ধকরণ না চালিয়ে শ্রেণিবদ্ধকরণ উন্নত করতে আপনার এলোমেলো বন শ্রেণিবদ্ধের জন্য বৈশিষ্ট্যগুলি অগ্রাধিকার চয়ন করেন? স্ক্রিনিং প্রক্রিয়া আছে? তুমি এটা কিভাবে কর? :)
বিশাল

আমি কোনও কার্যকর প্রাক-অগ্রাধিকার নির্বাচন পদ্ধতি জানি না। আপনি কিছু আর প্যাকেজগুলির মতো গুরুত্বপূর্ণ নেস্টেড লুপগুলি গুরুত্ব এবং নির্বাচন করতে পারেন Boruta। আমি তাদের দরকারী খুঁজে পেল না। আমার বিশ্বাস করা অযৌক্তিক মনে হয় যে কোনও প্রদত্ত বৈশিষ্ট্যের কোনও প্রভাব নেই। আমি বিশ্বাস করতে পারি যে অন্যের তুলনায় নির্দিষ্ট বৈশিষ্ট্যগুলিকে জোর দেওয়া কার্যকর হতে পারে তবে বেস র্যান্ডমফোরস্ট অ্যালগরিদম এটি ইতিমধ্যে বেশ ভালভাবে করেছে। আপনি যদি মডেলিংয়ের গভীরে থাকেন এবং আরও পারফরম্যান্স চান, আমি আপনার র্যান্ডমফরেস্ট সহ অন্যান্য অ্যালগরিদমগুলিকে কিছু বর্ধিত গাছ হিসাবে রাখার পরামর্শ দেব।
শেয়া পার্কস

1
আপনি কোনও বৈশিষ্ট্য (জেফরিস-মাতুসিটা দূরত্ব, ডাইভারজেন্স ইত্যাদি) এর উপর ভিত্তি করে আপনার ক্লাসের জন্য কিছু বিচ্ছিন্নতা ব্যবস্থার গণনা করতে পারতেন। এটি আপনাকে সাধারণভাবে চিত্রায়িত করতে সহায়তা করতে পারে যা বৈশিষ্ট্যগুলি আপনাকে ক্লাসগুলির মধ্যে পার্থক্য করতে সহায়তা করে তবে আরএফের কাজকর্মের কারণে এখান থেকে চয়ন করা সহজ নয় যা বৈশিষ্ট্যগুলি শ্রেণিবিন্যাসের জন্য সর্বোত্তম সেট সরবরাহ করে। এখানে একটি স্পষ্ট বাধা হ'ল আরএফ নিজেই পরিবর্তনশীল মিথস্ক্রিয়াগুলি আবিষ্কার করে।
জেকুইহুয়া

6

প্রথম প্রধান উপাদানটি আপনার সমস্ত বৈশিষ্ট্যের একটি লিনিয়ার সংমিশ্রণ। এটি প্রায় সমস্ত পরিবর্তনশীলতার ব্যাখ্যা দেয় এই সত্যটির অর্থ হ'ল প্রথম মূল উপাদানটির বেশিরভাগ সহগের উল্লেখযোগ্য।

এখন আপনি যে শ্রেণিবিন্যাসের গাছগুলি উত্পন্ন করেন সেগুলিও অন্যরকম একটি প্রাণী। তারা অবিচ্ছিন্ন ভেরিয়েবলগুলিতে বাইনারি বিভক্ত হয় যা আপনার শ্রেণিবদ্ধ করতে চান এমন বিভাগগুলিকে সর্বোত্তমভাবে পৃথক করে। এটি অবিচ্ছিন্ন ভেরিয়েবলগুলির অরথোগোনাল লিনিয়ার সংমিশ্রণগুলি সন্ধান করার মতো নয় যা সবচেয়ে বড় বৈকল্পিকের দিকনির্দেশ দেয়। প্রকৃতপক্ষে আমরা সম্প্রতি সিভিতে একটি কাগজ নিয়ে আলোচনা করেছি যেখানে পিসিএ ক্লাস্টার বিশ্লেষণের জন্য ব্যবহৃত হয়েছিল এবং লেখক (গুলি) দেখেছেন যে এমন পরিস্থিতি রয়েছে যেখানে সবচেয়ে ভাল বিচ্ছেদ প্রথম কয়েকটি মূল উপাদানগুলিতে নয় বরং শেষের ক্ষেত্রে পাওয়া যায় ones


3
"আসলে আমরা সম্প্রতি সিভিতে একটি কাগজ নিয়ে আলোচনা করেছি যেখানে পিসিএ" এর সাথে আপনার কোনও লিঙ্ক আছে? আমি খুব আগ্রহী :)
ব্যবহারকারী 603

আমি আলোচনাটি সন্ধান করব।
মাইকেল আর চেরনিক

সম্পর্কিত প্রশ্নটি একবার দেখার জন্য আপনি কি এত দয়াবান হবেন ?
নাদ্যা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.