আমি কীভাবে বলতে পারি যে পিসিএ ফলাফলগুলিতে কোনও প্যাটার্ন নেই?


9

আমার কাছে 19 টি ভেরিয়েবলের 1000+ স্যাম্পল ডেটাসেট রয়েছে। আমার উদ্দেশ্যটি অন্যান্য 18 ভেরিয়েবল (বাইনারি এবং অবিচ্ছিন্ন) এর উপর ভিত্তি করে বাইনারি ভেরিয়েবলের পূর্বাভাস দেওয়া। আমি যথেষ্ট আত্মবিশ্বাসী যে ভবিষ্যদ্বাণীকারী ভেরিয়েবলগুলির মধ্যে 6 বাইনারি প্রতিক্রিয়ার সাথে যুক্ত, তবে, আমি ডেটাসেটটি আরও বিশ্লেষণ করতে চাই এবং অন্যান্য সমিতি বা কাঠামো যা আমি অনুপস্থিত হতে পারি তা খুঁজতে চাই। এটি করার জন্য, আমি পিসিএ এবং ক্লাস্টারিং ব্যবহার করার সিদ্ধান্ত নিয়েছি।

সাধারণীকরণ করা ডেটাতে পিসিএ চালানোর সময় দেখা যায় যে 85% বৈকল্পিকতা ধরে রাখতে 11 টি উপাদান রাখা দরকার। এখানে চিত্র বর্ণনা লিখুন জোড় প্লটগুলি প্লট করে আমি এটি পেয়েছি: এখানে চিত্র বর্ণনা লিখুন

এরপরের কী বিষয়ে আমি নিশ্চিত নই ... আমি পিসিএতে কোনও উল্লেখযোগ্য প্যাটার্ন দেখতে পাচ্ছি না এবং আমি ভাবছি যে এর অর্থ কী এবং যদি কিছু পরিবর্তনশীল বাইনারি হওয়ার কারণে এটি ঘটতে পারে। Cl টি ক্লাস্টার সহ একটি ক্লাস্টারিং অ্যালগরিদম চালিয়ে আমি নিম্নলিখিত ফলাফলটি পাই যা হুবহু উন্নতি হয় না যদিও কিছু ব্লব মনে হচ্ছে (হলুদগুলি)। এখানে চিত্র বর্ণনা লিখুন

আপনি সম্ভবত বলতে পারেন যে, আমি পিসিএ-তে বিশেষজ্ঞ নই, তবে কয়েকটি টিউটোরিয়াল দেখেছি এবং কীভাবে এটি উচ্চ মাত্রিক স্থানে কাঠামোর ঝলক পাওয়া শক্তিশালী হতে পারে। বিখ্যাত এমএনআইএসটি সংখ্যা (বা আইআরআইএস) ডেটাসেটের সাহায্যে এটি দুর্দান্ত কাজ করে। আমার প্রশ্ন হ'ল পিসিএ থেকে আরও বেশি বোঝার জন্য এখন আমাকে কী করা উচিত? ক্লাস্টারিং কোনও কার্যকর কিছু গ্রহণ করেছে বলে মনে হচ্ছে না, আমি কীভাবে বলতে পারি যে পিসিএতে কোনও প্যাটার্ন নেই বা পিসিএ ডেটাতে নিদর্শনগুলি খুঁজে পেতে আমার আরও কী চেষ্টা করা উচিত?


ভবিষ্যদ্বাণীকারীদের অনুসন্ধানের জন্য আপনি পিসিএ করছেন কেন? অন্য কিছু পদ্ধতি ব্যবহার করবেন না কেন? উদাহরণস্বরূপ, আপনি সেগুলি একটি লজিস্টিক রেগে অন্তর্ভুক্ত করতে পারেন, আপনি লাসো ব্যবহার করতে পারেন, আপনি একটি গাছের মডেল তৈরি করতে পারেন, ব্যাগিং রয়েছে, উত্সাহিত করছে ইত্যাদি
পিটার ফ্লুম

"প্যাটার্ন" দ্বারা আপনি বিশেষত কী বোঝাতে চাইছেন যে পিসিএ প্রকাশ করা ভাল?
ttnphns

@ttnphns আমি কি করতে চেষ্টা করছি পর্যবেক্ষণ বাইনারি প্রতিক্রিয়া আমি ভবিষ্যদ্বাণী করা চেষ্টা করছি ফলাফল ব্যাখ্যা ভাল করার সাধারণ কিছু থাকতে পারে কিছু উপদলের খুঁজে পেতে (এই আংশিকভাবে দ্বারা অনুপ্রাণিত হয়েছে everydayanalytics.ca/2014/ 06 /… )। এছাড়াও আইসিআর ডেটাসেটে পিসিএ এবং ক্লাস্টারিং ব্যবহার করে প্রজাতিগুলি আলাদা করতে দরকারী ( সাইকিট - লেয়ার.আর.আর.স্টেবল / আউটো_এক্সেমসস / ডিকম্পোজেশন / )) যদিও এটি অতি-সহজ, যেহেতু আমরা ইতিমধ্যে ক্লাস্টারের সংখ্যা জানি।
মিক্কক

@ পিটারফ্লম আমি ইতিমধ্যে লজিস্টিক রিগ্রেশন এবং একটি এলোমেলো বন মডেল চালিয়েছি এবং তারা শালীনভাবে পারফর্ম করছে, তবে আমি ডেটা আরও তদন্ত করতে চাই।
মিক্কক

উত্তর:


7

আপনি ব্যাখ্যা করেছেন ভেরিয়েন্স প্লট আমাকে বলেছে যে পিসিএ এখানে অর্থহীন। 11/18 61১%, সুতরাং আপনার ভেরিয়েবলগুলির 61১% প্রয়োজন 85% বৈকল্পিক ব্যাখ্যা করতে। আমার মতে এটি পিসিএর ক্ষেত্রে নয়। আমি পিসিএ ব্যবহার করি যখন 18 এর 3-5 ফ্যাক্টর 95% বা তার বেশি তারতম্য ব্যাখ্যা করে।

আপডেট: পিসি সংখ্যা দ্বারা ব্যাখ্যা করা বৈকল্পিক ক্রমবর্ধমান শতাংশ এর প্লট দেখুন। এটি সুদের হারের মেয়াদ কাঠামোর মডেলিং ক্ষেত্র থেকে। আপনি দেখতে পান যে 3 টি উপাদান কীভাবে সম্পূর্ণ বৈকল্পিকতার 99% এর বেশি ব্যাখ্যা করে। এটি পিসিএ বিজ্ঞাপনের জন্য তৈরি একটি উদাহরণের মতো দেখতে পারে :) তবে এটি একটি আসল জিনিস। সুদের হারের টেনারগুলি অনেকটা পারস্পরিক সম্পর্কযুক্ত, এজন্যই এই অ্যাপ্লিকেশনটিতে পিসিএ খুব স্বাভাবিক। কয়েক ডজন টেনারের সাথে ডিল করার পরিবর্তে আপনি মাত্র 3 টি উপাদান নিয়ে কাজ করেন।

এখানে চিত্র বর্ণনা লিখুন


এটাই আমার সন্দেহ হয়েছিল প্রথম স্থানে। আমি সরাসরি এটিকে নির্দেশ করিনি কারণ পিসিএ সম্পর্কে এমন সাহসী বক্তব্য দেওয়ার বিষয়ে আমি তেমন কিছুই জানি না। এটি কি নিরাপদে বলা যায় যে যখন x% এরও বেশি অংশের প্রয়োজন হয় তখন পিসিএ খুব বেশি সাহায্য করে না? আমি বোঝাতে চাইছি যে অ্যাপ্লিকেশনগুলির উদাহরণগুলি আমি দেখেছি, সাধারণত কয়েকটি উপাদানই সর্বাধিক ভিন্নতার ব্যাখ্যা দেয়।
মিক্কক

@ মিক্ক্ক, এর কোন দৃ firm় নিয়ম নেই। আমার কাছে ইঙ্গিতটি হল রূপান্তরিত গ্রাফের বর্ণনা। আপনি যদি এটি পিসির সংখ্যা দ্বারা ব্যাখ্যা করা মোট বৈকল্পিকের সংখ্যক শতাংশ হিসাবে আঁকেন, তবে আপনি খুব অবতল গ্রাফ দেখতে চান। আপনার লিনিয়ারের খুব কাছাকাছি থাকতো: প্রতিটি উপাদান ডেটা সম্পর্কে প্রায় একই তথ্য বহন করে বলে মনে হয়, এক্ষেত্রে মূল ডেটার পরিবর্তে পিসিএ কেন ব্যবহার করবেন?
আকসকাল

নতুন উদাহরণ সহ সম্পাদনাটি খুব সহায়ক ছিল।
মিক্কক

5

আপনার যদি নমুনা থাকে এবং কেবল ভবিষ্যদ্বাণী থাকে তবে একটি মডেলটিতে সমস্ত ভবিষ্যদ্বাণীকারীকে ব্যবহার করা বেশ যুক্তিসঙ্গত। সেক্ষেত্রে পিসিএ পদক্ষেপটি অপ্রয়োজনীয় হতে পারে।N>1000p=19

যদি আপনি আত্মবিশ্বাসী হন যে কেবলমাত্র একটি চলকগুলির একটি উপসেট সত্যই ব্যাখ্যাযোগ্য হয়, তবে একটি স্পার্স রিগ্রেশন মডেল, যেমন ইলাস্টিক নেট ব্যবহার করে এটি আপনাকে প্রতিষ্ঠিত করতে সহায়তা করতে পারে।

এছাড়াও, মিশ্র প্রকারের ইনপুট (বাইনারি বনাম বাস্তব, বিভিন্ন স্কেল ইত্যাদি, সিভি প্রশ্ন এখানে দেখুন ) ব্যবহার করে পিসিএ ফলাফলগুলির ব্যাখ্যা এত সরল নয় এবং এটি করার কোনও স্পষ্ট কারণ না থাকলে আপনি এড়াতে চাইতে পারেন।


4

আমি আপনার প্রশ্নটি যথাসম্ভব সংক্ষেপে ব্যাখ্যা করতে যাচ্ছি can যদি এটি আপনার অর্থ পরিবর্তন করে তবে আমাকে জানান।

আমি যথেষ্ট আত্মবিশ্বাসী যে ভবিষ্যদ্বাণীকারী ভেরিয়েবলগুলির মধ্যে 6 বাইনারি প্রতিক্রিয়ার সাথে জড়িত [তবে] আমি পিসিএতে কোনও উল্লেখযোগ্য প্যাটার্ন দেখছি না

আপনার জোড়পত্রের সামঞ্জস্যতা ছাড়া আমি কোনও "উল্লেখযোগ্য প্যাটার্ন" দেখতে পাচ্ছি না। এগুলি সবই মোটামুটি বৃত্তাকার ব্লবগুলি। আপনি কি দেখতে প্রত্যাশিত আমি আগ্রহী। স্পষ্টভাবে পৃথক পয়েন্ট ক্লাস্টারগুলির কিছু জুটি প্লট? লিনিয়ার খুব কাছাকাছি কয়েক প্লট?

আপনার পিসিএ ফলাফল - টপ 11 টি মূল উপাদানগুলিতে ব্লবলাইক পেয়ারপ্লটস এবং কেবল 85% বৈকল্পিক - বাইনারি প্রতিক্রিয়া পূর্বাভাসের জন্য আপনার হানচকে প্রায় 6 টি ভেরিয়েবল পর্যাপ্ত হওয়া থেকে বিরত রাখবেন না।

এই পরিস্থিতিতে কল্পনা করুন:

  1. বলুন আপনার পিসিএ ফলাফল দেখায় যে 99% বৈকল্পিক 6 প্রধান উপাদান দ্বারা ক্যাপচার করা হয়েছে।

    এটি আপনার কুঁচকে প্রায় 6 ভবিষ্যদ্বাণী ভেরিয়েবল সমর্থন করে বলে মনে হতে পারে - সম্ভবত আপনি 6 টি মাত্রিক স্থানটিতে একটি বিমান বা অন্য কোনও পৃষ্ঠকে সংজ্ঞায়িত করতে পারেন যা পয়েন্টগুলি খুব ভালভাবে শ্রেণিবদ্ধ করেছে এবং আপনি সেই পৃষ্ঠটিকে বাইনারি ভবিষ্যদ্বাণী হিসাবে ব্যবহার করতে পারেন। যা আমাকে ২ নম্বরে নিয়ে আসে ...

  2. বলুন যে আপনার শীর্ষ 6 প্রধান উপাদানগুলিতে জোড়া লাগানোর মতো চেহারা রয়েছে

    জোড়া "প্ল্যাটফর্ম"।

    তবে আসুন রঙের একটি যথেচ্ছ বাইনারি প্রতিক্রিয়া

    "প্যাটার্ন" অকেজো।

    যদিও আপনি 6 টি ভেরিয়েবলের প্রায় সমস্ত (99%) বৈকল্পিক ক্যাপচার করতে সক্ষম হয়েছেন, তবুও আপনার বাইনারি প্রতিক্রিয়ার পূর্বাভাস দেওয়ার জন্য আপনাকে স্থানিক বিভাজন থাকার নিশ্চয়তা নেই।

আপনার আসলে বেশ কয়েকটি সংখ্যার থ্রোসোল্ডগুলির প্রয়োজন হতে পারে (যা 6 মাত্রিক স্থানের উপরিভাগ হিসাবে প্লট করা যেতে পারে), এবং আপনার বাইনারি শ্রেণিবিন্যাসে একটি পয়েন্টের সদস্যতার জন্য সেই পয়েন্টটির প্রতিটি সংখ্যার সাথে সম্পর্কযুক্ত জটিল শর্তসাপেক্ষ প্রকাশের উপর নির্ভর করতে পারে। তবে এটি কীভাবে বাইনারি ক্লাসের পূর্বাভাস দেওয়া যায় তার একটি উদাহরণ। প্রতিনিধিত্ব, প্রশিক্ষণ এবং ভবিষ্যদ্বাণী করার জন্য প্রচুর ডেটা স্ট্রাকচার এবং পদ্ধতি রয়েছে। এটি একটি টিজার। উদ্ধৃতি থেকে,

প্রায়শই একটি মেশিন লার্নিংয়ের সমস্যা সমাধানের সবচেয়ে শক্ত অংশটি কাজের জন্য সঠিক অনুমানকারীকে সন্ধান করতে পারে।


1
কারণ এটি স্মাইলি মুখের, আসলে ভালো হয় সম্পর্কহীন! আমি এটা পছন্দ।
অ্যামিবা

@ অ্যামিবা, আপনি কি আনর্ক্রেলেটেড পিসি থেকে হাসি মুখটি পেতে পারেন?
আকসকল

@ আকসাকাল, হ্যাঁ, স্মাইলি স্ক্রটার প্লটটি আমার কাছে শূন্য সহাবস্থান প্রদর্শনের জন্য মনে হচ্ছে। কেডব্যানম্যান, আমি আপডেটটি প্রশংসা করি, +1।
অ্যামিবা

@ অ্যামিবা, ঠিক আছে, আপনি লিনিয়ার পারস্পরিক সম্পর্ক বলতে চাইছেন ।
আকসকাল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.