পিসিএ যখন নমুনার সংখ্যার চেয়ে বেশি হয় sion


21

আমি এমন একটি দৃশ্যের মুখোমুখি হয়েছি যেখানে আমার 10 জনের জন্য 10 সংকেত / ব্যক্তি রয়েছে (সুতরাং 100 নমুনা) যাতে 14000 ডেটা পয়েন্ট (মাত্রা) থাকে যা আমার একটি শ্রেণিবদ্ধের কাছে যেতে হবে। আমি এই ডেটার মাত্রিকতা হ্রাস করতে চাই এবং পিসিএ মনে হয় এটি করার উপায়। যাইহোক, আমি কেবলমাত্র পিসিএর উদাহরণ খুঁজে পেতে সক্ষম হয়েছি যেখানে নমুনাগুলির সংখ্যা মাত্রার সংখ্যার চেয়ে বেশি। আমি একটি পিসিএ অ্যাপ্লিকেশন ব্যবহার করছি যা এসভিডি ব্যবহার করে পিসি খুঁজে পায়। যখন আমি এটি আমার 100x14000 ডেটাসেটটি পাস করি তখন 101 পিসি ফিরে আসে সুতরাং বিশাল আকারের মাত্রাগুলি স্পষ্টতই উপেক্ষা করা হয়। প্রোগ্রামটি নির্দেশ করে যে প্রথম 6 টি পিসিতে 90% প্রকরণ রয়েছে contain

এটি কি একটি যুক্তিসঙ্গত অনুমান যে এই 101 টি পিসিতে মূলত সমস্ত বৈকল্পিক রয়েছে এবং অবশিষ্ট মাত্রাগুলি অবহেলাযোগ্য?

আমি যেসব কাগজপত্র পড়েছি তার মধ্যে একটি দাবি করেছে যে, আমার নিজের তুলনায় একই রকম (যদিও নিম্ন মানের) ডেটাসেট ব্যবহার করে তারা 4500 মাত্রা হ্রাস করতে সক্ষম হয়েছিল মূল তথ্যের 96% বজায় রেখে ৮০ এ নামিয়ে আনবে। ব্যবহৃত পিসিএ কৌশল সম্পর্কিত কাগজের হাতের তরঙ্গগুলি কেবলমাত্র 3100 টি নমুনা পাওয়া যেত, এবং পিসিএ (শ্রেণিবিন্যাসের পর্ব থেকে পক্ষপাত দূর করতে) ব্যবহার করার জন্য যে নমুনাগুলি ব্যবহার করা হয়েছিল তার চেয়ে কম স্যাম্পল বিশ্বাস করার কারণ আমার আছে।

আমি কি কিছু মিস করছি বা সত্যিই পিসিএটি উচ্চ মাত্রা-নিম্ন নমুনা আকারের ডেটাসেটের সাথে ব্যবহার করা হচ্ছে? কোন প্রতিক্রিয়া ব্যাপকভাবে প্রশংসা হবে।


2
মাত্রার চেয়ে যদি আপনার কাছে আরও বেশি ডেটা না থাকে তবে একটি দিক খুঁজে পাওয়া শক্ত যে বেশিরভাগ পরিবর্তনশীলতা সরিয়ে দেয় WHihc হ'ল প্রথম প্রধান উপাদানটি করণীয়। সাধারণভাবে রয়েছে মাত্রিকতার অভিশাপ। ডেটা উচ্চ মাত্রায় কেন্দ্র থেকে সরে যেতে ঝোঁক। বেলম্যান 1960 এর দশকে এটি সম্পর্কে লিখেছিলেন।
মাইকেল আর। চেরনিক

খুব বেশি সম্পর্কিত: stats.stackexchange.com/questions/123318
অ্যামিবা

উত্তর:


9

আমি সমস্যাটি কিছুটা আলাদা কোণ থেকে দেখব: কেবলমাত্র 10 টি বিষয় / 100 টি নমুনা নিয়ে আপনি কতটা জটিল মডেল বহন করতে পারবেন?

এবং এই প্রশ্নটি আমি সাধারণত উত্তর দিয়ে থাকি: 100 পিসির চেয়ে অনেক কম। নোট করুন যে আমি বিভিন্ন ধরণের ডেটা (কম্পনের বর্ণালী) নিয়ে কাজ করি, তাই জিনিসগুলি কিছুটা পৃথক হতে পারে। আমার ক্ষেত্রে একটি সাধারণ সেট আপ (10) বিষয়ের ও (1000) বর্ণালী থেকে গণনা করা 10 বা 25 বা 50 পিসি ব্যবহার করা হবে।

আমি যা করব তা এখানে:

  • এই 100 পিসি দ্বারা আচ্ছাদিত রূপটি দেখুন। আমি সাধারণত দেখতে পাই যে কেবলমাত্র কয়েকটি সংখ্যক উপাদানই আমাদের উপাত্তের পরিবর্তনে অবদান রাখে।

  • আমি পিসিএ-তে সংঘাতের জন্য প্রাক চিকিত্সা হিসাবে পিএলএসকে অনেক বেশি পছন্দ করি কারণ উচ্চতর প্রকরণ রয়েছে যা শ্রেণিবিন্যাসে সহায়তা করে না এমন দিকনির্দেশ বাছাইয়ের ক্ষেত্রে এটি আরও ভাল কাজ করে (আমার ক্ষেত্রে যে ফোকাসের বিভিন্নতা হতে পারে, নমুনার বেধের ভিন্নতা থাকতে পারে,।) ..)। আমার অভিজ্ঞতায় আমি প্রায়শই 10 পিএলএস সুপ্ত ভেরিয়েবল বা 25 থেকে 50 পিসি সহ একই রকম শ্রেণিবদ্ধ পাই।

  • বৈধকরণের নমুনাগুলি কেবলমাত্র প্রশিক্ষণ সেট থেকে গণনা করা পিসিএ রোটেশন দিয়ে প্রক্রিয়া করা প্রয়োজন, অন্যথায় বৈধতা (এবং আপনার মতো সম্ভবত চূড়ান্ত ক্ষেত্রে সম্ভবত) একটি বৃহত্তর overoptimistic পক্ষপাত থাকতে পারে।
    অন্য কথায়, আপনি যদি বুট-স্ট্র্যাপ বা ক্রস বৈধতা না করেন তবে পিসিএ বা পিএলএস প্রিপ্রসেসিং প্রতিটি ট্রেন / পরীক্ষা সেট সংমিশ্রণের জন্য আলাদাভাবে গণনা করা দরকার।


খুব তথ্যমূলক পোস্টের জন্য ধন্যবাদ। আমি বায়োমেট্রিক সিগন্যাল ডেটা নিয়ে কাজ করছি। যুক্তিসঙ্গত পারফরম্যান্সের সাথে শ্রেণিবদ্ধকরণ করতে আমার 100 টিরও কম পিসি প্রয়োজন, কোথাও 25-50 এর পরিসীমা ভাল হবে। আমার যে নমুনাগুলি পরীক্ষা করতে হবে তার সংখ্যা হ্রাস করতে আমি আমার স্যাম্পলিং হারকে পিছনে ফেলে দেওয়ার বিষয়টি বিবেচনা করেছি, তবে আপনি কি রেজোলিউশন ট্রেড-অফের পক্ষে মূল্যবান হওয়ার আশা করছেন বা প্রশিক্ষণের ক্ষেত্রে একই আকার একই থাকায় এর কোনও প্রভাব পড়বে কি? ? যদিও ক্ষেত্রের অন্যান্য অধ্যয়নের সাথে সামঞ্জস্য রাখতে আমার পিসিএ দরকার, আমি অবশ্যই পিএলএসকে একটি মাধ্যমিক পদ্ধতির হিসাবে দেখব look
জেমস

1
@ জেমস: আমি ভয় করি যে আপনার ডেটা না জেনে স্যাম্পলিং হারের প্রশ্নের উত্তর দেওয়া যাবে না। মূলত এটি কার্যকর নমুনার আকারের প্রশ্ন। আরও কিছু না জেনে আমরা কেবল এটিই বলতে পারি যে এটি কোথাও এন (ব্যক্তি) এবং এন (নমুনা) এর মধ্যে রয়েছে। যদি 1 ব্যক্তির সমস্ত 10 টি নমুনা অন্য ব্যক্তির নমুনাগুলির চেয়ে একে অপরের সাথে অনেক বেশি একই রকম হয়, তবে আরও নমুনাগুলি ডেটা সেটে বেশি তথ্য যুক্ত করে না। সমস্ত নমুনা সহ একটি মডেল এবং ব্যক্তি প্রতি একমাত্র নমুনা সহ একটি দ্বিতীয় মডেল তৈরি করে এবং তাদের পারফরম্যান্সের তুলনা করে আপনি এটি পরীক্ষা করতে পারেন।
সিবিলেটরা

@ জেমস: (খণ্ড ২) আপনি যদি মনে করেন যে একজন ব্যক্তির নমুনা একে অপরের সাথে সমান, তবে আপনার অবশ্যই যত্ন নেওয়া উচিত যে বৈধতা এবং প্রশিক্ষণ সেটগুলি ব্যক্তি ভাগ না করে (যেমন একটি ব্যক্তির সমস্ত নমুনা হয় প্রশিক্ষণে বা ইন পরীক্ষা সেট)।
সিবিলেটরা

আমার কাছে ফিরে আসার জন্য ধন্যবাদ. ব্যবহারকারীদের ক্লাসগুলির মধ্যে নমুনা ব্যবস্থায় উল্লেখযোগ্য ওভারল্যাপ সহ আমার ডেটাতে ভেরিয়েবলের উচ্চতর ডিগ্রি রয়েছে। তবে দুঃখিত, নমুনাগুলি হ্রাস করার পরিবর্তে আমি বলতে চাইছি 14000 ডেটা পয়েন্টের রেজোলিউশন হ্রাস করতে, সুতরাং বলুন কেবল পিসিএতে প্রতি ২ য়, তৃতীয় বা চতুর্থ পয়েন্ট ব্যবহৃত হয়েছিল, তবে একই সংখ্যক প্রকৃত ব্যবহারকারীর নমুনা সহ। আমার কৌতূহল ছিল যে রেজোলিউশনের এই ধরনের ড্রপটি পিসিএর ফলাফলগুলিতে ইতিবাচক, নেতিবাচক বা কোনও প্রভাব ফেলবে কিনা তা প্রত্যাশা করা হবে যে আমার মাত্রা আমার নমুনাগুলির চেয়ে ইতিমধ্যে অনেক বড়।
জেমস

1
th


আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.