বহু স্তরের সাথে শ্রেণিবদ্ধ ভেরিয়েবলগুলি ভেঙে যাওয়ার মূলনীতি?


58

কোনও পরিসংখ্যানের মডেলটিতে ইনপুট (ভবিষ্যদ্বাণীকারী) হিসাবে তাদের ব্যবহার করার উদ্দেশ্যে, কয়েকটি বিভাগকে কয়েকটি ভাঙ্গার জন্য (বা পুলিং) কী কী কৌশলগুলি উপলভ্য?


কলেজ ছাত্র মেজর (একটি স্নাতক ছাত্র দ্বারা নির্বাচিত শৃঙ্খলা) মত একটি পরিবর্তনশীল বিবেচনা করুন । এটি অযৌক্তিক এবং শ্রেণিবদ্ধ, তবে এটির সম্ভাব্য কয়েক ডজন স্বতন্ত্র স্তর থাকতে পারে। ধরা যাক আমি একটি রিগ্রেশন মডেলটিতে প্রেডিকটার হিসাবে মেজরটি ব্যবহার করতে চাই।

মডেলিংয়ের জন্য এই স্তরগুলিকে যেমন ব্যবহার করা হয় তখন সমস্ত ধরণের সমস্যার দিকে নিয়ে যায় কারণ সেখানে অনেকগুলি রয়েছে। এগুলি ব্যবহারের জন্য প্রচুর পরিসংখ্যানগত নির্ভুলতা ফেলে দেওয়া হবে এবং ফলাফলগুলি ব্যাখ্যা করা শক্ত। আমরা নির্দিষ্ট মেজরগুলিতে খুব কমই আগ্রহী - আমরা মেজরের বিস্তৃত বিভাগগুলিতে (সাবগ্রুপ) আগ্রহী হওয়ার সম্ভাবনা অনেক বেশি। তবে কীভাবে স্তরগুলিকে এই জাতীয় উচ্চ স্তরের বিভাগগুলিতে ভাগ করা যায় বা এমনকি কতগুলি উচ্চ-স্তরের বিভাগ ব্যবহার করা যায় তা সবসময় পরিষ্কার নয়।

সাধারণ ডেটাগুলির জন্য আমি ফ্যাক্টর বিশ্লেষণ, ম্যাট্রিক্স ফ্যাক্টেরাইজেশন বা একটি স্বতন্ত্র সুপ্ত মডেলিং কৌশল ব্যবহার করে খুশি হব। তবে মেজররা পারস্পরিক একচেটিয়া বিভাগ, তাই আমি যে কোনও কিছুর জন্য তাদের সম্প্রদায়কে কাজে লাগাতে দ্বিধা বোধ করি।

তদুপরি আমি তাদের নিজস্ব প্রধান বিভাগগুলি সম্পর্কে চিন্তা করি না। আমি আমার প্রতিরোধের ফলাফলের সাথে সম্মতিযুক্ত উচ্চ স্তরের বিভাগগুলি উত্পাদন করার বিষয়ে যত্নশীল । বাইনারি ফলাফলের ক্ষেত্রে, এটি বৈষম্যমূলক কর্মক্ষমতা সর্বাধিকতর করে এমন উচ্চ-স্তরের বিভাগগুলি উত্পন্ন করতে লিনিয়ার বৈষম্যমূলক বিশ্লেষণ (এলডিএ) এর মতো কিছু প্রস্তাব দেয়। তবে এলডিএ একটি সীমাবদ্ধ কৌশল এবং এটি আমার কাছে নোংরা ডেটা ড্রেজিংয়ের মতো অনুভব করে। তবুও কোনও অবিচ্ছিন্ন সমাধান ব্যাখ্যা করা কঠিন হবে।

ইতিমধ্যে একাধিক চিঠিপত্র বিশ্লেষণের (এমসিএ) মতো সমবায় ভিত্তিক কিছু আমার পক্ষে সন্দেহজনক বলে মনে হচ্ছে পারস্পরিক একচেটিয়া ডামি ভেরিয়েবলগুলির মধ্যে অন্তর্নিহিত নির্ভরতার কারণে - তারা একাধিক বিভাগের পরিবর্তে একাধিক শ্রেণিবদ্ধ ভেরিয়েবল অধ্যয়নের জন্য উপযুক্ত're একই পরিবর্তনশীল।

সম্পাদনা : পরিষ্কার হওয়ার জন্য, এটি ধসে পড়া বিভাগগুলি সম্পর্কে (সেগুলি নির্বাচন না করে) এবং বিভাগগুলি ভবিষ্যদ্বাণীকারী বা স্বতন্ত্র ভেরিয়েবল। অনিশ্চিতিতে, এই সমস্যাটি "তাদের সকলকে নিয়মিত করতে এবং Godশ্বরকে 'তাদের সাজানোর জন্য' উপযুক্ত সময় বলে মনে হয়। এই প্রশ্নটি দেখে খুব খুশি হলেন এত লোকের কাছে আকর্ষণীয়!


2
আমার মন্তব্যগুলিতে stats.stackexchange.com/questions/230636/… আমার এখানে অনুরূপ প্রশ্নের দীর্ঘ তালিকা রয়েছে! একবার দেখুন ... এছাড়াও, কীওয়ার্ডগুলি "অনেকগুলি স্তর" সহ এই সাইটটি অনুসন্ধান করুন আপনি অনেকগুলি অনুরূপ প্রশ্ন, কয়েকটি ভাল উত্তর পেয়েছেন।
কেজেটিল বি হালওয়ারসেন

3
আমি যখন সময় পাই তখন আমি এটিতে
কেজেটিল বি হালওয়ারসন

2
আমি মনে করি না যে আমি প্রশ্নটি পেয়েছি, আমার প্রাকৃতিক প্রবণতাটি হায়ারার্কিগুলি এনকোড করার জন্য আরও ডামি ভেরিয়েবল যুক্ত করা উচিত (তত যুক্তিযুক্ত যতগুলি বিভিন্ন স্তরক্রম আপনি ভাবতে পারেন) এবং তারপরে শীর্ষ স্তরের বিভাগগুলি নিশ্চিত করার জন্য L1 / L2 নিয়মিতকরণ ব্যবহার করুন সূক্ষ্ম স্তরের বিভাগগুলির চেয়ে নির্বাচন করা হয়। মেজর ইত্যাদির সমস্যাটি হ'ল স্পষ্টত কোনও মিল নেই (যখন এটি ডামি ভেরিয়েবল হিসাবে উপস্থাপিত হয়) সুতরাং একটি ভাল মডেল পেতে (যা সাধারণীকরণের অনুমতি দেয়) আপনাকে সেই সাদৃশ্য সরবরাহ করতে হবে
seanv507

1
@ এসএসডেকট্রোল, হ্যাঁ, আমার প্রোটোটাইপিকাল উদাহরণ হ'ল টেলিফোন নম্বর (বা অন্যান্য আইডি)। এইগুলি ব্যবহার করে কীভাবে মডেল করবেন জানতে চাইলে মূলত সঠিক উত্তরটি - না!
seanv507

2
আপনি যদি শ্রেণিবদ্ধতা অনুমান করতে চান, আপনি নিউরাল নেটওয়ার্ক এম্বেডিং স্কিমগুলি সন্ধান করতে পারেন। মূলত তারা বিভাগ এবং বাকী মডেলগুলির মধ্যে নিউরনের একটি হ্রাসিত সেট ব্যবহার করে, যাতে সেই মডেলটিকে সমাধানের ক্ষেত্রে অনুরূপ বিভাগগুলির রৈখিক অনুমানগুলি খুঁজে পেতে হবে। এটি মূলত ফ্যাক্টরিয়েশন মেশিনের একটি অ-রৈখিক সংস্করণ। tensorflow.org/guide/e এমবেডিং
seanv507

উত্তর:


41

যদি আমি সঠিকভাবে বুঝতে পারি তবে আপনি একটি লিনিয়ার মডেলটি কল্পনা করেন যেখানে ভবিষ্যদ্বাণীকারীদের মধ্যে একটি শ্রেণিবদ্ধ (যেমন কলেজ মেজর); এবং আপনি আশা করেন যে এর স্তরগুলির কয়েকটি উপগোষ্ঠীর জন্য (বিভাগগুলির উপ-গোষ্ঠী) সহগগুলি ঠিক একই রকম হতে পারে। সুতরাং সম্ভবত গণিত এবং পদার্থবিজ্ঞানের জন্য রিগ্রেশন সহগগুলি একই, তবে রসায়ন এবং জীববিজ্ঞানের তুলনায় পৃথক।

একটি সহজ ক্ষেত্রে, আপনার একটি একক শ্রেণিবদ্ধ পূর্বাভাসীর সাথে একটি "একমুখী আনোভা" রৈখিক মডেল থাকবে: যেখানে শ্রেণিবদ্ধ ভেরিয়েবলের স্তরটি এনকোড ( বিভাগ)। তবে আপনি এমন একটি সমাধান পছন্দ করতে পারেন যা কিছু স্তর (বিভাগগুলি) একসাথে পতিত হয়, যেমন

yij=μ+αi+ϵij,
i
{α1=α2,α3=α4=α5.

এটি পরামর্শ দেয় যে কেউ একটি নিয়মিতকরণ পেনাল্টি ব্যবহার করার চেষ্টা করতে পারে যা ভিন্ন ভিন্ন বর্ণগুলির সাথে সমাধানগুলিকে দন্ডিত করে। তাত্ক্ষণিক মনে মনে আসে এমন একটি পেনাল্টি শব্দটি হ'লএটি লাসোর সাথে সাদৃশ্যযুক্ত এবং পার্থক্যগুলির প্রয়োগ করতে হবে যা আপনি যা চান ঠিক তেমন: আপনি চান তাদের মধ্যে অনেকগুলি শূন্য হোক। নিয়মিতকরণ প্যারামিটার ক্রস-বৈধকরণের সাথে নির্বাচন করা উচিত।

L=ωi<j|αiαj|.
αiαjω

আমি এর মতো মডেলগুলির সাথে কখনও আচরণ করি নি এবং উপরেরটি আমার মনে প্রথম জিনিসটি এসেছে। তারপরে আমি সিদ্ধান্ত নিয়েছি যে এরকম কিছু বাস্তবায়িত হয়েছে কিনা। আমি কিছু গুগল অনুসন্ধান করেছি এবং শীঘ্রই বুঝতে পেরেছি এটিকে বলা হয় বিভাগগুলির ফিউশন ; অনুসন্ধান করা lasso fusion categoricalআপনাকে পড়ার জন্য অনেকগুলি রেফারেন্স দেবে। এখানে আমি কয়েকটি সংক্ষেপে তাকিয়েছি:

ফলিত পরিসংখ্যানের অ্যানালসে প্রকাশিত গেরথিস এবং টুটজ ২০১০ একটি সাম্প্রতিক এবং খুব পঠনযোগ্য কাগজের মতো দেখাচ্ছে যাতে অন্যান্য উল্লেখ রয়েছে। এটি এর বিমূর্ততা এখানে:

রিগ্রেশন বিশ্লেষণে সঙ্কুচিত পদ্ধতিগুলি সাধারণত মেট্রিক প্রেডিক্টরের জন্য ডিজাইন করা হয়। এই নিবন্ধে, শ্রেণিবদ্ধ পূর্বাভাসকারীদের সঙ্কুচিত পদ্ধতিগুলি প্রস্তাবিত। অ্যাপ্লিকেশন হিসাবে আমরা মিউনিখ ভাড়ার মান থেকে ডেটা বিবেচনা করি, যেখানে উদাহরণস্বরূপ, নগর জেলাগুলিকে শ্রেণিবদ্ধ ভবিষ্যদ্বাণী হিসাবে বিবেচনা করা হয়। যদি স্বাধীন ভেরিয়েবলগুলি শ্রেণিবদ্ধ হয় তবে স্বাভাবিক সঙ্কুচিত পদ্ধতিতে কিছু পরিবর্তন প্রয়োজন necessary ফ্যাক্টর নির্বাচন এবং ক্লাস্টারিংয়ের জন্য দুটি ভিত্তিক পদ্ধতি উপস্থাপিত এবং তদন্ত করা হয়। প্রথম পদ্ধতির নামমাত্র স্কেল স্তরের জন্য ডিজাইন করা হয়েছে, দ্বিতীয়টি অর্ডিনাল পূর্বাভাসকারীদের জন্য। এগুলি মিউনিখ ভাড়ার মানগুলিতে প্রয়োগ করার পাশাপাশি পদ্ধতিগুলি চিত্রিত করা হয় এবং সিমুলেশন অধ্যয়নের সাথে তুলনা করা হয়।L1

আমি তাদের লাসোর মতো সমাধানের পথগুলি পছন্দ করি যা দেখায় যে নিয়মিতকরণ শক্তি বৃদ্ধি করার সময় কীভাবে দুটি শ্রেণিবদ্ধ ভেরিয়েবলের স্তর একত্রে একত্রিত হয়:

গেরথিস এবং টুটজ ২০১০


1
এবং সমস্ত কিছু লেখার পরে আমি কেবল লক্ষ্য করেছি যে @ কেজেটিল ইতিমধ্যে এক সপ্তাহ আগে টুটসের একটি কাগজকে একটি লিঙ্ক দিয়েছিল ...
অ্যামিবা বলেছেন রিইনস্টেট মনিকা

1
এ নিয়ে সাহিত্যের খনন করার জন্য ধন্যবাদ! এটি অবশ্যই একটি ভাল সূচনা পয়েন্ট, বিশেষত এই কৌশলটির একটি নাম ("ফিউশন") যা আমি সন্ধান করতে পারি
শ্যাডোটালকার

10

আমি এই প্রকল্পটি নিয়ে কাজ করেছি যার সাথে আমি কাজ করছি এবং এই মুহুর্তে আমি সিদ্ধান্ত নিয়েছি যে বিভাগগুলিকে ফিউজ করার সত্যি কোনও ভাল উপায় নেই এবং তাই আমি একটি শ্রেণিবদ্ধ / মিশ্র প্রভাবগুলির মডেলটি চেষ্টা করছি যেখানে আমার আপনার মেজর সমতুল্য একটি এলোমেলো প্রভাব।

এছাড়াও, এর মতো পরিস্থিতিতে বাস্তবে দুটি ফিউজিং সিদ্ধান্ত নেওয়ার কথা বলে মনে হয়: 1) আপনি যখন মডেলটি ফিট করবেন তখন আপনার বিভাগগুলি কীভাবে ফিউজ করবেন এবং 2) কোন ফিউজড বিভাগটি "অন্য" হয়ে যায় যেখানে আপনি ডিফল্টরূপে কোনও নতুন অন্তর্ভুক্ত করবেন আপনার মডেল ফিট করার পরে কেউ যে স্বপ্ন দেখে তা মেজাজ করে। (একটি এলোমেলো প্রভাব এ দ্বিতীয় কেসটি স্বয়ংক্রিয়ভাবে পরিচালনা করতে পারে))

যখন ফিউজিংয়ের কোনও রায় জড়িত (সম্পূর্ণ স্বয়ংক্রিয় পদ্ধতিগুলির বিপরীতে), তখন আমি "অন্যান্য" বিভাগ সম্পর্কে সন্দেহ করি যা প্রায়শই কোনও ধরণের নীতিগত গোষ্ঠীকরণের পরিবর্তে কয়েকটি জিনিসযুক্ত বিভাগগুলির একটি দখল ব্যাগ।

একটি এলোমেলো প্রভাব অনেকগুলি স্তর পরিচালনা করে, গতিশীলভাবে পুলগুলি ("থেকে শক্তি আঁকায়") বিভিন্ন স্তরের, পূর্বে-অদেখা স্তরগুলির পূর্বাভাস দিতে পারে ইত্যাদি One একটি ক্ষতি হতে পারে স্তরগুলির বন্টন প্রায় সর্বদা স্বাভাবিক বলে ধরে নেওয়া হয়।


1
আপনি কি ক্লাস্টারে নিজের দূরত্বের ম্যাট্রিক্স হিসাবে প্রক্সিমিটি ম্যাট্রিক্স ব্যবহারের দিকে নজর রেখেছেন? stats.stackexchange.com/questions/270201/… ?
কিথ

7

এই পরিস্থিতিটি পরিচালনা করার একটি উপায় হ'ল "টার্গেট কোডিং" (ওরফে "এফেক্ট কোডিং") [1] যা পরিচিত তা ব্যবহার করে ধারাবাহিক পরিবর্তনশীলটিকে একটি অবিচ্ছিন্ন রূপে পুনরুদ্ধার করা। যাক শ্রেণীগত মাত্রা সঙ্গে একটি ইনপুট পরিবর্তনশীল হতে , এবং দিন আউটপুট / লক্ষ্য / প্রতিক্রিয়া পরিবর্তনশীল হও। দিয়ে প্রতিস্থাপন করুন whereZz1,...,zKYZImpact(Z)

Impact(zk)=E(Y | Z=zk)E(Y)

অবিচ্ছিন্ন মূল্যবান । বাইনারি-মূল্যবান জন্য , ব্যবহার শুধু পরিবর্তে ।YYlogitEE

সেখানে পাইথন বাস্তবায়ন category_encoders গ্রন্থাগার [2]।

আর প্যাকেজ ভিট্রেট [3] [4] এ " ইফেক্ট কোডিং" নামে একটি বৈকল্পিক প্রয়োগ করা হয়েছে । প্যাকেজটি (এবং এফেক্ট কোডিং নিজেই) এর লেখকগণ দ্বারা একটি নিবন্ধে 2016 [5], এবং বেশ কয়েকটি ব্লগ পোস্টে বর্ণনা করা হয়েছে [6]। নোট করুন যে বর্তমান আর বাস্তবায়নে মাল্টিনোমিয়াল (2 টিরও বেশি বিভাগের সহ শ্রেণীবদ্ধ) বা মাল্টিভারিয়েট (ভেক্টর-মূল্যবান) প্রতিক্রিয়াগুলি পরিচালনা করে না।

  1. ড্যানিয়েল মিকি-বারেকা (2001)। শ্রেণিবিন্যাস এবং পূর্বাভাস সমস্যাগুলিতে উচ্চ কার্ডিনালিটি শ্রেণিবদ্ধ বৈশিষ্ট্যের জন্য একটি প্রিপ্রসেসিং স্কিম। এসিএম সিগ্কিডিডি এক্সপ্লোরেশন নিউজলেটার , খণ্ড 3, সংখ্যা 1, জুলাই 2001, পৃষ্ঠা 27-32। https://doi.org/10.1145/507533.507538
  2. বিভাগ এনকোডার্স। http://contrib.scikit-learn.org/categorical-encoding/index.html
  3. জন মাউন্ট এবং নিনা জুমেল (2017)। ভিট্রিট: একটি পরিসংখ্যানগত সাউন্ড 'ডেটা ফ্রেম' প্রসেসর / কন্ডিশনার। আর প্যাকেজ সংস্করণ 0.5.32। https://CRAN.R-project.org/package=vtreat
  4. উইন-ভেক্টর (2017)। vtreat। Https://github.com/WinVector/vtreat এ গিটহাবের সংগ্রহস্থল
  5. জুমেল, নিনা এবং মাউন্ট, জন (2016)। ভিট্রিট: ভবিষ্যদ্বাণীপূর্ণ মডেলিংয়ের জন্য একটি ডেটা ফ্রেম প্রসেসর। 1611.09477v3, আরক্সিব ই-প্রিন্টগুলিHttps://arxiv.org/abs/1611.09477v3 এ উপলব্ধ ।
  6. http://www.win-vector.com/blog/tag/vtreat/

লজিট ই কি? আপনি দয়া করে সূত্রটি ভাগ করে নিতে পারেন?
অপ্টিমাস প্রাইম

@ অপ্টিমাসপ্রাইম লগইট ই প্রত্যাশার
লগইট

ঠিক আছে. সুতরাং সেক্ষেত্রে ইমপ্যাক্ট (zk) = লগ (ই (Y | Z = zk) (E (Y)) বা ইমপ্যাক্ট (zk) = লগ (ই (Y | জেড = zk)) - লগ (ই (ওয়াই) )?
অপ্টিমাস প্রাইম

2
এটি তত্ত্বাবধানে পড়াশুনা করা হয়েছে এবং ওয়াই থেকে "চুরি" হওয়া স্বাধীনতার কতগুলি ডিগ্রী রয়েছে তা স্বীকৃতি দিতে জটিল সামঞ্জস্য নেবে
ফ্র্যাঙ্ক হ্যারেল

3
নিশ্চিতভাবে - শ্রেণিবদ্ধ পূর্বাভাসকীর জন্য বিভাগগুলি কীভাবে পরিচালনা করা হয় তা গাইড করার জন্য যে কোনও পদ্ধতি ওয়াই ব্যবহার করে তা অত্যধিক মানানসই বিষয় হতে পারে এবং যথাযথ হওয়ার পক্ষে যথাসম্ভব প্রশস্ত হওয়ার জন্য অনিশ্চয়তার বিরতি পাওয়া কঠিন হবে। এই সমস্যাগুলি যাতে না ঘটে সে জন্য আমি আনসারভিজড লার্নিংয়ে ফোকাস দিচ্ছিলাম।
ফ্র্যাঙ্ক হ্যারেল

6

শ্রেণিবদ্ধ পূর্বাভাসক হিসাবে অ্যাঙ্কর হিসাবে ব্যবহার করার জন্য যদি আপনার একটি সহায়িকা স্বাধীন ভেরিয়েবল থাকে তবে ফিশারের সর্বোত্তম স্কোরিং অ্যালগরিদম ব্যবহার বিবেচনা করুন, যা তার লিনিয়ার বৈষম্যমূলক বিশ্লেষণের সাথে সম্পর্কিত। মনে করুন আপনি কলেজ মেজরকে একটি একক অবিচ্ছিন্ন মেট্রিক হিসাবে মানচিত্র করতে চেয়েছিলেন এবং মনে করুন যে একটি উপযুক্ত অ্যাঙ্কর একটি প্রাক-ভর্তি স্যাট পরিমাণগত পরীক্ষার স্কোর। প্রতিটি মেজরের জন্য গড় পরিমাণগত স্কোর গণনা করুন এবং মেজরটিকে সেই গড়ের সাথে প্রতিস্থাপন করুন। আপনি সহজেই এটিকে একাধিক নোঙ্গরগুলিতে প্রসারিত করতে পারেন, যার সাথে মেজরটির সংক্ষিপ্তসার আরও এক ডিগ্রির বেশি স্বাধীনতা তৈরি করে।

নোট করুন যে পূর্ববর্তী কয়েকটি পরামর্শের বিপরীতে, সর্বোত্তম স্কোরিং একটি নিরীক্ষণযোগ্য শেখার পদ্ধতির প্রতিনিধিত্ব করে, তাই স্বাধীনতার ডিগ্রি (ওয়াইয়ের বিরুদ্ধে অনুমান করা পরামিতিগুলির সংখ্যা) কয়েকটি এবং ভালভাবে সংজ্ঞায়িত হয়েছে, ফলস্বরূপ সঠিক পরিসংখ্যানগত অনুক্রমের ফলস্বরূপ (যদি ঘনঘনবাদী, সঠিক স্ট্যান্ডার্ড ত্রুটি, আত্মবিশ্বাস) (সামঞ্জস্য) অন্তর এবং পি-মানগুলি)।

আমি https://stats.stackexchange.com/users/28666/amoeba @amoeba দ্বারা জরিমানা পরামর্শের মতো অনেকটা করি।


আপনি কি আমার প্রশ্ন stats.stackexchange.com/q/383887/44368 এ একবার খেয়াল করতে এত দয়াবান হবেন ? ধন্যবাদ.
হ্যান্স

এই বক্তৃতার 15 স্লাইডে বর্ণিত অনুকূল স্কোরিং পদ্ধতিটি কী? এই পদগুলি অনুসন্ধান করা কিছুটা কঠিন, এগুলি সমস্তই অন্য প্রসঙ্গে দেখা যায়।
শ্যাডটলকার

1
আমি 0.85 নিশ্চিত তা হ'ল
ফ্র্যাঙ্ক হ্যারেল

এটি মেশিন লার্নিং থেকে লক্ষ্য এনকোডিংয়ের ধারণার (আরও উন্নত) সংস্করণের মতো শোনাচ্ছে , উদাহরণস্বরূপ stats.stackexchange.com/questions/398903/…
kjetil b halvorsen

2

কাগজটি " শ্রেণিবদ্ধকরণ এবং পূর্বাভাস সমস্যাগুলিতে উচ্চ-কার্ডিনালিটি শ্রেণিবদ্ধ বৈশিষ্ট্যের জন্য একটি প্রিপ্রসেসিং স্কিম " প্রতিটি পুল / স্তরে নেস্টেড 'এম্পেরিকাল বেইস' স্কিমের শ্রেণিবদ্ধ বৈশিষ্ট্যগুলিকে উত্তরোত্তর শ্রেণীর সম্ভাবনার মান হিসাবে চিহ্নিত করার জন্য শ্রেণিবদ্ধ কাঠামোকে উপস্থাপন করে which সরাসরি বা অন্যান্য মডেলের ইনপুট হিসাবে ব্যবহার করা যেতে পারে।


এটিই মূলত @ ওয়েইন প্রস্তাব করেছিল (মিশ্র প্রভাবগুলির মডেলগুলি Bay বায়েশিয়ান হায়ারারিকিকাল মডেলগুলির ঘন ঘনবাদী সংস্করণ), এবং আমি প্রশ্নের মন্তব্যে কী পরামর্শ দিয়েছি। তবে ওপি শ্রেণিবিন্যাস অনুমান করতে চায়।
seanv507

1

এখানে একাধিক প্রশ্ন রয়েছে এবং তাদের মধ্যে কিছু জিজ্ঞাসা করা হয়েছে এবং এর আগে উত্তর দেওয়া হয়েছে। যদি সমস্যাটি দীর্ঘ সময় নিচ্ছে: এটি মোকাবেলার জন্য একাধিক পদ্ধতি রয়েছে, স্পারস বৈশিষ্ট্য ম্যাট্রিক্স এবং ম্যাকলার এবং বেটসের কাগজ সহ বড় আকারের রিগ্রেশন দেখুন ।

তবে সমস্যাটি মডেলিংয়ের সাথেও হতে পারে, আমি এতটা নিশ্চিত নই যে শ্রেণিবদ্ধ পূর্বাভাসকারী ভেরিয়েবলগুলির চিকিত্সার স্বাভাবিক পদ্ধতিগুলি খুব স্তরের সাথে শ্রেণীবদ্ধ ভেরিয়েবলগুলি রাখার সময় সত্যই যথেষ্ট দিকনির্দেশনা দেয়, ট্যাগের জন্য এই সাইটটি দেখুন [many-categories]। অবশ্যই অনেকগুলি উপায় রয়েছে যার চেষ্টা করা যেতে পারে, একটি হতে পারে (যদি এটি আপনার উদাহরণের জন্য ভাল ধারণা হয় তবে আমি জানতে পারি না, আপনি আমাদের নির্দিষ্ট প্রয়োগটি আমাদের জানাননি) এক ধরণের শ্রেণিবদ্ধ শ্রেণিবদ্ধ ভেরিয়েবল (গুলি), যা অনুপ্রাণিত হয় জৈবিক শ্রেণিবিন্যাসে ব্যবহৃত সিস্টেম দ্বারা, https://en.wikedia.org/wiki/Taxonomy_(biology দেখুন)। সেখানে কোনও ব্যক্তি (উদ্ভিদ বা প্রাণী) প্রথমে ডোমেন, তারপরে কিংডম, ফিলিয়াম, শ্রেণি, আদেশ, পরিবার, জেনাস এবং শেষ প্রজাতিতে শ্রেণিবদ্ধ করা হয়। সুতরাং শ্রেণিবদ্ধার প্রতিটি স্তরের জন্য আপনি একটি ফ্যাক্টর ভেরিয়েবল তৈরি করতে পারেন। যদি আপনার স্তরের পণ্যগুলি সুপারমার্কেটে বিক্রি হয় তবে আপনি [খাদ্যসামগ্রী, রান্নাঘরের জিনিসপত্র, অন্য] দিয়ে শুরু করে একটি শ্রেণিবিন্যাসের শ্রেণিবিন্যাস তৈরি করতে পারেন, তবে খাবারের জিনিসগুলি [মাংস, মাছ, শাকসব্জী, সিরিয়াল, ...] হিসাবে শ্রেণিবদ্ধ করা যেতে পারে এবং শীঘ্রই. কেবলমাত্র একটি সম্ভাবনা, যা পূর্বের স্তরক্রম দেয়, ফলাফলের সাথে বিশেষভাবে সম্পর্কিত নয়।

কিন্তু তুমি বলেছিলে:

আমি আমার প্রতিরোধের ফলাফলের সাথে সম্মতিযুক্ত উচ্চ স্তরের বিভাগগুলি উত্পাদন করার বিষয়ে যত্নশীল।

তারপরে আপনি সংযুক্ত লাসো চেষ্টা করে দেখতে পারেন, এই থ্রেডের অন্যান্য উত্তরগুলি দেখুন, যা স্তরের বৃহত গোষ্ঠীতে বিপর্যয় নেওয়ার উপায় হিসাবে দেখা যেতে পারে, পুরোপুরি ডেটা উপর ভিত্তি করে, স্তরক্রমের আমার প্রস্তাব দ্বারা ইঙ্গিত করা স্তরের পূর্ববর্তী সংস্থা নয় স্তরের সংগঠন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.