আমি প্রদত্ত প্রতিক্রিয়া (লক্ষ্য) বাইনারি ভেরিয়েবলের সাথে সম্মতি এবং একটি পরামিতি হিসাবে সর্বাধিক সংখ্যার অন্তর সহ একটানা পরিবর্তনশীলের অনুকূল বিনিং পদ্ধতি (বিচক্ষণতা) খুঁজছি।
উদাহরণ: আমার কাছে "উচ্চতা" (সংখ্যা অবিচ্ছিন্ন) এবং "has_back_pains" (বাইনারি) ভেরিয়েবলযুক্ত লোকদের পর্যবেক্ষণগুলির একটি সেট রয়েছে। আমি ব্যাক ব্যথার সাথে বিভিন্ন অনুপাতের লোকদের সাথে উচ্চতাটি 3 টি অন্তর (গোষ্ঠী )গুলিতে বিচ্ছিন্ন করতে চাই, যাতে অ্যালগোরিদম গ্রুপগুলির মধ্যে পার্থক্যকে সর্বাধিক করে তোলে (উদাহরণস্বরূপ প্রদত্ত বিধিনিষেধের সাথে, যাতে প্রতিটি ব্যবধানে কমপক্ষে এক্স পর্যবেক্ষণ থাকে)।
এই সমস্যার সুস্পষ্ট সমাধান হ'ল সিদ্ধান্ত গাছ ব্যবহার করা (একটি সাধারণ এক-ভেরিয়েবল মডেল), তবে আমি আর তে কোনও ফাংশন পাই না যার প্যারামিটার হিসাবে "সর্বাধিক সংখ্যক শাখা" থাকবে - এগুলি সমস্তই ভেরিয়েবলকে ভাগ করে দেয় 2 গ্রোপাসে (<= x এবং> এক্স) এসএএস মাইনারের একটি "সর্বাধিক শাখা" প্যারামিটার রয়েছে তবে আমি একটি বাণিজ্যিক বাণিজ্যিক সমাধান খুঁজছি।
আমার কিছু ভেরিয়েবলের কয়েকটি কয়েকটি স্বতন্ত্র মান রয়েছে (এবং এটি পৃথক ভেরিয়েবল হিসাবে বিবেচনা করা যেতে পারে) তবে আমি সেগুলি আরও স্বল্প সংখ্যক ব্যবধানে আলাদা করতে চাই।
আমার সমস্যার নিকটতম সমাধানটি আর-তে স্মিঙ্কিং প্যাকেজটিতে প্রয়োগ করা হয়েছে (যা পার্টি প্যাকেজ থেকে সিটি্রি ফাংশনের উপর নির্ভর করে) তবে এর দুটি ত্রুটি রয়েছে: অন্তরগুলির সংখ্যা নির্ধারণ করা অসম্ভব (তবে, আপনি পরিবর্তনের মাধ্যমে এটির কাছাকাছি উপায় খুঁজে পেতে পারেন) পি প্যারামিটার) এবং যখন ডেটা ভেক্টরের 10 টিরও কম অনন্য মান থাকে তখন এটি কাজ করে না। যাইহোক, আপনি এখানে উদাহরণ আউটপুট দেখতে পারেন (কাটপয়েন্ট এবং অডস কলামগুলি অত্যন্ত গুরুত্বপূর্ণ):
Cutpoint CntRec CntGood CntBad CntCumRec CntCumGood CntCumBad PctRec BadRate Odds LnOdds WoE IV
1 <= 272 9081 169 8912 9081 169 8912 0.1874 0.9814 0.0190 -3.9653 -0.6527 0.0596
2 <= 311 8541 246 8295 17622 415 17207 0.1762 0.9712 0.0297 -3.5181 -0.2055 0.0068
3 <= 335 2986 163 2823 20608 578 20030 0.0616 0.9454 0.0577 -2.8518 0.4608 0.0163
4 Missing 27852 1125 26727 48460 1703 46757 0.5747 0.9596 0.0421 -3.1679 0.1447 0.0129
5 Total 48460 1703 46757 NA NA NA 1.0000 0.9649 0.0364 -3.3126 0.0000 0.0956
ওহ, আমি পুরোপুরি সচেতন যে বিনিংয়ের ফলে তথ্য ক্ষতির সৃষ্টি হয় এবং আরও ভাল পদ্ধতি রয়েছে তবে আমি এটি ডেটা ভিজুয়ালাইজেশনের জন্য ব্যবহার করতে যাচ্ছি এবং সেই পরিবর্তনশীলগুলিকে একটি ফ্যাক্টর হিসাবে বিবেচনা করব।
SPSS Algorithms Optimal Binning
।