প্রদত্ত প্রতিক্রিয়া ভেরিয়েবলের সম্মানের সাথে অনুকূল বিনিং


12

আমি প্রদত্ত প্রতিক্রিয়া (লক্ষ্য) বাইনারি ভেরিয়েবলের সাথে সম্মতি এবং একটি পরামিতি হিসাবে সর্বাধিক সংখ্যার অন্তর সহ একটানা পরিবর্তনশীলের অনুকূল বিনিং পদ্ধতি (বিচক্ষণতা) ​​খুঁজছি।

উদাহরণ: আমার কাছে "উচ্চতা" (সংখ্যা অবিচ্ছিন্ন) এবং "has_back_pains" (বাইনারি) ভেরিয়েবলযুক্ত লোকদের পর্যবেক্ষণগুলির একটি সেট রয়েছে। আমি ব্যাক ব্যথার সাথে বিভিন্ন অনুপাতের লোকদের সাথে উচ্চতাটি 3 টি অন্তর (গোষ্ঠী )গুলিতে বিচ্ছিন্ন করতে চাই, যাতে অ্যালগোরিদম গ্রুপগুলির মধ্যে পার্থক্যকে সর্বাধিক করে তোলে (উদাহরণস্বরূপ প্রদত্ত বিধিনিষেধের সাথে, যাতে প্রতিটি ব্যবধানে কমপক্ষে এক্স পর্যবেক্ষণ থাকে)।

এই সমস্যার সুস্পষ্ট সমাধান হ'ল সিদ্ধান্ত গাছ ব্যবহার করা (একটি সাধারণ এক-ভেরিয়েবল মডেল), তবে আমি আর তে কোনও ফাংশন পাই না যার প্যারামিটার হিসাবে "সর্বাধিক সংখ্যক শাখা" থাকবে - এগুলি সমস্তই ভেরিয়েবলকে ভাগ করে দেয় 2 গ্রোপাসে (<= x এবং> এক্স) এসএএস মাইনারের একটি "সর্বাধিক শাখা" প্যারামিটার রয়েছে তবে আমি একটি বাণিজ্যিক বাণিজ্যিক সমাধান খুঁজছি।

আমার কিছু ভেরিয়েবলের কয়েকটি কয়েকটি স্বতন্ত্র মান রয়েছে (এবং এটি পৃথক ভেরিয়েবল হিসাবে বিবেচনা করা যেতে পারে) তবে আমি সেগুলি আরও স্বল্প সংখ্যক ব্যবধানে আলাদা করতে চাই।

আমার সমস্যার নিকটতম সমাধানটি আর-তে স্মিঙ্কিং প্যাকেজটিতে প্রয়োগ করা হয়েছে (যা পার্টি প্যাকেজ থেকে সিটি্রি ফাংশনের উপর নির্ভর করে) তবে এর দুটি ত্রুটি রয়েছে: অন্তরগুলির সংখ্যা নির্ধারণ করা অসম্ভব (তবে, আপনি পরিবর্তনের মাধ্যমে এটির কাছাকাছি উপায় খুঁজে পেতে পারেন) পি প্যারামিটার) এবং যখন ডেটা ভেক্টরের 10 টিরও কম অনন্য মান থাকে তখন এটি কাজ করে না। যাইহোক, আপনি এখানে উদাহরণ আউটপুট দেখতে পারেন (কাটপয়েন্ট এবং অডস কলামগুলি অত্যন্ত গুরুত্বপূর্ণ):

Cutpoint CntRec CntGood CntBad CntCumRec CntCumGood CntCumBad PctRec BadRate   Odds  LnOdds     WoE     IV
1   <= 272   9081     169   8912      9081        169      8912 0.1874  0.9814 0.0190 -3.9653 -0.6527 0.0596
2   <= 311   8541     246   8295     17622        415     17207 0.1762  0.9712 0.0297 -3.5181 -0.2055 0.0068
3   <= 335   2986     163   2823     20608        578     20030 0.0616  0.9454 0.0577 -2.8518  0.4608 0.0163
4  Missing  27852    1125  26727     48460       1703     46757 0.5747  0.9596 0.0421 -3.1679  0.1447 0.0129
5    Total  48460    1703  46757        NA         NA        NA 1.0000  0.9649 0.0364 -3.3126  0.0000 0.0956

ওহ, আমি পুরোপুরি সচেতন যে বিনিংয়ের ফলে তথ্য ক্ষতির সৃষ্টি হয় এবং আরও ভাল পদ্ধতি রয়েছে তবে আমি এটি ডেটা ভিজুয়ালাইজেশনের জন্য ব্যবহার করতে যাচ্ছি এবং সেই পরিবর্তনশীলগুলিকে একটি ফ্যাক্টর হিসাবে বিবেচনা করব।


এসপিএসএস-এর অনুকূল বিনিং কমান্ড রয়েছে। গুগল SPSS Algorithms Optimal Binning
ttnphns

আপনি কি এই পোস্টটি দেখেছেন stackoverflow.com/questions/7018954/… এটি তথ্য মান ব্যবহারের উল্লেখ করেছে তবে চতুর্থ = 1 এর অর্থ কী তা পরিষ্কার নয় বা কীভাবে পাবে তা ব্যাখ্যা করেন না
অ্যাডাম

উত্তর:


7

এই বইটি এখানে পড়ার সময় (নাগারাজন, ২১০৩ [১]) আমি এই মূল্যবান তথ্যটি পেয়েছি যা আমি নির্লজ্জভাবে এখানে উদ্ধৃত করছি:

  • ডেটাতে পূর্ব জ্ঞান ব্যবহার করা। ব্যবধানগুলির সীমানা সংজ্ঞায়িত করা হয়, প্রতিটি পরিবর্তনশীলের জন্য, উল্লেখযোগ্যভাবে বিভিন্ন বাস্তব-জগতের পরিস্থিতিতে যেমন কোনও নির্দিষ্ট দূষণকারী (অনুপস্থিত, বিপজ্জনক, প্রাণঘাতী) বা বয়সের শ্রেণি (শিশু, প্রাপ্তবয়স্ক, বয়স্ক) এর ঘনত্বের সাথে মিল রাখে।

  • নেটওয়ার্কের কাঠামো শেখার আগে হিউরিস্টিক্স ব্যবহার করা। কয়েকটি উদাহরণ হ'ল: স্টার্জস, ফ্রিডম্যান-ডায়াকোনিস বা স্কট বিধি (ভেনেবলস এবং রিপ্লে, ২০০২)।

  • যথাযথতা এবং তথ্য ক্ষতির ভারসাম্য রক্ষার জন্য আন্তঃসংখ্যার সংখ্যা এবং তাদের সীমানা নির্বাচন করা (কোহাবী এবং সাহামি, ১৯৯ 1996), আবার একবারে এবং নেটওয়ার্ক কাঠামোটি শিখার আগে একটি পরিবর্তনশীল। জোড়ের ভেরিয়েবল বিবেচনা করে একটি অনুরূপ পন্থা হার্টিমিঙ্কে উপস্থাপন করা হয়েছে (2001)।

  • কোনও উন্নতি না হওয়া অবধি পুনরায় শেখা এবং বিবেচ্যতা সম্পাদন করা (ফ্রেডম্যান এবং গোল্ডজমিডট, 1996)।

এই কৌশলগুলি মূল ডেটার স্বতন্ত্র উপস্থাপনের যথার্থতা এবং রূপান্তরের গণ্য দক্ষতার মধ্যে বিভিন্ন বাণিজ্য-অফকে উপস্থাপন করে।

আপনি কেবল প্যাকেজ সরাসরি ব্যবহার না করে আপনি যে বিনিন পদ্ধতিটি ব্যবহার করতে চান তা ন্যায়সঙ্গত করতে চান এমন ক্ষেত্রে এই তথ্য সরবরাহ করা হয়।

[1]: নাগরাজান আর। (2013),
আরে বায়েশিয়ান নেটওয়ার্কস, সিস্টেম বায়োলজি
স্প্রিংজারে অ্যাপ্লিকেশন সহ


4

আর এর তথ্য প্যাকেজ ব্যবহার করে দেখুন https://cran.r-project.org/web/packages/Information/Information.pdf https://cran.r-project.org/web/packages/Information/vignettes/Information-vignette .html

ওউ এবং আইভি গণনা করার জন্য তথ্য প্যাকেজের কার্যকারিতা রয়েছে (বিনের সংখ্যা একটি নমনীয় প্যারামিটার, ডিফল্ট 10) এবং ডেটা অনুসন্ধানের জন্য এবং ফলস্বরূপ বিনিংয়ের জন্য একটি কার্যকর উপকরণ instrument আউটপুটটিতে ওডস নেই, যদিও; এবং শূন্যকে পৃথক বিন হিসাবে চিহ্নিত করা সম্ভব নয় (আমার কাজগুলির জন্য শূন্য প্রায়শই তার নিজের অধিকারের একটি বৈধ বিন হয়); এবং তথ্য প্যাকেজ থেকে আউটপুট পেতে ভাল লাগবে যে এটি স্মিঙ্কিংয়ের মতো হবে। তবে, তথ্য প্যাকেজটির সুন্দর-তাত্পর্যপূর্ণ তবে এখনও উপলভ্য বৈশিষ্ট্যগুলি সম্পর্কে বলা হচ্ছে না, ওও এবং চতুর্থ অন্যান্য আর প্যাকেজগুলি (হায়, ক্লেআর) তথ্য প্যাকেজের মতো দরকারী উপকরণের ধারণা তৈরি করতে পারেনি, আসলে আমি 2-3 চেষ্টা করার পরে এগুলি চালাতে ব্যর্থ হয়েছিল। ডিসক্রিটাইজেশন / বিনিংয়ের কাজের জন্য, তথ্য এবং এসএমবিএনিং প্যাকেজগুলি একসাথে সুন্দরভাবে কাজ করতে পারে,

প্রকৃত বিনিনের জন্য আমি কাট () ফাংশনের পরিবর্তে ডেটা টেবিল ব্যবহার করেছি। নীচে আমার পোস্টের লিঙ্কটি দেখুন, এতে প্রাথমিক প্রশ্নের একেবারে নীচে জেনেরিক কোড রয়েছে: /programming/34939845/binning-variables-in-a-dataframe-with-input-bin-data- থেকে আরেকটি কার্যকর-dataframe

আশা করি এটা সাহায্য করবে.


@ কেজেটিল, কেজেটিল বি হালওয়ারসেন, আপনি ঠিক বলেছেন। ওউ এবং আইভি গণনা করার জন্য ইনফরমেশন প্যাকেজের কার্যকারিতা রয়েছে (বিনের সংখ্যা একটি নমনীয় প্যারামিটার, ডিফল্ট 10) এবং ডেটা এক্সপ্লোরেশন এবং ফলস্বরূপ বিনিংয়ের জন্য একটি কার্যকর উপকরণ। যদিও আউটপুটটিতে বিজোড় নেই। এবং শূন্যকে একটি পৃথক বিন হিসাবে চিহ্নিত করা সম্ভব নয় (আমার কাজগুলির জন্য শূন্য প্রায়শই তার নিজের অধিকারের একটি বৈধ বিন হয়)। ওও এবং আইভির অন্যান্য আর প্যাকেজগুলি (হায়, ক্লেআর) তথ্য প্যাকেজের মতো দরকারী উপকরণের ধারণা তৈরি করে নি। সুতরাং তথ্য এবং এসএমবিনিং প্যাকেজ সংমিশ্রণ হিসাবে সুন্দরভাবে কাজ করতে পারে।
আকতান
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.