লজিস্টিক রিগ্রেশন ফিটিং করার আগে মানিককরণ প্রয়োজন?


39

আমার প্রশ্ন হ'ল লজিস্টিক রিগ্রেশন ফিটিংয়ের আগে [0,1] এর মধ্যে সমস্ত ভেরিয়েবলের একই স্কেল রয়েছে কিনা তা নিশ্চিত করার জন্য আমাদের কী ডেটা সেট মানক করা দরকার? সূত্রটি হ'ল:

ximin(xi)max(xi)min(xi)

আমার ডেটা সেটে 2 টি ভেরিয়েবল রয়েছে, তারা দুটি চ্যানেলের জন্য একই জিনিস বর্ণনা করে তবে ভলিউমটি আলাদা। বলুন এটি দুটি স্টোরের গ্রাহকের সংখ্যার সংখ্যা, y এখানে গ্রাহক কেনা কিনা তা এখানে। কারণ কোনও গ্রাহক কেনার আগে দু'বার স্টোর, বা দু'বার প্রথম স্টোর, একবার দ্বিতীয় স্টোরটি দেখতে পারবেন। তবে প্রথম স্টোরের জন্য গ্রাহকের মোট পরিদর্শন দ্বিতীয় স্টোরের চেয়ে 10 গুণ বেশি। আমি যখন এই লজিস্টিক রিগ্রেশন মানানসই, ফিট করি coef(store1)=37, coef(store2)=13; আমি যদি ডেটা মানক করে রাখি তবে coef(store1)=133, coef(store2)=11। এটার মতো কিছু. কোন পদ্ধতির আরও বোধগম্য হয়?

আমি যদি সিদ্ধান্তের গাছের মডেলটি ফিট করি? আমি জানি গাছের কাঠামোর মডেলগুলিকে মানককরণের প্রয়োজন নেই যেহেতু মডেল নিজেই এটি কোনওভাবে সামঞ্জস্য করবে। তবে আপনার সকলের সাথে চেক করা হচ্ছে।


10
আপনার প্রতিরোধকে নিয়মিত না করা হলে আপনাকে মান দেওয়ার দরকার নেই। তবে এটি কখনও কখনও ব্যাখ্যায় সহায়তা করে এবং খুব কমই ব্যাথা করে।
অ্যালেক্স

3
Way frac {x_i- \ বার {x}} d এসডি (এক্স) standard মানক করার সাধারণ উপায় কি নয় xix¯sd(x)?
পিটার ফ্লুম - মনিকা পুনরায়

1
@ পিটার, আমি এর আগে যা ভেবেছিলাম তা কিন্তু আমি একটি নিবন্ধ পেয়েছি benetzkorn.com/2011/11/data-normalization- এবং- standardization/… > দেখে মনে হচ্ছে সাধারণীকরণ এবং মানিককরণ আলাদা জিনিস। একটির অর্থ 0 বৈকল্পিক 1 করা, অন্যটি প্রতিটি পরিবর্তনশীল পুনরুদ্ধার করা। সেখানেই আমি বিভ্রান্ত হয়ে পড়ি। আপনার উত্তর দেওয়ার জন্য ধন্যবাদ.
ব্যবহারকারী 1946504

7
আমার কাছে মানীকরণ ব্যাখ্যাটি আরও অনেক কঠিন করে তুলেছে।
ফ্র্যাঙ্ক হ্যারেল

2
@ অ্যালেক্স কী বলেছে তা স্পষ্ট করার জন্য, আপনার ডেটা স্কেল করার অর্থ সর্বোত্তম নিয়ামককরণের উপাদান Cপরিবর্তন হয়। সুতরাং আপনাকে Cডেটা মানক করার পরে বেছে নেওয়া দরকার ।
axxlr

উত্তর:


37

লজিস্টিক রিগ্রেশন জন্য মানীকরণের প্রয়োজন হয় না। বৈশিষ্ট্যগুলিকে প্রমিতকরণের মূল লক্ষ্যটি অপ্টিমাইজেশনের জন্য ব্যবহৃত কৌশলটির রূপান্তরকে সহায়তা করা। উদাহরণস্বরূপ, আপনি যদি সম্ভাবনা সর্বাধিক করতে নিউটন-রাফসন ব্যবহার করেন তবে বৈশিষ্ট্যগুলিকে মানীকৃত করা অভিব্যক্তিকে দ্রুততর করে তোলে। অন্যথায়, আপনি বৈশিষ্ট্যগুলির কোনও মানক চিকিত্সা ছাড়াই আপনার লজিস্টিক রিগ্রেশন চালাতে পারেন run


আপনার উত্তর দেওয়ার জন্য ধন্যবাদ. এর অর্থ কী মানাকে প্রাধান্য দেওয়া হয়? যেহেতু আমরা অবশ্যই মডেল একত্রিত করতে চাই এবং যখন আমাদের লক্ষ লক্ষ ভেরিয়েবল রয়েছে, প্রয়োজন অনুযায়ী ভেরিয়েবলগুলিকে একে একে সুর করার চেয়ে মডেলিং পাইপলাইনে মানকতার যুক্তি প্রয়োগ করা সহজ implement আমি কি ঠিক বুঝতে পারছি?
ব্যবহারকারী 1946504

4
যা বিশ্লেষণের উদ্দেশ্য উপর নির্ভর করে। আধুনিক সফ্টওয়্যার মানক ছাড়াই বেশ চরম ডেটা পরিচালনা করতে পারে। যদি প্রতিটি ভেরিয়েবলের জন্য একটি প্রাকৃতিক ইউনিট থাকে (বছর, ইউরো, কেজি, ইত্যাদি) তবে আমি মানক করতে দ্বিধা বোধ করব, যদিও আমি যখনই আরও বেশি অর্থবোধ করি তখন আমি ইউনিটটি কেজি থেকে উদাহরণস্বরূপ টন বা গ্রামে পরিবর্তন করতে নির্দ্বিধায় থাকি।
মার্টেন

19

@ আয়মান ঠিক আছে, আপনার লজিস্টিক রিগ্রেশন জন্য আপনার ডেটা স্বাভাবিক করার দরকার নেই। (আরও সাধারণ তথ্যের জন্য, এই সিভি থ্রেডের মাধ্যমে পড়তে সাহায্য করতে পারে: আপনার ডেটাটি কখন কেন্দ্র করা উচিত এবং কখন আপনার মানিক করা উচিত?; আপনি আরও লক্ষ করতে পারেন যে আপনার রূপান্তরকে আরও সাধারণভাবে 'নরমালাইজিং' বলা হয়, দেখুন: কীভাবে যাচাই করবেন? বিতরণটি স্বাভাবিক করা হয়? ) আমাকে প্রশ্নের আরও কিছু বিষয় উল্লেখ করতে দিন।

এখানে লক্ষণীয় যে লজিস্টিক রিগ্রেশনে আপনার সহগগুলি আপনার সাফল্যের লগ প্রতিক্রিয়াগুলিতে আপনার ভবিষ্যদ্বাণী ভেরিয়েবলের এক-ইউনিট পরিবর্তনের প্রভাব নির্দেশ করে। একটি ভেরিয়েবলের রূপান্তরকরণের প্রভাব (যেমন প্রমিতকরণ বা স্বাভাবিককরণের মাধ্যমে) আমাদের মডেলের প্রসঙ্গে আমরা কীটিকে 'ইউনিট' বলছি তা পরিবর্তন করা। আপনার কাঁচা ডেটা মূল মেট্রিকের কয়েকটি সংখ্যক ইউনিট জুড়ে পরিবর্তিত হয়েছে। আপনি স্বাভাবিক হওয়ার পরে আপনার ডেটা থেকে অবধি ছিল । অর্থাৎ, এখন এক ইউনিটের পরিবর্তনের অর্থ হ'ল সর্বনিম্ন মূল্যবান পর্যবেক্ষণ থেকে সর্বোচ্চ মূল্যবান পর্যবেক্ষণে যাওয়া। সাফল্যের লগ প্রতিক্রিয়া বৃদ্ধির পরিমাণ পরিবর্তন হয়নি। এই বাস্তবতা থেকে, আমি সন্দেহ করি যে আপনার প্রথম পরিবর্তনশীল ( ) বিস্তৃতx01store1133/373.6মূল ইউনিট এবং আপনার দ্বিতীয় পরিবর্তনশীল ( store2) কেবলমাত্র আসল ইউনিট বিস্তৃত । 11/130.85


17

আপনি যদি লাসো বা রিজ রিগ্রেশন সহ লজিস্টিক রিগ্রেশন ব্যবহার করেন (যেমন ওয়েকা লজিস্টিক ক্লাস করে) আপনার উচিত। যেমন হাসিটি, তিবশিরানী এবং ফ্রেডম্যান নির্দেশ করেছেন ( পিডিএফের 82২ পৃষ্ঠা বা বইয়ের 63৩ পৃষ্ঠায়):

রিজ সমাধানগুলি ইনপুটগুলির স্কেলিংয়ের অধীনে সমতুল্য নয় এবং তাই সমাধানের আগে একটি সাধারণভাবে ইনপুটগুলিকে মানক করে তোলে।

এছাড়াও এই থ্রেড না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.