কয়েকটি অবিচ্ছিন্ন ভেরিয়েবলের লগ রূপান্তর নেওয়ার পিছনে কারণ কী?


16

আমি একটি শ্রেণিবদ্ধকরণ সমস্যা করছি এবং আমি অনেক লোকের কোড এবং টিউটোরিয়াল পড়েছি। একটি জিনিস আমি লক্ষ্য করেছি যে অনেক লোক গ্রহণ করে np.logবা logঅবিচ্ছিন্ন পরিবর্তনশীল যেমন loan_amountবা applicant_incomeইত্যাদি গ্রহণ করে

আমি কেবল এর পেছনের কারণটি বুঝতে চাই। এটি কী আমাদের মডেল পূর্বাভাসের নির্ভুলতা উন্নত করতে সহায়তা করে? এটা কি বাধ্যতামূলক? নাকি এর পিছনে কোন যুক্তি আছে?

সম্ভব হলে দয়া করে কিছু ব্যাখ্যা সরবরাহ করুন। ধন্যবাদ.

উত্তর:


27

এটি করা হয় যখন ভেরিয়েবলগুলি বিস্তারের কয়েকটি অর্ডার বিস্তৃত করে। আয় একটি সাধারণ উদাহরণ: এর বিতরণ "পাওয়ার আইন", যার অর্থ আয়ের বিশাল সংখ্যাগরিষ্ঠ ছোট এবং খুব কম লোকই বড়।

লগারিদমের গাণিতিক বৈশিষ্ট্যের কারণে এই জাতীয় "ফ্যাট টেইলড" বিতরণ লগারিদমিক স্কেলে অধ্যয়ন করা হয়:

(এক্সএন)=এন(এক্স)

যা বোঝা

(104)=4*(10)

এবং

(103)=3*(10)

যা difference ছোট একটি তে মানকে তুলনীয় করে তোলে বিশাল পার্থক্যের রূপান্তর করে ।

104-103
4-3


2
চমত্কার বিতরণ সম্পর্কে বিশেষভাবে ভাল উত্তর।
কসরা মনশায়ে

1
@ কসরমনশেই আমি বিশেষত বিদ্যুৎ আইন সম্পর্কে বলছিলাম (আয় একটি সাধারণ উদাহরণ হিসাবে): তাত্পর্যপূর্ণ বিতরণে চূড়ান্ত মানগুলি সংজ্ঞা অনুসারে খুব বিরল। অতএব ডেটা যা পরিমাপের অনেকগুলি অর্ডারকে ছড়িয়ে দেয় তা সাধারণত পাওয়ার আইন power
ডুসিও পিয়োভানি

1
তবে অবশ্যই এই ক্ষেত্রে লগ ---> এলএন, যা পুরোপুরি উত্তরটির বিন্দু পরিবর্তন করে না।
ডুসিও পিয়োভানি

হ্যাঁ আমি পেয়েছিলাম. যেমন আপনি বলেছিলেন তেমন পরিবর্তন হয় না।
কসরা মনশায়ে

7

বেশিরভাগ কারণে স্কিউড বিতরণ হয়। লোগারিদম প্রাকৃতিকভাবে একটি পরিবর্তনশীলের গতিশীল পরিসর হ্রাস করে তাই স্কেল যে নাটকীয়ভাবে স্কিউ না হয় ততগুলি পার্থক্যগুলি সংরক্ষণ করা হয়। কল্পনা করুন যে কিছু লোক 100,000,000 loanণ পেয়েছেন এবং কেউ 10000 এবং কিছু পেয়েছেন 0 কোনও বৈশিষ্ট্য স্কেলিং সম্ভবত 0 এবং 10000 একে অপরের সাথে এতটা কাছাকাছি রাখবে যেহেতু বৃহত্তম সংখ্যা যাইহোক সীমাটি ঠেলে দেয়। লোগারিদম বিষয়টি সমাধান করে।


মানশেল, সুতরাং আমি কি MinMaxScaler বা স্ট্যান্ডার্ডস্কেলার ব্যবহার করতে পারি? নাকি লগ নেওয়া দরকার?
সাই কুমার

প্রয়োজনীয়। আপনি যদি স্কেলার ব্যবহার করেন তবে তারা নাটকীয়ভাবে ছোট মানগুলি সংকুচিত করে। এটাই আমি বলতে চাইছিলাম।
কসরা মনশায়ে

2
হ্যাঁ. আপনি যদি 1000,000,000 এবং 10000 এবং 0 মান বিবেচনা করেন তবে। অনেক ক্ষেত্রে, আপনার মডেল দ্বারা অন্যকে সঠিকভাবে দেখাতে না দেওয়ার জন্য প্রথমটিটি খুব বড়। তবে আপনি লগারিদম গ্রহণ করলে আপনার যথাক্রমে 9, 4 এবং 0 হবে। আপনি দেখতে পান যে গতিশীল পরিসর হ্রাস পেয়েছে যখন পার্থক্যগুলি প্রায় সংরক্ষণ করা হয়। এটি আপনার বৈশিষ্ট্যের কোনও সূচকীয় প্রকৃতি থেকে আসে। সেই ক্ষেত্রে অন্যান্য উত্তর হিসাবে চিত্রিত হিসাবে আপনার লগারিদম প্রয়োজন। আশা করি এটি সাহায্য করেছে :)
কসরা মনশায়ে

2
ভাল, স্কেলিং! সাধারণ বিতরণ সহ দুটি ভেরিয়েবলের কল্পনা করুন (সুতরাং লগারিদমের প্রয়োজন নেই) তবে তাদের মধ্যে একটি 10 ​​দশকের স্কেলের এবং অন্যটি মিলিয়ন স্কেলে। আবার তাদের মডেলকে খাওয়ানো ছোটটিকে অদৃশ্য করে তোলে। এই ক্ষেত্রে আপনি স্কেলারগুলি তাদের আঁশকে যুক্তিসঙ্গত করতে ব্যবহার করেন use
কসরা মনশায়ে

1
@ কসরমংশই লগ (0) = যদিও ইন
জেএডি

5

লগএক্স0<এক্স<-<লগএক্স<

এক্স


3

তবুও লগারিদমিক ট্রান্সফর্মেশনগুলি কার্যকর করার জন্য আরেকটি কারণ অনুপাতের ডেটা কার্যকর করার কারণে আসে log(A/B) = -log(B/A)। আপনি যদি কাঁচা স্কেলে অনুপাতের বিতরণের পরিকল্পনা করেন তবে আপনার পয়েন্টগুলি সীমার মধ্যে চলে যাবে (0, Inf)। 1 এর চেয়ে কম অনুপাতের যে কোনও অনুপাত প্লটের একটি ছোট অঞ্চলে বিভক্ত হবে এবং তদ্ব্যতীত, আপনি যদি অনুপাতটি (B/A)পরিবর্তে পরিবর্তিত করেন তবে প্লটটি সম্পূর্ণ আলাদা দেখবে (A/B)। আপনি যদি লগারিদমিক স্কেলে এটি করেন তবে এখন পরিসরটি (-Inf, +Inf), অর্থাত্ 1 এর চেয়ে কম অনুপাত এবং 1 এর চেয়ে বেশি সংখ্যক সমানভাবে ছড়িয়ে পড়ে। যদি আপনি অনুপাতটি ফ্লিপ করার সিদ্ধান্ত নেন, আপনি কেবল 0 এর আশপাশে প্লটটি ফ্লিপ করুন, অন্যথায় এটি ঠিক একইরকম দেখাচ্ছে looks লগ স্কেলের ক্ষেত্রে, আপনি যদি অনুপাতটি দেখান তবে তা আসলেই কিছু যায় আসে না 1/10 or 10/1, যা কার্যকর হওয়া উচিত যখন এটি সম্পর্কে কোন স্পষ্ট পছন্দ নেই।


3

আপনার লগনরমাল বিতরণ দেখতে হবে

লোকেরা লগগুলি ব্যবহার করতে পারে কারণ তারা মনে করে এটি স্কেল বা অন্য কিছুকে সংকুচিত করে, তবে লগগুলির মূলত ব্যবহার হ'ল আপনি লগন্যাল বিতরণকারী ডেটার সাথে কাজ করছেন। এটি বেতন, আবাসন মূল্য ইত্যাদির মতো জিনিসগুলিতে প্রবণতা অর্জন করবে যেখানে সমস্ত মান ইতিবাচক এবং বেশিরভাগ তুলনামূলক বিনয়ী, তবে কিছু খুব বড়।

যদি আপনি ডেটার লগ নিতে পারেন এবং এটি সাধারণ হয়ে ওঠে, তবে আপনি স্বাভাবিক বিতরণের অনেকগুলি বৈশিষ্ট্য যেমন সুনির্দিষ্ট-সংজ্ঞায়িত গড়, স্ট্যান্ডার্ড বিচ্যুতি (এবং তাই জেড-স্কোর), প্রতিসাম্য ইত্যাদি গ্রহণ করতে পারেন can

একইভাবে, লগগুলি যুক্ত করা আন-লগ-মানগুলির গুণকের সমান। এর অর্থ হ'ল আপনি এমন একটি বিতরণ ঘুরিয়ে দিয়েছেন যেখানে ত্রুটিগুলি সংযোজনযোগ্য যেখানে তারা গুণক (যেমন শতাংশ-ভিত্তিক)। যেহেতু ওএলএস রিগ্রেশন জাতীয় কৌশলগুলির জন্য একটি সাধারণ ত্রুটি বিতরণ প্রয়োজন, লগ সহ কাজ করার ফলে তাদের প্রয়োগযোগ্যতাটি অ্যাডিটিভ থেকে গুণিত প্রক্রিয়াগুলিতে প্রসারিত করে।


1
আপনি যদি কোনও বিতরণ-মুক্ত উপায়ে আইটেমগুলির তুলনা করতে চান, তবে পারসেন্টাইল বা ডেসিকেল গ্রহণ করা এবং মূল মানের পরিবর্তে সেগুলি ব্যবহার করা কি ভাল নয়?
উইলিয়াম পায়েেন

1
@ উইলিয়াম পেয়েন অবশ্যই, আপনি বিতরণ-মুক্ত পদ্ধতি ব্যবহার করতে পারেন, যদিও আপনি বিতরণ করার কিছুটা ক্ষমতা ছেড়ে দিচ্ছেন ... যদি আপনার বিতরণ অনুমানগুলি সঠিক হয়। বৃহত্তর (সঠিক) অনুমানের সাথে আরও বেশি শক্তি আসে। পার্সেন্টাইলগুলি মূলত র‌্যাঙ্কস হয়, সুতরাং আপনার কাছে থাকা দূরত্বের তথ্যগুলি আপনি ফেলে দেন এবং একটি নির্দিষ্ট নমুনার পারসেন্টাইল একটি বিন্দু অনুমান। আমরা সাধারণত পয়েন্টগুলিতে বিতরণ পছন্দ করি।
ওয়েইন

0

আমি বলব মূল কারণটি বিতরণযোগ্য নয় বরং লিনিয়ার সম্পর্কের কারণে। লগগুলি প্রায়শই স্যাচুরেটিং সম্পর্কগুলি ক্যাপচার করে ...

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.