উত্তর:
অর্থনীতিবিদরা (আমার মতো) লগ রূপান্তরকে পছন্দ করেন। আমরা বিশেষত এটির মতো রিগ্রেশন মডেলগুলিতে পছন্দ করি :
আমরা এটাকে এত ভালোবাসি কেন? আমি শিক্ষার্থীদের যখন আমি এর উপর বক্তৃতা দিচ্ছি তখন তার কারণগুলির তালিকা এখানে রয়েছে:
পরিসংখ্যানবিদরা সাধারণত ডেটাগুলির এই বিশেষ রূপান্তর সম্পর্কে অর্থনীতিবিদদেরকে বেশি উত্সাহী মনে করেন। এটি আমার মনে হয়, কারণ তারা আমার পয়েন্ট 8 এবং আমার 3 পয়েন্টের দ্বিতীয়ার্ধটি অত্যন্ত গুরুত্বপূর্ণ বলে বিচার করে। সুতরাং, যেসব ক্ষেত্রে ডেটা লগ-সাধারণভাবে বিতরণ করা হয় না বা যেখানে ডেটা লগিংয়ের ফলে রূপান্তরিত ডেটা পর্যবেক্ষণে সমান বৈচিত্র হয় না, কোনও পরিসংখ্যানবিদ এই রূপান্তরটিকে খুব পছন্দ করেন না। অর্থনীতিবিদ যেভাবেই হোক সামনের দিকে ডুবে যাবেন আমরা যেহেতু রূপান্তরটি সম্পর্কে সত্যই পছন্দ করি সেগুলি পয়েন্ট 1,2 এবং 4-7 হয়।
প্রথমে দেখা যাক আমরা যখন সাধারণত স্কিউয়ের মতো কোনও লগ নিই তখন সাধারণত কী হয়।
শীর্ষ সারিতে তিনটি পৃথক, ক্রমবর্ধমান স্কিউ বিতরণ থেকে নমুনার জন্য হিস্টোগ্রাম রয়েছে।
নীচের সারিতে তাদের লগগুলির জন্য হিস্টোগ্রাম রয়েছে।
আমরা যদি আমাদের বিতরণগুলি আরও সাধারণ দেখতে চাইতাম তবে রূপান্তরটি অবশ্যই দ্বিতীয় এবং তৃতীয় ক্ষেত্রে উন্নত হয়েছিল। আমরা দেখতে পাচ্ছি যে এটি সাহায্য করতে পারে।
তাহলে কেন এটি কাজ করে?
মনে রাখবেন যে আমরা যখন বিতরণের আকারের কোনও ছবি দেখছি তখন আমরা গড় বা মান বিচ্যুতি বিবেচনা করব না - এটি কেবল অক্ষের লেবেলগুলিকে প্রভাবিত করে।
সুতরাং আমরা কিছু ধরণের "স্ট্যান্ডার্ডাইজড" ভেরিয়েবলগুলি দেখে কল্পনা করতে পারি (ইতিবাচক থাকা অবস্থায়, সবার একই অবস্থান এবং স্প্রেড রয়েছে, বলুন)
লগ গ্রহণের ফলে মিডিয়ানের তুলনায় ডান (উচ্চ মানের) আরও চরম মানগুলি টানতে হয়, যখন বামদিকে (নিম্ন মানের) মানগুলি মাঝারি থেকে আরও দূরে প্রসারিত হয়।
প্রথম চিত্রটিতে, , এবং সবকিছুর অর্থ 178 এর কাছাকাছি, সবার কাছে 150 এর কাছাকাছি মিডিয়ান এবং তাদের লগগুলিতে 5 এর কাছাকাছি মিডিয়ান রয়েছে।
আমরা যখন মূল তথ্যটি দেখি, তখন খুব ডানদিকে একটি মান - প্রায় 750 বলুন - মিডিয়ানের থেকে অনেক উপরে বসে আছে। এর ব্যাপারে, এটি মধ্যম উপরে 5 আন্তঃআকৃতি রেঞ্জ।
কিন্তু যখন আমরা লগগুলি নিই, এটি মিডিয়ানের দিকে ফিরে টান যায়; লগগুলি নেওয়ার পরে এটি মধ্যম থেকে প্রায় 2 আন্তরদ্বিতীয় রেঞ্জ ges
এদিকে 30 এর মতো একটি নিম্ন মানের (1000 আকারের নমুনায় কেবল 4 টি মান এর নীচে রয়েছে) এর মধ্যকের নীচে একটি আন্তঃখন্ড রেঞ্জের চেয়ে কিছুটা কম । আমরা যখন লগগুলি নিই, এটি আবার নতুন মধ্যকের নীচে প্রায় দুটি আন্তঃখণ্ড রেঞ্জ।
এটি কোনও দুর্ঘটনা নয় যে লগ (50৫০) এবং লগ (৩০) উভয় লগ (y) এর মধ্যবর্তী থেকে সমান দূরত্বের সমাপ্ত হলে 7৫০/১৫০ এবং ১৫০/৩০ অনুপাত উভয়ই 5 হয়। লগগুলি এভাবেই কাজ করে - ধ্রুবক অনুপাতকে ধ্রুব পার্থক্যে রূপান্তরিত করে।
লগটি লক্ষণীয়ভাবে সাহায্য করবে এমন ক্ষেত্রে এটি সর্বদা হয় না। উদাহরণস্বরূপ, যদি আপনি কোনও লঘনরমাল এলোমেলো পরিবর্তনশীল বলছেন এবং এটিকে ডানদিকে উল্লেখযোগ্যভাবে স্থানান্তরিত করুন (মানে এটিতে একটি বৃহত ধ্রুবক যুক্ত করুন) যাতে গড়টি প্রমিত বিচ্যুতির সাথে তুলনামূলকভাবে বড় হয়ে যায়, তবে এর লগটি গ্রহণ করলে খুব সামান্য পার্থক্য হবে কাঠামো. এটি কম স্কিউ হবে - তবে সবেমাত্র।
তবে অন্যান্য রূপান্তরগুলি - বর্গমূল, বলুন - এর মতো বড় মানও টানবে। বিশেষত লগগুলি কেন বেশি জনপ্রিয়?
আমি পূর্ববর্তী অংশের ঠিক শেষে একটি কারণে স্পর্শ করেছি - ধ্রুবক অনুপাত ধ্রুবক পার্থক্যের দিকে ঝোঁকায়। এটি লগগুলিকে ব্যাখ্যা করতে তুলনামূলকভাবে সহজ করে তোলে, যেহেতু ধ্রুবক শতাংশ পরিবর্তন (সংখ্যার সেটগুলির প্রতিটিতে 20% বৃদ্ধি) ধ্রুবক শিফটে পরিণত হয়। তাই হ্রাসপ্রাকৃতিক লগে মূল সংখ্যাটি 15% হ্রাস পায়, আসল সংখ্যা যত বড় হোক না কেন।
প্রচুর অর্থনৈতিক এবং আর্থিক তথ্য এ জাতীয় আচরণ করে, উদাহরণস্বরূপ (শতাংশের স্কেলটিতে ধ্রুবক বা কাছের ধ্রুবক প্রভাব)। লগ স্কেল এক্ষেত্রে অনেক বোঝায়। তদতিরিক্ত, যে শতাংশ-স্কেল প্রভাব হিসাবে। গড় বৃদ্ধির সাথে সাথে মানগুলির বিস্তারটি বৃহত্তর হতে থাকে - এবং লগগুলি গ্রহণের ফলে ছড়িয়ে পড়াও স্থিতিশীল হয়। যে সাধারণত আরো স্বাভাবিক চেয়ে গুরুত্বপূর্ণ। প্রকৃতপক্ষে, মূল চিত্রের তিনটি বিতরণ এমন পরিবারগুলি থেকে এসেছে যেখানে মানক বিচ্যুতিটি গড়ের সাথে বাড়বে এবং প্রতিটি ক্ষেত্রে লগ গ্রহণের ফলে বৈকল্পিকতা স্থিতিশীল হয়। [যদিও সমস্ত ডান স্কিউড ডেটার সাথে এটি হয় না। এটি নির্দিষ্ট প্রয়োগের ক্ষেত্রগুলিতে যে ধরণের ডেটা ক্রপ করে তা কেবল খুব সাধারণ]]
এমনও অনেক সময় আছে যখন বর্গক্ষেত্র জিনিসগুলিকে আরও বেশি প্রতিসাম্যযুক্ত করে তুলবে তবে আমি এখানে আমার উদাহরণগুলিতে যতটা ব্যবহার করি তার চেয়ে কম স্কিউড বিতরণে এটি ঘটে।
আমরা (মোটামুটি সহজেই) আরও তিনটি হালকা ডান-স্কু উদাহরণগুলির আরও একটি সেট তৈরি করতে পারি, যেখানে স্কোয়ার রুটটি একটি বাম স্কু তৈরি করেছিল, একটি প্রতিসাম্য এবং তৃতীয়টি এখনও ডান-স্কু (তবে আগের তুলনায় কিছুটা কম স্কু) ছিল।
বাম-স্কিউড বিতরণ সম্পর্কে কী?
যদি আপনি লিমিটেড রূপান্তরকে প্রতিসামগ্রী বিতরণে প্রয়োগ করেন তবে এটি একই কারণে এটি বাম-স্কু করে ফেলবে যা প্রায়শই ডান স্কিউকে আরও একটি প্রতিসাম্যযুক্ত করে তোলে - এখানে সম্পর্কিত আলোচনা দেখুন ।
স্বতঃস্ফূর্তভাবে, আপনি যদি লগ-ট্রান্সফর্মেশনটিকে ইতিমধ্যে স্কুতে ফেলে রেখেছেন তবে এটি আরও বাম স্কু করে ঝাঁকিয়ে যাবে, মিডিয়ানের উপরের জিনিসগুলিকে আরও শক্ত করে টেনে তুলবে , এবং মিডিয়ানের নীচে জিনিসগুলি আরও শক্ত করে প্রসারিত করবে।
সুতরাং লগ রূপান্তরটি তখন সহায়ক হবে না।
পাওয়ার ট্রান্সফর্মেশনস / টুকির মইও দেখুন । যে বিতরণগুলি স্কুতে রেখে গেছে সেগুলি পাওয়ার (1-এর চেয়ে বড় - স্কোয়ারিং বলার) দ্বারা বা ক্ষতিকারক দ্বারা আরও প্রতিসাম্য তৈরি করা যেতে পারে। যদি এর সুস্পষ্ট উপরের বাউন্ড থাকে, তবে কেউ উপরের বাউন্ড থেকে পর্যবেক্ষণগুলি বিয়োগ করতে পারে (একটি সঠিক স্কিউ ফলাফল প্রদান করবে) এবং তারপরে এটি রূপান্তর করার চেষ্টা করবে।
লগ ফাংশন মূলত খুব বড় মানকে ডি-জোর দেয়। নীচের চিত্রটি দেখুন যা দেখায়। দেখুন কত বড় মান-অ্যাক্সিসগুলি y- অক্ষের তুলনায় অপেক্ষাকৃত ছোট।
এখন, ডান স্কিউ বিতরণে আপনার কয়েকটি খুব বড় মান রয়েছে। লগ রূপান্তরটি মূলত বিতরণের কেন্দ্রে এই মানগুলিকে ছড়িয়ে দেয় যা এটিকে আরও সাধারণ বিতরণের মতো দেখায়।
এই সমস্ত উত্তর প্রাকৃতিক লগ রূপান্তর জন্য বিক্রয় পিচ হয়। এর ব্যবহারে সতর্কতা রয়েছে, যে কোনও এবং সমস্ত রূপান্তরের ক্ষেত্রে জেনারেটযোগ্য ক্যাভেট। একটি সাধারণ নিয়ম হিসাবে, সমস্ত গাণিতিক রূপান্তরগুলি সংকীর্ণ, প্রসারিত, বিপরীত করা, পুনরুদ্ধার করা যাই হোক না কেন, যা-ই হোক না কেন, অন্তর্নিহিত কাঁচা ভেরিয়েবলের পিডিএফটিকে নতুন আকার দেয়। খাঁটি ব্যবহারিক দৃষ্টিকোণ থেকে সবচেয়ে বড় চ্যালেঞ্জটি যে উপস্থাপন করে তা হ'ল, যখন রিগ্রেশন মডেলগুলিতে ব্যবহৃত হয় যেখানে পূর্বাভাস একটি মূল মডেল আউটপুট হয়, নির্ভরশীল ভেরিয়েবলের রূপান্তরকরণ, ওয়াই-টুপি, সম্ভাব্যভাবে তাৎপর্যপূর্ণ প্রতিবর্তন পক্ষপাতের সাপেক্ষে। নোট করুন যে প্রাকৃতিক লগ রূপান্তরগুলি এই পক্ষপাতিত্বের পক্ষে সুরক্ষিত নয়, তারা কেবল এটির মতোই অন্যান্য অভিনয়, রূপান্তরিত রূপগুলির দ্বারা প্রভাবিত হয় না। এই পক্ষপাতিত্বের জন্য সমাধানগুলি সরবরাহ করে এমন কাগজপত্র রয়েছে তবে সেগুলি সত্যই খুব ভাল কাজ করে না। আমার মতে, আপনি রুপান্তর বের করার চেষ্টা সঙ্গে তালগোল পাকানো অনেক নিরাপদ মাটিতে থাকবো ওয়াই এ সব ও দৃঢ় কার্মিক ফর্ম যে আপনি আসল মেট্রিক ধরে রাখা করার অনুমতি দেয় খোঁজার। উদাহরণস্বরূপ, প্রাকৃতিক লগের পাশাপাশি, অন্যান্য রূপান্তরগুলি রয়েছে যেগুলি স্কিউ এবং কুরোটিক ভেরিয়েবলের লেজকে সংকুচিত করে যেমন বিপরীত হাইপারবারলিক সাইন বা ল্যামবার্টস ডাব্লু। এই উভয় রূপান্তরগুলি ভারসাম্যযুক্ত তথ্যগুলি থেকে প্রতিসামগ্রী পিডিএফ উত্পন্ন করতে খুব ভাল কাজ করে এবং অতএব, ডিভি, ওয়াইয়ের জন্য ভবিষ্যদ্বাণীগুলিকে মূল স্কেলে ফিরিয়ে আনার চেষ্টা করার সময় পক্ষপাতদুটির দিকে নজর রাখুন । এটি কুরুচিপূর্ণ হতে পারে।
অনেক আকর্ষণীয় পয়েন্ট করা হয়েছে। আরো কয়েকটি?
1) আমি সুপারিশ করব যে লিনিয়ার রিগ্রেশন সহ অন্য একটি সমস্যা হ'ল রিগ্রেশন সমীকরণের 'বাম হাত' ই (y): প্রত্যাশিত মান। ত্রুটি বিতরণ যদি প্রতিসম নয়, তবে প্রত্যাশিত মানটির অধ্যয়নের জন্য যোগ্যতা দুর্বল। ত্রুটিগুলি অসম্পূর্ণ হলে প্রত্যাশিত মানটি কেন্দ্রীয় আগ্রহের নয়। পরিবর্তে কেউ কোয়ান্টাইল রিগ্রেশন অন্বেষণ করতে পারে। তারপরে, বলুন, মিডিয়ান বা অন্যান্য শতাংশ পয়েন্টগুলির অধ্যয়ন যদি ত্রুটিগুলি অসম আকার ধারণ করে তবেই উপযুক্ত হতে পারে।
২) যদি কেউ প্রতিক্রিয়ার ভেরিয়েবলকে রূপান্তর করতে নির্বাচন করে, তবে কেউ একই ফাংশনটির সাথে ব্যাখ্যামূলক ভেরিয়েবলগুলির মধ্যে একটির রূপান্তর করতে ইচ্ছুক হতে পারে। উদাহরণস্বরূপ, প্রতিক্রিয়া হিসাবে যদি কোনওর একটি 'চূড়ান্ত' ফলাফল থাকে, তবে কারও কাছে ব্যাখ্যামূলক পরিবর্তনশীল হিসাবে 'বেসলাইন' ফলাফল থাকতে পারে। ব্যাখ্যার জন্য, এটি একই ফাংশনের সাথে রূপান্তর 'চূড়ান্ত' এবং 'বেসলাইন' বোঝায়।
3) একটি ব্যাখ্যামূলক পরিবর্তনশীল রুপান্তরিত করার মূল যুক্তি প্রায়শই প্রতিক্রিয়া - বর্ণনামূলক সম্পর্কের লাইনারিটির চারপাশে থাকে। এই দিনগুলিতে, ব্যাখ্যামূলক ভেরিয়েবলের জন্য সীমাবদ্ধ ঘন স্প্লিনস বা ভগ্নাংশ বহুমুখী মত অন্য বিকল্পগুলি বিবেচনা করতে পারে। যদিও লিনিয়ারিটি পাওয়া যায় তবে প্রায়শই একটি নির্দিষ্ট স্পষ্টতা থাকে।