আমি কি প্রশ্নে স্বতন্ত্র ভেরিয়েবলের জন্য আরও ভাল আচরণের বিতরণ খুঁজছি, বা বহিরাগতদের প্রভাব কমাতে বা অন্য কিছু?
আমি কি প্রশ্নে স্বতন্ত্র ভেরিয়েবলের জন্য আরও ভাল আচরণের বিতরণ খুঁজছি, বা বহিরাগতদের প্রভাব কমাতে বা অন্য কিছু?
উত্তর:
আমি সর্বদা এটির মতো দুর্দান্ত প্রতিক্রিয়াগুলির সাথে একটি থ্রেডে ঝাঁপিয়ে পড়তে দ্বিধা বোধ করি, তবে এটি আমাকে আঘাত করে যে কয়েকটি উত্তর উত্তরকে লোগারিদমকে অন্য কোনও রূপান্তরকে প্রাধান্য দেওয়ার কোনও কারণ সরবরাহ করে যা ডেটা "স্কোয়াশ" যেমন একটি মূল বা পারস্পরিক ক্রিয়াকলাপ হিসাবে উপস্থাপন করে।
এটির আগে, আসুন আমরা আরও সাধারণ উপায়ে বিদ্যমান উত্তরগুলিতে জ্ঞানটি পুনরায় চিত্রিত করি । নিম্নোক্ত যে কোনও প্রয়োগ করার সময় নির্ভরশীল ভেরিয়েবলের কিছু অ-রৈখিক পুনঃপ্রকাশটি নির্দেশিত হয়:
অবশিষ্টাংশের একটি বিতর্কিত বিতরণ আছে। রূপান্তরটির উদ্দেশ্য হ'ল অবশিষ্টাংশগুলি যা প্রায় প্রতিসাম্যিকভাবে বিতরণ করা হয় (প্রায় শূন্য প্রায় অবশ্যই)।
অবশিষ্টাংশের বিস্তারটি নির্ভরশীল ভেরিয়েবলের মানগুলির সাথে নিয়মিতভাবে পরিবর্তিত হয় ("হেটেরোসেসটাস্টিকটি")। রূপান্তরটির উদ্দেশ্যটি হ'ল আনুষ্ঠানিক "সমকামীতা" অর্জনের মাধ্যমে সেই নিয়মতান্ত্রিক পরিবর্তনকে সরিয়ে নেওয়া।
একটি সম্পর্ক লিনিয়ারাইজ করা।
যখন বৈজ্ঞানিক তত্ত্ব নির্দেশ করে। উদাহরণস্বরূপ, রসায়ন প্রায়শই লোগারিদম হিসাবে ক্রিয়াকলাপ প্রকাশ করার পরামর্শ দেয় (ক্রিয়াকলাপ দেয় এমনকি সুপরিচিত পিএইচ)।
যখন একটি আরও নেবুলাস পরিসংখ্যানগত তত্ত্ব প্রস্তাবিত অবশিষ্টাংশগুলি "এলোমেলো ত্রুটিগুলি" প্রতিফলিত করে যা সংযোজনীয়ভাবে জমা হয় না।
একটি মডেল সরল করতে। উদাহরণস্বরূপ, কখনও কখনও লগারিদম "ইন্টারঅ্যাকশন" পদগুলির সংখ্যা এবং জটিলতা সহজ করে তুলতে পারে।
(এই ইঙ্গিতগুলি একে অপরের সাথে বিরোধ করতে পারে; এই জাতীয় ক্ষেত্রে রায় দেওয়া দরকার))
সুতরাং, যখন কোনও লোগারিদম নির্দিষ্টভাবে অন্য কিছু রূপান্তরের পরিবর্তে নির্দেশিত হয়?
অবশিষ্টাংশের "দৃ strongly়ভাবে" ইতিবাচকভাবে স্কিউ বিতরণ হয়। ইডিএ সম্পর্কিত তাঁর বইতে জন টুকি অবশিষ্টাংশের র্যাঙ্কের পরিসংখ্যানের ভিত্তিতে রূপান্তর (বক্স-কক্সের পরিবারের মধ্যে, বা শক্তি, রূপান্তর) অনুমানের পরিমাণগত উপায় সরবরাহ করে। এটি সত্যই অবতীর্ণ হয় যে লগটি গ্রহণ করলে অবশিষ্টাংশগুলির প্রতিসাম্য ঘটে, এটি সম্ভবত পুনরায় প্রকাশের সঠিক ফর্ম ছিল; অন্যথায়, অন্য কিছু পুনরায় প্রকাশের প্রয়োজন।
যখন অবশিষ্টাংশের এসডি ফিটেড মানগুলির সাথে সরাসরি আনুপাতিক হয় (এবং লাগানো মানগুলির কোনও পাওয়ার নয়)।
সম্পর্কটি যখন ঘনিষ্ঠ হয়।
যখন অবশিষ্টাংশগুলি গুণগতভাবে জমা হওয়া ত্রুটিগুলি প্রতিফলিত করে বলে বিশ্বাস করা হয়।
আপনি সত্যই এমন একটি মডেল চান যেখানে বর্ণনামূলক ভেরিয়েবলের প্রান্তিক পরিবর্তনগুলি নির্ভরশীল ভেরিয়েবলের গুণমান (শতাংশ) পরিবর্তনের ক্ষেত্রে ব্যাখ্যা করা হয়।
অবশেষে, পুনঃপ্রকাশটি ব্যবহার করার কিছু অ -কারণ :
আউটলিয়ারকে আউটলিয়ারের মতো দেখায় না। আউটলেটর এমন একটি ডেটুম যা ডেটাগুলির কিছু পার্সোনামিয়াস, তুলনামূলক সহজ বর্ণনা মাপসই করে না। আউটলিয়ারদের আরও ভাল দেখানোর জন্য নিজের বর্ণনাকে পরিবর্তন করা সাধারণত অগ্রাধিকারগুলির একটি ভুল বিপরীত হয়: প্রথমে বৈজ্ঞানিকভাবে বৈধ, পরিসংখ্যানগতভাবে ডেটাটির ভাল বিবরণ অর্জন করুন এবং তারপরে যে কোনও বিদেশী অন্বেষণ করুন। মাঝেমধ্যে আউটলারকে কীভাবে বাকী ডেটা বর্ণনা করতে হবে তা নির্ধারণ করতে দিবেন না!
কারণ সফ্টওয়্যারটি স্বয়ংক্রিয়ভাবে এটি করেছে। (যথেষ্ট বলেছ!)
কারণ সমস্ত ডেটা ইতিবাচক। (ইতিবাচকতা প্রায়শই ইতিবাচক সঙ্কোচকে বোঝায়, তবে এটি করার দরকার হয় না Furthermore অন্যদিকে, অন্য রূপান্তরগুলি আরও ভালভাবে কাজ করতে পারে For উদাহরণস্বরূপ, একটি মূল প্রায়শই গণনা করা ডেটার সাথে সবচেয়ে ভাল কাজ করে))
"খারাপ" ডেটা তৈরি করতে (সম্ভবত নিম্ন মানের) ভাল আচরণ করা প্রদর্শিত হবে।
ডেটা প্লট করতে সক্ষম হতে (ক রূপান্তর ডেটা প্লটে বিভক্ত পাবে প্রয়োজন হলে, এটি সম্ভবত এক বা একাধিক ভাল কারণ ইতিমধ্যে উল্লিখিত জন্য প্রয়োজন এর রূপান্তর সত্যিই জন্য একমাত্র কারণ ষড়যন্ত্র, এগিয়ে যান এর জন্য হলে এবং তা -। কিন্তু শুধুমাত্র চক্রান্ত ডেটা। বিশ্লেষণের জন্য ডেটা অপরিবর্তিত রেখে দিন))
আমি সবসময়ই শিক্ষার্থীদের বলি প্রাকৃতিক লোগারিদম গ্রহণ করে একটি পরিবর্তনশীল রূপান্তরিত করার জন্য তিনটি কারণ রয়েছে। ভেরিয়েবল লগ করার কারণ নির্ধারণ করবে যে আপনি স্বতন্ত্র ভেরিয়েবল (গুলি) নির্ভর করতে পারেন বা উভয় লগ করতে চান। পরিষ্কার হয়ে যাওয়ার জন্য আমি প্রাকৃতিক লোগারিদম নেওয়ার কথা বলছি।
প্রথমত, অন্যান্য পোস্টার হিসাবে উল্লেখ করা হয়েছে মডেল ফিট উন্নত। উদাহরণস্বরূপ, যদি আপনার অবশিষ্টাংশগুলি সাধারণত বিতরণ না করা হয় তবে স্কিউ ভেরিয়েবলের লগারিদম গ্রহণ করলে স্কেল পরিবর্তন করে এবং ভেরিয়েবলটিকে আরও "সাধারণভাবে" বিতরণ করে ফিটের উন্নতি হতে পারে। উদাহরণস্বরূপ, উপার্জনটি শূন্যের উপরে কাটা হয় এবং প্রায়শই ইতিবাচক স্কিউ প্রদর্শন করে। যদি ভেরিয়েবলটির নেতিবাচক স্কিউ থাকে তবে আপনি প্রথমে লগারিদম নেওয়ার আগে ভেরিয়েবলটি উল্টাতে পারেন। আমি এখানে বিশেষত লিকার্ট স্কেলগুলি নিয়ে ভাবছি যা ধারাবাহিক চলক হিসাবে প্রবেশ করা হয়। যদিও এটি নির্ভরশীল ভেরিয়েবলের ক্ষেত্রে সাধারণত প্রযোজ্য আপনি মাঝে মাঝে একটি স্বাধীন ভেরিয়েবল দ্বারা সৃষ্ট অবশিষ্টাংশগুলি (যেমন: হেটেরোসিসেস্টাস্টিটি) নিয়ে সমস্যায় পড়ে যা কখনও কখনও সেই পরিবর্তনশীলটির লগারিদম গ্রহণ করে সংশোধন করা যায়। উদাহরণস্বরূপ এমন একটি মডেল চালানোর সময় যা প্রভাষকদের একটি সংকলনে প্রভাষক মূল্যায়ন ব্যাখ্যা করে এবং শ্রেণিটি "পরিবর্তনশীল শ্রেণীর আকার" (অর্থাত্ বক্তৃতায় শিক্ষার্থীর সংখ্যা) বহিরাগত ছিল যা ভিন্ন ভিন্ন কারণকে প্ররোচিত করেছিল কারণ প্রভাষকের মূল্যায়নের প্রকরণটি বৃহত্তর চেয়ে ছোট ছিল ছোট কোহোর্টের তুলনায় কোহোর্টস। শিক্ষার্থীর ভেরিয়েবল লগ করা সাহায্য করবে, যদিও এই উদাহরণে রবস্ট স্ট্যান্ডার্ড ত্রুটিগুলি গণনা করা বা ভারী স্বল্প স্কোয়ার ব্যবহার করা ব্যাখ্যাকে সহজ করে তুলতে পারে।
ওয়াই এবং এক্স - এক্সের এক ইউনিট বৃদ্ধি হতে পারে
এবং অবশেষে এটি করার একটি তাত্ত্বিক কারণ থাকতে পারে। উদাহরণস্বরূপ কয়েকটি মডেল আমরা অনুমান করতে চাই যেগুলি গুণক এবং অতএব ননলাইনার। লোগারিদম গ্রহণ করা এই মডেলগুলিকে লিনিয়ার রিগ্রেশন দ্বারা অনুমান করা যায়। এর ভাল উদাহরণগুলির মধ্যে রয়েছে অর্থনীতিতে কোব-ডগলাস উত্পাদন ফাংশন এবং শিক্ষায় মিনসর সমীকরণ। কোব-ডগলাস উত্পাদন ফাংশন ব্যাখ্যা করে যে কীভাবে ইনপুটগুলি আউটপুটগুলিতে রূপান্তরিত হয়:
কোথায়
এর লগারিদম গ্রহণের ফলে ওএলএস লিনিয়ার রিগ্রেশন ব্যবহার করে ফাংশনটি অনুমান করা সহজ হয়:
লোগারিদমকে অন্য কিছু রূপান্তর যেমন শিকড় বা পারস্পরিক ক্রিয়াকলাপের কাছে অগ্রাধিকার দেওয়ার জন্য, তবে অন্যান্য রূপান্তরগুলির তুলনায় লগ-ট্রান্সফর্মেশনের ফলে রিগ্রেশন সহগের অনন্য ব্যাখ্যাযোগ্যতার দিকে মনোনিবেশ করার কারণগুলির বিষয়ে whuber এর দুর্দান্ত পয়েন্টটি সম্পর্কে আরও দেখুন:
অলিভার এন কেইন লগ রূপান্তর বিশেষ। মেডিসিনে পরিসংখ্যান 1995; 14 (8): 811-819। ডিওআই: 10.1002 / সিম.4780140810 । (সন্দেহজনক বৈধতার পিডিএফ http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/ বক্তৃতা / পঠন / লগ.পিডিএফ এ উপলব্ধ )।
আপনি লগ ইন করুন যদি স্বাধীন পরিবর্তনশীল x এর বেস খ , আপনি নির্ভরশীল পরিবর্তনশীল পরিবর্তন যেমন রিগ্রেশন সহগ (এবং ci) ব্যাখ্যা করতে পারেন Y প্রতি খ মধ্যে ধা বৃদ্ধি এক্স । (বেস 2 লগ তারা পরিবর্তন মিলা তাই প্রায়ই উপযোগী Y মধ্যে দ্বিগুন প্রতি এক্স , অথবা লগ বেস 10 যদি এক্স মাত্রার, যা দুর্লভ হয় অনেক আদেশ উপর পরিবর্তিত হয়)। বর্গমূলের মতো অন্যান্য রূপান্তরগুলির এত সহজ ব্যাখ্যা নেই।
আপনি লগ ইন করুন যদি নির্ভরশীল পরিবর্তনশীল Y (মূল প্রশ্ন কিন্তু এক যা পূর্ববর্তী উত্তর বিভিন্ন সুরাহা হয়েছে), তারপর আমি 'sympercents' এর টিম কোল এর ধারণা ফলাফল উপস্থাপন জন্য আকর্ষণীয় (ঝ এমনকি একবার একটি কাগজে তাদের ব্যবহৃত) খুঁজে যদিও তারা মনে হয় না যে তারা এতগুলি ব্যাপকভাবে ধরা পড়েছে:
টিম জে কোল। প্রতিবিম্ব: 100 লগ (ই) স্কেলে প্রতিসম শতাংশের পার্থক্য লগ রূপান্তরিত ডেটার উপস্থাপনাটিকে সহজ করে তোলে। মেডিসিন 2000 এ পরিসংখ্যান ; 19 (22): 3109-3125। ডিওআই: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: এইড-সিম 558> 3.0.CO; 2-এফ [আমি খুব খুশি যে স্টেট মেড ডিআইআই হিসাবে এসআইসিআই ব্যবহার বন্ধ করে দিয়েছে ...]
একটি সাধারণত ইনপুট ভেরিয়েবলের লগ গ্রহণ করে এটি স্কেল করে এবং বিতরণ পরিবর্তন করতে (যেমন এটি সাধারণত বিতরণ করা)। এটি অন্ধভাবে করা যায় না; ফলাফলগুলি এখনও ব্যাখ্যামূলকভাবে নিশ্চিত হয় তা নিশ্চিত করার জন্য কোনও স্কেলিং করার সময় আপনার সতর্কতা অবলম্বন করা উচিত।
এটি বেশিরভাগ সূচনা পরিসংখ্যান পাঠ্যে আলোচনা করা হয়। এ সম্পর্কে আলোচনার জন্য আপনি "দুটি স্ট্যান্ডার্ড বিচ্যুতি দ্বারা ভাগ করে স্কেলিং রিগ্রেশন ইনপুট" সম্পর্কিত অ্যান্ড্রু গেলম্যানের কাগজটিও পড়তে পারেন । "রিগ্রেশন এবং মাল্টিলেভেল / হায়ারার্কিকাল মডেলগুলি ব্যবহার করে ডেটা অ্যানালাইসিস" এর শুরুতে এ নিয়ে তাঁর খুব সুন্দর আলোচনা হয়েছে ।
খারাপ ডেটা / আউটলিয়ারদের মোকাবেলার জন্য লগ নেওয়া কোনও উপযুক্ত পদ্ধতি নয়।
যখন অবশিষ্টাংশগুলিতে কোনও সমস্যা হয় তখন আপনি ডেটা লগ নিতে চান tend উদাহরণস্বরূপ, আপনি যদি কোনও নির্দিষ্ট কোভেরিয়েটের বিরুদ্ধে অবশিষ্টাংশ প্লট করেন এবং ক্রমবর্ধমান / হ্রাস প্যাটার্ন (একটি ফানেল আকার) পর্যবেক্ষণ করেন তবে একটি রূপান্তর উপযুক্ত হতে পারে। অ-র্যান্ডম অবশিষ্টাংশগুলি সাধারণত আপনার মডেল অনুমানগুলি ভুল, অর্থাৎ অ-স্বাভাবিক ডেটা নির্দেশ করে।
কিছু ডেটা প্রকার স্বয়ংক্রিয়ভাবে লোগারিদমিক ট্রান্সফর্মেশনগুলিতে leণ দেয়। উদাহরণস্বরূপ, ঘনত্ব বা বয়স নিয়ে কাজ করার সময় আমি সাধারণত লগগুলি নিয়ে যাই।
যদিও রূপান্তরগুলি প্রাথমিকভাবে আউটলিয়ারদের মোকাবেলায় ব্যবহার করা হয় না, লগগুলি গ্রহণ করা আপনার ডেটা স্কোয়াশ করার কারণে তারা সহায়তা করে।
rms
require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f)) # plot spline of cr(X) against X
আমি ব্যবহারকারীর 1690130 এর প্রশ্নের জবাব দিতে চাই যা 26 অক্টোবর '12 এর প্রথম উত্তরের মন্তব্য হিসাবে রেখেছিল এবং নীচে লেখা হয়েছে: "কোনও অঞ্চলে জনসংখ্যার ঘনত্ব বা প্রতিটি বিদ্যালয়ের জেলা বা শিশু-শিক্ষার অনুপাতের মতো চলকগুলি সম্পর্কে কী? জনসংখ্যায় প্রতি ১০০০ জন হত্যাকাণ্ডের সংখ্যা? আমি দেখেছি অধ্যাপকরা এই পরিবর্তনশীলগুলির লগ নিতে পারেন why কেন এটি আমার কাছে পরিষ্কার নয় For উদাহরণস্বরূপ, হত্যাকাণ্ডের হারটি ইতিমধ্যে শতকরা হার নয় কেন? লগটি শতাংশের শতাংশের পরিবর্তন হবে হার? শিশু-শিক্ষক অনুপাতের লগকে কেন অগ্রাধিকার দেওয়া হবে? "
আমি একটি অনুরূপ সমস্যার উত্তর দিতে চেয়েছিলাম এবং আমার পুরানো পরিসংখ্যানের পাঠ্যপুস্তকটি কীটি ভাগ করে নিতে চেয়েছিলাম ( জেফরি ওয়াল্ড্রিজ । 2006. পরিচিতি একনোমেট্রিক্স - একটি আধুনিক পদ্ধতি, চতুর্থ সংস্করণ। অধ্যায় 6 একাধিক রিগ্রেশন বিশ্লেষণ: আরও ইস্যু। 191 ) এ সম্পর্কে যা বলেছে। ওয়াল্ড্রিজ পরামর্শ দেয়:
বৈকল্পিক যা অনুপাত বা শতাংশ আকারে উপস্থিত হয়, যেমন বেকারত্বের হার, পেনশনের পরিকল্পনায় অংশ গ্রহণের হার, একটি প্রমিত পরীক্ষায় পাস করা শিক্ষার্থীর শতাংশ এবং রিপোর্ট করা অপরাধের গ্রেফতারের হার - মূল বা লোগারিথমিক ফর্মের মধ্যে উপস্থিত হতে পারে , যদিও তাদের স্তর ফর্ম ব্যবহার করার জন্য একটি প্রবৃত্তি । এর কারণ এটি হ'ল মূল পরিবর্তনশীল জড়িত যে কোনও রিগ্রেশন সহগ - এটি নির্ভরশীল বা স্বতন্ত্র ভেরিয়েবল - শতাংশের পয়েন্ট পরিবর্তনের ব্যাখ্যা থাকবে। যদি আমরা ব্যবহার করি, বলুন, লগ ( আনমম ) কোনও রিগ্রেশনে ব্যবহার করুন, যেখানে আনম বেকার ব্যক্তিদের শতাংশ , সেখানে শতাংশ পয়েন্ট পরিবর্তন এবং শতাংশের পরিবর্তনের মধ্যে পার্থক্য করার জন্য আমাদের অবশ্যই খুব সতর্কতা অবলম্বন করতে হবে। মনে রাখবেন, যদি অসম8 থেকে 9 এ চলে যায়, এটি এক শতাংশ পয়েন্টের বৃদ্ধি, তবে প্রাথমিক বেকারত্বের স্তর থেকে 12.5% বৃদ্ধি। লগটি ব্যবহারের অর্থ হ'ল আমরা বেকারত্বের হারের শতকরা পরিবর্তনটির দিকে তাকিয়ে আছি: লগ (9) - লগ (8) = 0.118 বা 11.8%, যা আসল 12.5% বৃদ্ধির লগারিদমিক প্রায়।
এর উপর ভিত্তি করে এবং ব্যবহারকারী 1690130 এর প্রশ্নে ভুবারের আগের মন্তব্যের উপর ভিত্তি করে, আমি ঘনত্ব বা শতাংশের হারের পরিবর্তনশীলটির লগারিদম ব্যবহার এড়াতে পারব যদি না লগ ফর্মটি ব্যবহার করে ঘনত্বের স্কিউনেস হ্রাস করতে পারে এমন বড় ট্রেডঅফ তৈরি না হয় বা হার পরিবর্তনশীল।
শেনের বক্তব্য যে খারাপ ডেটা মোকাবেলা করতে লগ নেওয়া ভালভাবে নেওয়া হয়। যেমন কলিনের স্বাভাবিক অবশিষ্টাংশের গুরুত্ব সম্পর্কিত। অনুশীলনে আমি দেখতে পেয়েছি যে ইনপুট এবং আউটপুট ভেরিয়েবলগুলি তুলনামূলকভাবে স্বাভাবিক হলে সাধারণত আপনি সাধারণ অবশিষ্টাংশগুলি পেতে পারেন। অনুশীলনের অর্থ হ'ল রূপান্তরিত এবং অপরিকল্পিত ডেটাসেটের বিতরণকে চোখের সামনে তাকাতে এবং নিজেকে আশ্বস্ত করে যে তারা আরও স্বাভাবিক হয়ে গেছে এবং / অথবা স্বাভাবিকতার পরীক্ষা চালিয়েছে (যেমন শাপিরো-উইলক বা কোলমোগোরভ-স্মারনভ পরীক্ষা) এবং ফলাফলটি আরও স্বাভাবিক কিনা তা নির্ধারণ করে। ব্যাখ্যা এবং abতিহ্যও গুরুত্বপূর্ণ। উদাহরণস্বরূপ, জ্ঞানীয় মনোবিজ্ঞানের মধ্যে প্রতিক্রিয়ার সময়ের লগ রূপান্তরগুলি প্রায়শই ব্যবহৃত হয়, তবে আমার কাছে কমপক্ষে একটি লগ আরটি এর ব্যাখ্যা অস্পষ্ট। তদ্ব্যতীত,