অনুপাতগুলি যখন তারা একটি স্বতন্ত্র পরিবর্তনশীল হয় তখন রূপান্তর করার সবচেয়ে উপযুক্ত উপায় কী?


12

আমি ভেবেছিলাম আমি এই সমস্যাটি বুঝতে পেরেছি তবে এখন আমি তেমন নিশ্চিত নই এবং আমি এগিয়ে যাওয়ার আগে অন্যের সাথে চেক করতে চাই।

আমার দুটি পরিবর্তনশীল আছে, Xএবং YYএটি একটি অনুপাত, এবং এটি 0 এবং 1 দ্বারা আবদ্ধ হয় না এবং সাধারণত বিতরণ করা হয়। Xএটি একটি অনুপাত, এবং এটি 0 এবং 1 দ্বারা সীমাবদ্ধ (এটি 0.0 থেকে 0.6 পর্যন্ত চলে)। আমি যখন লিনিয়ার রিগ্রেশন চালাই Y ~ Xএবং আমি এটি খুঁজে পাই Xএবং Yতা উল্লেখযোগ্যভাবে রৈখিকভাবে সম্পর্কিত related এ পর্যন্ত সব ঠিকই.

তবে আমি আরও তদন্ত করি এবং আমি ভাবতে শুরু করি যে সম্ভবত Xএবং Yএর সম্পর্ক লিনিয়ারের চেয়ে বেশি বক্ররেখা হতে পারে। আমার কাছে এটা সম্পর্ক মত দেখায় Xএবং Yকাছাকাছি হতে পারে Y ~ log(X), Y ~ sqrt(X)অথবা Y ~ X + X^2, বা ওই জাতীয় কিছু। এই সম্পর্কটি বক্ররেখার হতে পারে বলে ধরে নেওয়ার আমার অভিজ্ঞতাগত কারণ রয়েছে তবে কোনও এক-লৈখিক সম্পর্ক অন্য যে কোনওটির চেয়ে ভাল হতে পারে তা ধরে নেওয়ার কারণ নেই।

এখান থেকে আমার কয়েকটি সম্পর্কিত প্রশ্ন রয়েছে। প্রথমত, আমার Xপরিবর্তনশীলটি চারটি মান নেয়: 0, 0.2, 0.4 এবং 0.6। আমি যখন এই ডেটাগুলিকে লগইন করি বা স্কোয়ার-রুট-রূপান্তর করি তখন এই মানগুলির মধ্যে ব্যবধানটি বিকৃত হয় যাতে 0 টি মানগুলি অন্য সকলের থেকে অনেক দূরে থাকে। জিজ্ঞাসা করার আরও ভাল পদ্ধতির অভাবে, আমি কি এটি চাই? আমি ধরে নিলাম এটি তা নয়, কারণ আমি যে পরিমাণ বিকৃতি গ্রহণ করি তার উপর নির্ভর করে আমি খুব আলাদা ফলাফল পেয়েছি get এটি যদি আমি চাই না তবে কীভাবে আমি এড়ানো উচিত?

দ্বিতীয়ত, এই ডেটা লগ-রূপান্তর করতে, আমাকে প্রতিটি Xমানটিতে কিছু পরিমাণ যুক্ত করতে হবে কারণ আপনি লগ 0 নিতে পারবেন না আমি যখন খুব অল্প পরিমাণ যুক্ত করি তখন 0.001 বলুন, আমি খুব উল্লেখযোগ্য বিকৃতি পেয়েছি। আমি যখন আরও বেশি পরিমাণ যুক্ত করি তখন 1 বলুন, আমি খুব কম বিকৃতি পেয়েছি। কোনও Xভেরিয়েবল যুক্ত করতে "সঠিক" পরিমাণ আছে কি ? অথবা বিকল্প রূপান্তর (যেমন কিউব-রুট) বা মডেল (যেমন লজিস্টিক রিগ্রেশন) বাছাইয়ের পরিবর্তে কোনও চলকটিতে কিছু যুক্ত করা অনুচিত X?

এই সমস্যাটিতে আমি এখানে যে সামান্যই সন্ধান করতে পেরেছি তা আমাকে অনুভব করে যে আমার সাবধানে চলতে হবে। সহযোগী আর ব্যবহারকারীদের জন্য, এই কোডটি খনি হিসাবে একই ধরণের কাঠামোযুক্ত কিছু ডেটা তৈরি করবে।

X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)

আপনি বলে যে Y একটি অনুপাত, তবে আপনার ডেটাতে এটি 6 এবং 10 এর মধ্যে?

হ্যাঁ আমি এটি উপরেরটি স্থির করেছি - এটি একটি অনুপাত, অনুপাত নয়।
বাজকজ

উত্তর:


13

অনুপাত রূপান্তর সম্পর্কে মূল প্রশ্ন (আমি প্রতীক হিসাবে ব্যবহার করব , একইভাবে তবে আপনার স্বীকৃতিতে অভিন্ন নয়) কিছু সাধারণ মন্তব্যের অনুমতি দেয়।x

এরপরে আমি এটিকে কীভাবে গ্রহণ করি যে অনুগ্রহকারীদের (অনুমানকারী, স্বতন্ত্র ভেরিয়েবল) অনুপাতের রূপান্তর করার মূল উদ্দেশ্যটি হ'ল সম্পর্কের সীমাবদ্ধতার সান্নিধ্যে উন্নতি করা, বা যদি অনুসন্ধানী মোডে চিত্রের প্রকৃতি বা প্রকৃতপক্ষে অস্তিত্বের গ্রাফিকভাবে আরও পরিষ্কার ধারণা পাওয়া যায় কোন সম্পর্ক। কোনও কোভেরিয়াট (উদাঃ) প্রায় সাধারণভাবে বিতরণ করা হয়েছে কিনা তা যথারীতি যেমন গুরুত্বপূর্ণ নয়। (অনুপাতগুলি মানগুলির সাথে সূচক ভেরিয়েবলগুলির খুব দূরের সম্পর্কযুক্ত নয় যা কখনও কখনও সাধারণত বিতরণ করা যায় না এবং অনুপাতগুলিও আবশ্যকভাবে আবদ্ধ হয়))0,1

যদি অনুপাতগুলি সঠিক শূন্য বা যথাযথগুলি অর্জন করতে পারে, তবে এই সীমাগুলির জন্য একটি রূপান্তরটি সংজ্ঞায়িত করা অপরিহার্য, যা স্পষ্টভাবে rules এক্সকে নিয়ম করে , যেমন অনির্দিষ্ট। বিয়ন্ড একটি নির্দিষ্ট আকৃতি আদর্শভাবে কিছু বাস্তব (বৈজ্ঞানিক, ব্যবহারিক) আত্মপক্ষ সমর্থন প্রয়োজন, কিন্তু উদাসীন এটি কিছু সহজ বিশ্লেষণের অনুসরণ যে অত্যন্ত মূল্য সংবেদনশীল , আপনি প্রজ্ঞান। লগ 0 লগ ( এক্স + সি ) সিlogxlog0log(x+c)c

বেস তে লগারিদমগুলি দেখতে এটি আরও সহজ , সুতরাং অস্থায়ীভাবে যাতে মানচিত্র থেকে ।সি = 10 কে লগ 10 ( এক্স + 10 কে ) x = 0 কে10c=10klog10(x+10k)x=0k

সুতরাং মানচিত্র থেকে এবং থেকে প্রায় , যখন মানচিত্র থেকে এবং কেবল বেশি স্মিডজেনে ।এক্স = 0 0 এক্স = 1 0.301 কে = - 3 , সি = 0.001 এক্স = 0 - 3 এক্স = 1 0k=0,c=1x=00x=10.301k=3,c=0.001x=03x=10

একইভাবে, যাই হোক না কেন অর্থ এই একই সীমাতে ম্যাপ করা হয়েছে, যখন ক্রমবর্ধমান ভাল আনুমানিক তে ম্যাপ করা হয়েছে ।0 এক্স = 1 0k=6,9,0x=10

সুতরাং নীচের সীমাটি ছোট এবং আরও সংযুক্ত ধ্রুবক দিয়ে বাইরের দিকে প্রসারিত হয় , যখন উপরের সীমাটি প্রায় একই থাকে। এই ধরণের রূপান্তরগুলি পরিসীমাটির নীচের অংশটিকে প্রসারিত করতে পারে এবং বা এর কাছাকাছি খুব কম মান থেকে আউটলিয়ার তৈরি করতে পারে ।0c0

সহজভাবে, লোকেদের সম্ভবত এটি ধারণা করা যায় যে (আপনার পছন্দ অনুসারে যে কোনও বেসে) ছোট জন্য সাথে খুব অনুরূপ আচরণ করা উচিত , এটি বড় ক্ষেত্রে স্পষ্ট সত্য , তবে মোটেই সত্য নয় । তা না হলে করা, এর steeper এবং steeper ঢাল এর কার্যকারিতা হিসেবে যেমন এখানে দান্ত দিয়া ফুটা করা করতে খুব কঠিন।লগ এক্স সি এক্স এক্স লগ এক্স এক্স x 0log(x+c)logxcxxlogxxx0

নিকটে আরও ধীরে ধীরে পরিবর্তিত রূপান্তরগুলিতে ফোকাস করা ভাল বলে মনে হয় এবং সাথে সম্পর্কিত, তবে সম্পর্কিত, কারণে) এছাড়াও কাছাকাছি ।x = 1x=0x=1

স্কোয়ার শিকড় এবং কিউব শিকড় এবং অন্যান্য শক্তি পুরোপুরি জন্য সংজ্ঞায়িত এবং যখন নিকটে মানগুলি প্রসারিত করার প্রয়োজন হয় তখন প্রায়শই সহায়তা করে । তবে এই রূপান্তরগুলি সুপরিচিত এবং আমি এখানে আরও একটি সম্ভাবনার দিকে ফোকাস করি। এক্স = 0 , 1 0xpx=0,10

ভাঁজ শক্তির পরিবার জেডাব্লু টুকি দ্বারা জনপ্রিয় ( এক্সপ্লোরার ডেটা অ্যানালাইসিস , রিডিং, এমএ: অ্যাডিসন-ওয়েসলি, 1977) এক সম্ভাবনা, এবং এটি হ'ল । যদিও সরল উদ্দীপনাজনিত নামগুলিকে অনুমতি দেয় এমন ক্ষমতা বাছাই করার কোনও বাধ্যবাধকতা নেই, তবে পছন্দগুলি (ভাঁজ করা রুট) এবং (ভাঁজ ঘনমূল) এই পরিবারের সবচেয়ে কার্যকর সদস্য বলে মনে হয়। পি = 1 / 2 পি = 1 / 3xp(1x)pp=1/2p=1/3

পরিবার বর্ণনার অনুরূপ পরিচিত logit রূপান্তর এবং প্রকৃতপক্ষে logit একটি সীমিত ক্ষেত্রে দেখা যায় যেমন থাকে । মূল পার্থক্য হ'ল ভাঁজ করা শক্তিগুলি এবং জন্য সংজ্ঞায়িত করা হয় ।logit x=logxlog(1x)p0x=0,1p0

ভাঁজযুক্ত ক্ষমতাগুলি, এখন লগইট সহ এবং নিকটবর্তী চরম ক্ষেত্রেগুলি স্কিউ-প্রতিসাম্যিকভাবে চিকিত্সা করে এবং প্লটটিকে বিপরীত সিগময়েড বক্ররেখ হিসাবে বিবেচনা করে (নীচে কিছু গ্রাফ) সংযোজক এবং গুণগত আচরণ মিশ্রণ করে, ঘন ঘন গুণগত প্রতিধ্বনিত হয় (যদি শারীরিক, জৈবিক, অর্থনৈতিক না হয়) অন্তর্নিহিত ঘটনাটির জন্য তথ্যগুলি01

  • থেকে বলার পার্থক্য একটি "বিগ ডিল" হতে পারে (নিশ্চিত, কেবল দ্বারা পরিবর্তিত হয় তবে এটি দ্বিগুণও হয়)0.010.02x0.01

  • থেকে বলার পার্থক্যটিও "বিগ ডিল" হতে পারে (নিশ্চিত, কেবল দ্বারা পরিবর্তিত হয় তবে "ভগ্নাংশ" ছাড়াই অর্ধেকও হয়ে যায়)0.980.99x0.011x

  • থেকে বলার পার্থক্য "কম চুক্তি" হতে পারে (নিশ্চিত, দ্বারা পরিবর্তিত হয় তবে আনুপাতিক পরিবর্তনটি অনেক কম)0.500.51x0.01

কিছু অন্তর্নিহিত গতিশীলতা যখন কল্পনা করা হয় তখন এটি ভাবতে সবচেয়ে সহজ: শিক্ষিত লোকদের ক্রমবর্ধমান ভগ্নাংশের সার্বজনীন সাক্ষরতার অসম্পূর্ণতার কাছে যাওয়ার সাথে সাথে গতি বাড়িয়ে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে এগিয়ে যায়। সুতরাং সময়ে বক্ররেখা একটি বর্ধনশীল বা হ্রাসমান লজিস্টিকের অনুরূপ হতে পারে। সত্য যে এবং অনুপাত আরও কাছে বা ধীরে ধীরে আরো স্বাভাবিকভাবেই logit এবং আনুপাতিক প্রতিক্রিয়া জন্য অনুরূপ মডেলের জন্য বিভিন্ন প্রেরণার অন্যতম; যদিও আমরা এখানে আনুপাতিক covariates উপর ফোকাস করছি, সিগময়েডগুলি এখানেও দরকারী হতে পারে।01

ভাঁজযুক্ত রুট বা ঘনক্ষেত্রের মতো ভাঁজযুক্ত শক্তিগুলি লগইটের মতো দৃig়ভাবে সিগময়েড হয় না, তবে এখানে একটি মূল্যবান যোগ্যতা হ'ল জন্য ফজ, ক্লেজ বা নজ ছাড়া সরাসরি এবং সহজে সংজ্ঞায়িত হওয়া ।x=0,1

আপনার জাল কিন্তু আপাতদৃষ্টিতে বাস্তববাদী ডেটাসেটের দিকে ফেরা (যা আমি নিজের পছন্দের সফ্টওয়্যারটিতে আমদানি করেছিলাম তবে বিশ্লেষণটি কোনও শালীন মধ্যে সহজ), দেখা যাচ্ছে যে এই রূপান্তরগুলির কোনওটিই আদৌ সহায়তা করে না। তবে ডেটা গ্রাফিকিং একটি স্পষ্ট সতর্কতা দেয় যে একটি শক্তিশালী শক্তিশালী রূপান্তর, এটি সরাসরি প্লট করেও দেখা যায়।log(x+0.001)

আমি যে দুটি প্রধান পয়েন্টটি তৈরি করতে চাই তা হ'ল তা

  1. log(x+c) প্রায়শই পরামর্শ দেওয়া হয়, এবং প্রায়শই আপাতদৃষ্টিতে নিরীহ হিসাবে বিবেচিত হয়, এটি ক্ষতিকারক রূপান্তর হিসাবে বোঝা যায় এবং প্রায়শই অনুপযুক্ত না হয় যখনই এটি ক্ষুদ্রতর জন্য বিতরণকে প্রসারিত করে না (যদি না এটি সত্যই পছন্দসই আচরণ না হয়)।x

  2. আপনার উদাহরণস্বরূপ ডেটার জন্য, আমি চেষ্টা করেছি এমন কোনও রূপান্তর সাহায্য করার মতো বলে মনে হচ্ছে না।

একই সময়ে, অন্যান্য সম্ভাবনাগুলি ক্লান্ত থেকে দূরে। (উল্লেখযোগ্যভাবে, আমি স্কোয়ার রুট বা কিউব রুট চেষ্টা করিনি, এবং জোর দিয়েছি যে অন্য অনেক সমস্যায় এগুলি সুস্পষ্ট এবং গুরুতর প্রার্থী হতে পারে))

গ্রাফের প্রথম সেটটি সহজেই অনুপাতের জন্য কিছু প্রার্থীর রূপান্তরগুলি দেখায় যা এবং উভয়ই অর্জন করতে পারে । (আমি প্রাকৃতিক লোগারিদম ব্যবহার করেছি, তবে আকারগুলি বেসের উপর নির্ভর করে নির্ভর করে না)।01

এখানে চিত্র বর্ণনা লিখুন

গ্রাফের দ্বিতীয় সেট উদাহরণের ডেটাগুলির জন্য কোনও রূপান্তর দেখায় না। (তুলনার জন্য, মূল ডেটার উপর একটি সরল রিগ্রেশন %, আরএমএসই 0.994 দেয় ))R2=3.7=0.994

এখানে চিত্র বর্ণনা লিখুন

ছোট ধাঁধা আপনার অনুপাত হিসাবে বলা হয় তবে এর মানগুলি থেকে এর কাছাকাছি ।y610

সম্পাদনা: মূল ডেটা এখানে প্লট করা যেতে পারে কারণ ওপি সংক্ষিপ্তভাবে ডেটা পোস্ট করেছিল তবে পরে সেগুলি মুছে ফেলা হয়েছে।

ভাঁজযুক্ত শক্তি ব্যবহার করে এখানে অন্যান্য থ্রেডের মধ্যে রয়েছে

অনুপাতের ডেটা রূপান্তরকরণ: যখন আরকসিন বর্গমূল যথেষ্ট হয় না

রিগ্রেশন: কম আর স্কোয়ার্ড এবং উচ্চ পি-মান সহ স্ক্যাটারপ্ল্লট

একটি উচ্চ স্কিউ ডেটাসেট প্লট করুন


দুর্দান্ত উত্তর এবং খুব পুঙ্খানুপুঙ্খ। আমার মনে হয় আমার Yঅনুপাতের চেয়ে আমার একটি অনুপাত বলা উচিত , এটি সম্ভবত বেশ যথেষ্ট পার্থক্য, তাই আপনাকে উল্লেখ করা ভাল ছিল।
বাজকজ

আমি তাদের সংজ্ঞা হিসাবে অনুপাত সীমাবদ্ধ। স্পষ্টতার জন্য ধন্যবাদ, যা আমার বিশ্লেষণে কোনও পার্থক্য করে না (এজন্যই আমি এটিকে একটি ক্ষুদ্র বিশদ বিবরণ হিসাবে চিহ্নিত করেছি)।
নিক কক্স

2
আরও মন্তব্য: নীতিগতভাবে, আপনি স্প্লাইনস বা স্মুথারগুলি ব্যবহার করে বক্রতা ইত্যাদি পরীক্ষা করতে পারেন, তবে ভবিষ্যদ্বাণীকের মাত্র 4 স্বতন্ত্র স্তর সহ যা সহজ নয়। আমি আপনার ডেটার জন্য কোয়ান্টাইল রিগ্রেশন বিবেচনা করব।
নিক কক্স

আমি আরো লক্ষ্য করুন যে , , এবং তাই ঘোষণা প্রার্থী রূপান্তরের যদি আপনি সঠিক লেজ (প্রসারিত করতে অনুষ্ঠানে ছিল ) আর ডানদিকের (চেয়েও বেশি )। স্পষ্টতই তারা জন্য নিখুঁতভাবে সংজ্ঞায়িত । x 3 1 0 x = 0 , 1x2x310x=0,1
নিক কক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.