অনুপাতের ডেটা রূপান্তরকরণ: যখন আরকসিন বর্গমূল যথেষ্ট হয় না


20

শতাংশ / অনুপাতের ডেটার জন্য আরকসিন বর্গমূলের রূপান্তরের কোনও (শক্তিশালী?) বিকল্প আছে কি? এই মুহুর্তে আমি যে ডেটা সেটটিতে কাজ করছি সেগুলিতে, আমি এই রূপান্তরটি প্রয়োগ করার পরে চিহ্নিত হেটেরোসেসডাস্টিকালিটি রয়ে গেছে, অর্থাত্‍ স্থায়ী মানগুলির অবশিষ্টাংশের প্লটটি এখনও খুব বেশি rhomboid।

মন্তব্যে প্রতিক্রিয়া জানাতে সম্পাদিত: ডেটা হ'ল পরীক্ষামূলক অংশগ্রহণকারীদের বিনিয়োগের সিদ্ধান্ত যা 10% এর গুণিতকগুলিতে একটি এন্ডোমেন্টের 0-100% বিনিয়োগ করতে পারে। আমি অর্ডিনাল লজিস্টিক রিগ্রেশন ব্যবহার করে এই ডেটাগুলিও দেখেছি তবে বৈধ গ্ল্যাম কী উত্পাদন করবে তা দেখতে চাই। প্লাস আমি উত্তরটি ভবিষ্যতের কাজের জন্য দরকারী হিসাবে দেখতে পেলাম, যেহেতু আরকসিন বর্গক্ষেত্রটি আমার ক্ষেত্রের সমস্ত আকারকে এক-আকারের ফিট হিসাবে ব্যবহার করা হবে বলে মনে হয় এবং আমি নিযুক্ত হওয়ার কোনও বিকল্পই পাইনি।


2
লাগানো মানগুলি থেকে কি? আপনার মডেল কি? আরকসিনটি দ্বিপদী জন্য (প্রায়) বৈকল্পিক স্থিতিশীল, তবে অনুপাত 0 বা 1 এর কাছাকাছি থাকলে আপনার এখনও "প্রান্ত" প্রভাব পড়তে পারেন - কারণ সাধারণ অংশ কার্যকরভাবে কাটা হয়ে যায়।
সম্ভাব্যতাব্লোগিক

1
আমাকে @ প্রোব্যাবিলিটিস্লোগিক কী বলেছে তার দ্বিগুণ করতে এবং ডেটা কোথা থেকে এসেছে তাও অনুসন্ধান করতে দিন। সমস্যার মধ্যে কিছু থাকতে পারে যা অন্য রূপান্তর, বা অন্য কোনও মডেল সম্পূর্ণরূপে প্রস্তাব দেয় যা সম্ভবত আরও উপযুক্ত এবং / বা ব্যাখ্যাযোগ্য হতে পারে।
জেএমএস

1
@ প্রোব @ জেএমএস আমরা কেন ওপিকে, যিনি বিশ্বাস করি যে পরিসংখ্যান সম্পর্কে যথেষ্ট জ্ঞানবান, প্রথমে রূপান্তরের রুটটি চেষ্টা করে দেখি না? তারপরে, যদি এটি কাজ না করে তবে সমস্যাটি কম সংকীর্ণভাবে উপস্থাপিত হওয়া একটি নতুন থ্রেড শুরু করা ফলপ্রসূ হবে। আপনার মন্তব্য সেই প্রসঙ্গে উপযুক্ত হবে।
হোবার

1
আর্কসাইন বর্গক্ষেত্র রূপান্তরকরণের সাথে বিশাল সমস্যা রয়েছে, মজাদারভাবে শিরোনামযুক্ত কাগজে আটকানো হয়েছে আর্কসাইন অ্যাসিনাইন: বাস্তুশাস্ত্রে অনুপাতের বিশ্লেষণ
- মনিকা পুনরায় ইনস্টল করুন

1
@ এমকেটি রেফারেন্সের জন্য ধন্যবাদ, এটি সরাসরি রৈখিক মডেলগুলিতে পরবর্তী টার্মের বক্তৃতায় চলে গেছে।
ফ্রেইয়া হ্যারিসন

উত্তর:


28

অবশ্যই। জন Tukey (বৃদ্ধি, একের সাথে এক) এ রূপান্তরের একটি পরিবার বর্ণনা করে EDA । এটি এই ধারণাগুলির উপর ভিত্তি করে:

  1. একটি পরামিতি দ্বারা নিয়ন্ত্রিত হিসাবে (0 এবং 1 দিকে) লেজগুলি প্রসারিত করতে সক্ষম হতে।

  2. তা সত্ত্বেও, মধ্যম (কাছাকাছি মূল (untransformed) মান মেলে 1/2 ), যা রূপান্তর সহজ ব্যাখ্যা করে তোলে।

  3. সম্পর্কে পুনরায় অভিব্যক্তি প্রতিসম করতে 1/2. যে, যদি p পুনরায় প্রকাশ হিসাবে f(p) , তারপর 1p পুনরায় প্রকাশ হবে f(p)

যদি আপনি কোন বৃদ্ধি একঘেয়ে ফাংশন দিয়ে শুরু এমন g:(0,1)R এ differentiable 1/2 আপনি দ্বিতীয় ও তৃতীয় মানদণ্ড পূরণ করার জন্য এটি নিয়ন্ত্রন করতে পারেন: শুধু সংজ্ঞায়িত

f(p)=g(p)g(1p)2g(1/2).

অঙ্কটি স্পষ্টতই প্রতিসম (মাপদণ্ড (3) ), কারণ p1p দিয়ে অদলবদল বিপরীত হয়, যার ফলে এটি উপেক্ষা করা হয়। যে দেখার জন্য (2) সন্তুষ্ট হয়, দয়া করে মনে রাখবেন হর অবিকল ফ্যাক্টর করা প্রয়োজন f(1/2)=1. রিকল যে ব্যুৎপন্ন পরিমাপক একটি রৈখিক ফাংশন একটি ফাংশন স্থানীয় আচরণ; 1=1:1 এর একটি opeাল যার অর্থ f(p)p(প্লাস একটি ধ্রুবক 1/2 ) যখন p পর্যাপ্ত পাসে হবে 1/2. এই অর্থে তার সাথে আসলটি মান হল "মধ্যম কাছাকাছি মিলেছে।"

টুকি এটিকে g র "ভাঁজ" সংস্করণ বলে । তার পরিবার ক্ষমতা নিয়ে গঠিত এবং লগ ইন করুন রূপান্তরের g(p)=pλ কোথায়, কখন λ=0 , আমরা বিবেচনা g(p)=log(p)

আসুন কিছু উদাহরণ তাকান। যখন λ=1/2 আমরা গুটান রুট, অথবা পেতে "froot," f(p)=1/2(p1p)। যখনλ=0আমাদের ভাঁজ করা লোগারিদম, বা "ফ্লাগ", "f(p)=(log(p)log(1p))/4. স্পষ্টতই এটিলগইটরূপান্তরটিরএকটি ধ্রুবক একাধিক,log(p1p)

ল্যাম্বদা = 1, 1/2, 0 এবং আরকসিনের গ্রাফ

এই গ্রাফ নীল লাইন অনুরূপ λ=1 , এর মধ্যবর্তী লাল রেখা λ=1/2 , এবং চরম সবুজ রেখা λ=0 । ড্যাশড সোনার লাইনটি হ'ল আরকসিন রূপান্তর, arcsin(2p1)/2=arcsin(p)arcsin(1/2)। ঢালে এর "মিলে যাওয়া" (নির্ণায়ক(2)) কাকতালীয়ভাবে কাছাকাছি সব গ্রাফ ঘটায়p=1/2.

প্যারামিটারের সবচেয়ে দরকারী মান λ মধ্যে মিথ্যা 1 এবং 0 । (আপনি মুদ্রার উলটা পিঠ এমনকি নেতিবাচক মান গুরুতর করতে পারেন λ , কিন্তু এই ব্যবহার বিরল।) λ=1 মান রিসেন্টার ছাড়া এ সব কিছু না ( f(p)=p1/2 )। হিসাবে λ শূন্য দিকে সঙ্কুচিত করে, মুদ্রার উলটা পিঠ প্রতি আরও টানা পেতে ± । এটি # 1 মাপদণ্ডকে সন্তুষ্ট করে। সুতরাং, λ উপযুক্ত মান চয়ন করে আপনি লেজগুলিতে এই পুনঃপ্রকাশের "শক্তি" নিয়ন্ত্রণ করতে পারেন।


হুঁশিয়ার, কোনও আর ফাংশন সম্পর্কে জানুন যা এটি স্বয়ংক্রিয়ভাবে এটি করে?
জন

1
@ জন না আমি না, তবে এটি কার্যকর করার পক্ষে যথেষ্ট সহজ।
হোবার

2
আমি এটিকে মূলত কঠিন হিসাবে দেখিনি তবে বক্সকক্স ট্রান্সফর্মগুলির মতো এমন কিছু ছিল যা ল্যাম্বদার জন্য সেরা নির্বাচনটি স্বয়ংক্রিয়ভাবে প্লট করে। হ্যাঁ, কার্যকর করা ভয়ানক নয় ...
জন

2
ধন্যবাদ হুঁশিয়ার, আমি ঠিক ঠিক এই ধরণের জিনিসটি খুঁজছিলাম এবং গ্রাফটি সত্যই সহায়ক। অবশ্যই জন এর সাথে একমত যে বক্সকক্সের মতো কিছু সহায়ক হবে, তবে এটি কাজ করার পক্ষে যথেষ্ট সহজ বলে মনে হচ্ছে।
ফ্রেইয়া হ্যারিসন

7

অন্তর্ভুক্ত করার একটি উপায় হ'ল একটি সূচকযুক্ত রূপান্তর অন্তর্ভুক্ত করা। একটি সাধারণ উপায় হ'ল যে কোনও প্রতিসাম্য (বিপরীত) संचयी বিতরণ ফাংশন ব্যবহার করা, যাতে এবং F ( x ) = 1 - F ( - x ) । একটা উদাহরণ মান ছাত্র টন বন্টন, সাথে আছেন ν স্বাধীন ডিগ্রীগুলির। প্যারামিটার ভি নিয়ন্ত্রণ করে যে কীভাবে পরিবর্তিত পরিবর্তনশীল অনন্তের দিকে ঘুরে বেড়ায়। আপনি যদি v = 1 সেট করে থাকেন তবে আপনার কাছে আর্টিকান রূপান্তর রয়েছে:F(0)=0.5এফ(এক্স)=1-এফ(-এক্স)νবনামবনাম=1

x=arctan(π[2p1]2)

ν8ν=

এই রূপান্তরগুলির সাথে সমস্যাটি তারা দেয় ± যখন পর্যবেক্ষণ অনুপাত সমান হয় 1 অথবা 0। সুতরাং আপনাকে কোনওভাবে এইগুলি সঙ্কুচিত করতে হবে - যুক্ত করার সহজ উপায়+1 "successes" and +1 "failures".


2
For various reasons, Tukey recommends adding +1/6 to counts. Note that this reply is a special case of Tukey's folding approach that I described: any CDF with positive PDF is monotonic; folding a symmetric CDF leaves it unchanged.
whuber

2
I have been wondering where your rough approximation comes from. How do you arrive at ν8? I can't reproduce this. I accept that the approximation must break down at the extremes of p near 0 or 1, but I find that ν=5 is a much better match for the logit for p near 1/2. Are you perhaps optimizing some measure of an average difference between the CDF of tν and logit?
whuber

2
@whuber - you give me too much credit. My suggestion was based on looking at a graph of the pdf of t8, a graph of the logistic pdf f(x)=ex(1+ex)2, and a graph of standard normal pdf. 5 degrees of freedom matches the excess kurtosis, and may well be better.
probabilityislogic

5
@whuber One reason for adding 1/6 to counts is that the resulting "started" count approximates the median posterior assuming a binomial distribution with Jeffreys prior (I write a little bit about this here: sumsar.net/blog/2013/09/a-bayesian-twist-on-tukeys-flogs). However I don't know if this was Tukey's reason for adding 1/6. Do you know what his reason might have been?
Rasmus Bååth

4
@Rasmuth In EDA, p. 496, Tukey writes "The [usage] we here recommend does have an excuse, but since this excuse (i) is indirect and (ii) involves more sophisticated considerations, we shall say no more about it. What we recommend is adding 1/6 to all split counts, thus 'starting' them." (A "split count" of any value x is the number of xi<x plus half the number of xi=x in a batch of data (xi).) I don't recall coming across these "sophisticated considerations" in other Tukey papers or books I have read, but always imagined they might be related to probability plotting points.
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.