সাধারণত বিতরণ করা এলোমেলো ভেরিয়েবলের অনুপাতের মধ্যে উল্লেখযোগ্য পার্থক্যের জন্য পরীক্ষা


9

ভেরিয়েবলের অনুপাত বিশ্লেষণ সম্পর্কিত এবং কীভাবে দুটি বিতরণযোগ্য ভেরিয়েবলের অনুপাতকে প্যারামিটারাইজ করতে হয় বা এর বিপরীতমুখী?

ধরুন আমার কাছে চারটি বিভিন্ন ক্রমাগত এলোমেলো বিতরণ থেকে প্রচুর নমুনা রয়েছে, যার মধ্যে আমরা মোটামুটি স্বাভাবিক বলে ধরে নিতে পারি। আমার ক্ষেত্রে এগুলি এনক্রিপশন সহ এবং ছাড়া উভয়ই দুটি পৃথক ফাইল সিস্টেমের (যেমন, ext4 এবং এক্সএফএস) কিছু পারফরম্যান্স মেট্রিকের সাথে মিলে যায়। মেট্রিক হতে পারে, উদাহরণস্বরূপ, প্রতি সেকেন্ডে তৈরি ফাইলের সংখ্যা বা কিছু ফাইল অপারেশনের জন্য গড় বিলম্ব। আমরা ধরে নিতে পারি যে এই বিতরণগুলি থেকে আঁকা সমস্ত নমুনা সর্বদা কঠোরভাবে ইতিবাচক থাকবে। আসুন এই ডিস্ট্রিবিউশন কল যেখানে এবং ।Perffstype,encryptionfstype{xfs,ext4}encryption{crypto,nocrypto}

এখন, আমার হাইপোথিসিসটি হ'ল এনক্রিপশনটি অন্যগুলির চেয়ে বড় ফ্যাক্টর দ্বারা একটি ফাইল সিস্টেমকে ধীর করে দেয়। অনুমান for ?E[Perfxfs,crypto]E[Perfxfs,nocrypto]<E[Perfext4,crypto]E[Perfext4,nocrypto]


এই প্রশ্নের মধ্য থেকে কিছু পাঠ্য মুছে ফেলা হয়েছে বলে মনে হচ্ছে। আপনি কি মনে করেন আপনি এটি পুনরুদ্ধার করতে পারেন?
হোবার

আমি মনে করি ভুলভাবে "এইভাবে" সেখানে রেখে গেছে, কমপক্ষে আমি ভাবতে পারি না যে আমি এতে কী যুক্ত করতে চাইতাম। সম্ভবত এটি এমন কিছু ছিল যা আমি শেষ পর্যন্ত দ্বিতীয় অনুচ্ছেদে চলে এসেছি।
সামি লিডেস

লগ লিঙ্ক ফাংশন সহ সাধারণ বিতরণের জন্য আপনি একটি জেনারাইজড লিনিয়ার মডেল ফিট করতে পারেন ।
onestop

1
"ফাইলের সংখ্যা" এবং "গড় ল্যাটেন্সি" সাধারণত বিতরণ করা যায় না (একটিও শুরুতে নেতিবাচক হতে পারে না)। উভয়ই কিছুটা ডান স্কু হওয়ার সম্ভাবনা রয়েছে। ফাইল সংখ্যা একটি পৃথক গণনা।
গ্লেন_বি -রাইনস্টেট মনিকা 20'16

উত্তর:


12

স্টাসকের সূক্ষ্ম উত্তরের একটি বিকল্প হ'ল অনুমতি পরীক্ষা করা। প্রথম পদক্ষেপটি একটি পরীক্ষার পরিসংখ্যান সংজ্ঞায়িত করা হয় , সম্ভবত:T

T=Perf^ext4,cryptoPerf^ext4,nocryptoPerf^xfs,cryptoPerf^xfs,nocrypto

যেখানে , সম্ভবত, ইত্যাদির পর্যবেক্ষণের নমুনার অর্থ (এটি অনুমানের অনুপাত হিসাবে অনুমানের আপনার সংজ্ঞা অনুসারে ফিট করে অনুপাতের প্রত্যাশার বিকল্প সম্ভাবনার চেয়ে প্রত্যাশাগুলি - যা বিকল্পটি আপনি সত্যই চান তা হতে পারে)) দ্বিতীয় পদক্ষেপটি এলোমেলোভাবে লেবেলগুলির এক্সট 4 ডেটাতে বহুবার অনুমতি দেওয়ার জন্য বলে, , এবং প্রতিটি জন্য গণনা করুন । চূড়ান্ত পদক্ষেপটি আপনার আসল পর্যবেক্ষণ করা সাথে তুলনা করা ; -আনুমানিক পি-মানটি ভগ্নাংশ হবে । Perf^ext4,cryptoPerfext4,cryptoext4, xfsi=1,,10000TiTTiTiT

পারমিটেশন পরীক্ষা আপনাকে অ্যাসিম্পটিকসের উপর নির্ভরতা থেকে মুক্তি দেয়, তবে অবশ্যই আপনার নমুনার আকারের উপর নির্ভর করে (এবং ডেটাও খুব অবশ্যই) ডেল্টা পদ্ধতি, যা আমি মাঝে মাঝে ব্যবহার করি, এটি ঠিক কাজ করতে পারে।


এটি একটি ভাল পরামর্শ, পাশাপাশি!
স্টাসকে

নোট করুন যে দুটি কেন্দ্রিক স্বাভাবিক ভেরিয়েবলের অনুপাত একটি কাচি ভেরিয়েবল।
শি'আন

1
@ শি'য়ান: আমরা কি তারা এখানে স্বাধীন বলে ধরে নিতে পারি তা পরিষ্কার? আপনি জানেন যে, এই ফলাফলটি ধরে রাখার জন্য এটি প্রয়োজনীয় হবে (এবং দরকারী হওয়ার সুযোগ রয়েছে)।
কার্ডিনাল

@ কার্ডিনাল: হ্যাঁ, তাদের অবশ্যই স্বাধীন হতে হবে!
শি'য়ান

1
খুব স্নোবিশ প্রযুক্তিগত পয়েন্ট হিসাবে - যখন আপনার পরীক্ষার পরিসংখ্যানটি প্রাতিষ্ঠানিক হয় / অজানা পরামিতিগুলিতে জড়িত না / কমপক্ষে নালীর নীচে থাকে তবে ক্রমশক্তি কিছুটা ভাল কাজ করে। অনুপাত সহ, আপনি একটি অর্প পাপ রূপান্তর করতে পারেন। কঠোরভাবে ইতিবাচক ক্রমাগত পরিমাণের সাথে, আমি সম্ভবত লগগুলি দিয়ে শুরু করব। তবে এটি সত্যিই কেকের উপরে আইসিং করছে।
স্টাস্ক

4

আপনি ব-দ্বীপ-পদ্ধতি ব্যবহার করে অনুপাতের (অ্যাসিপটোটিক) স্ট্যান্ডার্ড ত্রুটি গণনা করতে পারেন । আপনার যদি দুটি এবং এলোমেলো ভেরিয়েবলগুলি এবং মতো থাকে বিতরণে (যা আপনার কাছে স্বাধীন ডেটা থাকলে কেস হবে, তবে এটি আরও সাধারণ ক্ষেত্রেও ধারণ করবে) ক্লাস্টারযুক্ত ডেটা যখন আপনি বিভিন্ন মেশিনে পরীক্ষা ), তারপরে এর জনসংখ্যা অ্যানালগ সহ , আমাদের কাছে রয়েছে XY

n(X¯μXY¯μY)N((00),(σXXσXYσXYσYY))
r=Y¯/X¯ro=μY/μX
n(rr0)N(0,μY2μX4σXX2μYμX3σXY+1μX2σYY)
যদি এবং স্বতন্ত্র থাকে তবে আপনার ক্ষেত্রে অনুমান করা যুক্তিসঙ্গত হতে পারে, তাহলে এই অভিব্যক্তিটি বাদ দিয়ে কিছুটা সরল করে , তাই আমরা পেয়েছি যে বিভিন্ন ধরণের স্কোয়ার সহগের যোগফল রয়েছে: এতে রয়েছে নমুনা মাপ পৃথক হতে পারে যে অতিরিক্ত সুবিধা। উপরন্তু, যদি আপনার RHS এবং LHS স্বাধীন, আপনি গঠন করতে পারেন জন্য -test পরিসংখ্যাতXYσXY
CV2[r]=CV2[X¯]+CV2[Y¯]
zH0: অনুপাতের পার্থক্যটি গ্রহণ করে এবং এই সিভিগুলির থেকে প্রাপ্ত সংশ্লিষ্ট মানক ত্রুটির দ্বারা এটি ভাগ করে কোনও পার্থক্য নেই।

আমি আশা করি আপনি এটি সেখান থেকে নিতে পারেন এবং চূড়ান্ত সূত্রটি পেতে খামের গণনার অবশিষ্ট পিছনে সম্পাদন করতে পারেন।

নোট করুন যে ফলাফলটি অ্যাসিম্পটোটিক, এবং অনুপাত ছোট ছোট নমুনায় পক্ষপাতিত্বকারী । পক্ষপাতদুটির অর্ডার থাকে এবং নমুনা পরিবর্তনশীলতার সাথে তুলনা করলে অ্যাসেম্পোটোটিকালি অদৃশ্য হয়ে যায় যা অর্ডার ।rr0O(1/n)O(1/n)


চমৎকার এবং আলোকিত উত্তরের জন্য আপনাকে ধন্যবাদ! আমি মনে করি আমি আমার পড়াশুনার জন্য জোবোবারের পারমিটেশন পরীক্ষাটি বেছে নেব কারণ আমি মনে করি আমি এটি এবং এর সীমাবদ্ধতাগুলি আরও ভালভাবে বুঝতে পেরেছি, তবে ডেল্টা পদ্ধতিটি অবশ্যই আমার অধ্যয়ন করার জন্য এবং বের করার জন্য প্রয়োজনীয় কিছু দেখাচ্ছে।
সামি লিডেস

@ স্টাস্ক এটি কি এখানে করা যাবে? stats.stackexchange.com/questions/398436/…
জাভিয়ের

জাভিয়ার, আমি মনে করি @ usεr11852 একটি ভাল উত্তর দিয়েছে। আমি এটা যোগ বিরক্ত করব না।
স্টাস্ক

@ স্ট্যাস্ক - আপনার উত্তরে আপনি যে শর্তগুলি বলছেন তা কি শর্তাধীন? পূর্ববর্তী অনুমান এবং ডেল্টা পদ্ধতি দ্বারা অনুপাতের পরিসংখ্যানের সংমিশ্রণটি কি গ্যারান্টিযুক্ত?
জাভিয়ের বোউরেট সিকোতে 21 '17 এ 26'19

এটি অ্যাসিম্পটোটিকস ... কোনও কিছুরই গ্যারান্টি নেই এবং ত্রুটির সীমা পাওয়া অসম্ভব কঠিন। সমস্ত ব-দ্বীপ পদ্ধতি (বা অন্য কোনও দুর্বল রূপান্তর ফলাফল) বলছে যে আপনি নমুনার আকার বাড়ানোর সাথে সাথে অ্যাসিম্পটোটিক বিতরণ থেকে প্রকৃত সীমাবদ্ধ নমুনা বিতরণের মধ্যে পার্থক্য আরও কম হবে। এর অর্থ হতে পারে যে আপনি নমুনার আকার 1000 থেকে 10000 বাড়ানোর সাথে সাথে সিডিএফএসের মধ্যে উল্লম্ব পার্থক্যটি 0.2 থেকে 0.1 থেকে নীচে নেমে যাবে, এবং পরবর্তীটি ব্যবহারিক উদ্দেশ্যে এখনও গ্রহণযোগ্য নয়। বা এর অর্থ এই হতে পারে যে পার্থক্যটি 0.01 থেকে 0.001 এ চলে যায়।
স্টাস্ক

0

সাধারণ পরিবর্তনের অনুপাত কচিকে বিতরণ করা হয়। এটি জেনে, আপনি কেবল একটি বেইস ফ্যাক্টর পরীক্ষা করতে পারেন।

এটি একটি বরং স্বতঃস্ফূর্ত ধারণা ছিল। আমি এখন ডেটা তৈরির প্রক্রিয়া সম্পর্কে নিশ্চিত নই। আপনি কি একই পিসিতে বিভিন্ন ফাইল সিস্টেম ইনস্টল করেন এবং তারপরে দুটি ক্ষেত্রে বেঞ্চমার্ক স্থাপন করুন, যাতে আমরা একটি শ্রেণিবিন্যাসের ডেটা কাঠামো ধরে নিতে পারি?

এছাড়াও আমি নিশ্চিত না যে অনুপাতের সন্ধানটি আসলেই বোধগম্য।

এবং তারপরে আপনি প্রত্যাশিত মানগুলির অনুপাত লিখেছিলেন, যেখানে আমি অনুপাতের প্রত্যাশিত মানটির কথা ভেবেছিলাম। আমি অনুমান করি এগিয়ে যাওয়ার আগে ডেটা জেনারেশন সম্পর্কে আমার আরও তথ্য প্রয়োজন।


1
স্বাভাবিকের অনুপাত কেবল কচী যদি (ক) তারা স্বতন্ত্র এবং (খ) এর একই বৈকল্পিক থাকে।
কার্ডিনাল


1
এটি স্পষ্ট নয় (আমার কাছে কমপক্ষে) যে এ জাতীয় কোনও স্বাধীনতা কাঠামো বিদ্যমান বা তাদের শূন্য হতে হবে। সম্ভবত, আপনি যদি নিজের উত্তরে প্রসারিত করতে পারেন তবে এটি আপনার পরামর্শ দেওয়ার পদ্ধতিকে আরও পরিষ্কার করতে সহায়তা করবে। :)
কার্ডিনাল

1
@ কার্ডিনাল - আমি ভেবেছিলাম যে এটি শূন্য গড়ের সাথে স্বতন্ত্র স্বাভাবিকের অনুপাত এবং শূন্য মধ্যমা সহ সাধারণ মানক বিচ্যুতির অনুপাতের সমান স্কেল প্যারামিটারযুক্ত ছিল cau তাদের যদি শূন্য নন মানে হয় তবে তা সাবধান নয়।
সম্ভাব্যতা ব্লগ

@ প্রোব: (+১) আপনি ঠিক বলেছেন! এটি ধরার জন্য ধন্যবাদ আমি আমার প্রথম মন্তব্যে "স্ট্যান্ডার্ড" এবং "শূন্য গড়" বাদ দিলাম (দ্বিতীয়টি এটি আমার দ্বিতীয়টিতে তৈরি করতে সক্ষম হয়েছিল)।
কার্ডিনাল

0

আপনি যখন অনুমতি ছাড়াই করতে পারবেন না, উদাহরণস্বরূপ যখন নমুনার আকার লক্ষ লক্ষ সম্ভাবনা তৈরি করে, তখন আরেকটি সমাধান হবে মন্টি কার্লো পুনর্নির্মাণের।

নাল হাইপোথিসিস মধ্যে গতিতে কোনো পার্থক্য নেই যে এবং জন্য এবং । সুতরাং, সমস্ত নমুনার মধ্যে গড় অনুপাত পৃথক নয় ।ext4xfsnocryptocryptoext4xfsnocryptocrypto

H0:Tobserved=xnocryptonnocryptoxcryptoncrypto=0

যেখানে x=ext4xfs

এবং n=samplesize

তাহলে সত্য, এলোমেলোভাবে এর অনুপাত এর জন্য ফলাফল অবচয় বা এছাড়াও স্থাপিত হবে । এক গণনা করা হবে:H0nocryptocryptoTobserved=0

Tresampling=x1random+xnrandomnnocryptox1random+xnrandomncrypto

এবং সঞ্চালন করুন, বলুন, পুনর্নির্মাণের 10,000 রাউন্ড। ফলে বন্টন মানের জন্য আস্থা ব্যবধান হয় । মধ্যে পার্থক্য এবং অনুপাত উল্লেখযোগ্য যদি গণনা করা হয় পরিসীমা, যেমন বাহিরে মান মিথ্যা, 95% এর মান।TresamplingH0nocryptocryptoTobserved(p<0.05)Tresampling

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.