টি-টেস্ট করার জন্য এক্সেল ব্যবহার করে কীভাবে সাধারণ বিতরণ পরীক্ষা করা যায়?


21

আমি জানতে চাইছি কীভাবে এক্সেলের স্বাভাবিকতার জন্য কোনও ডেটা সেট চেক করবেন, কেবল তা পরীক্ষা করতে যে কোনও টি-টেস্ট ব্যবহারের প্রয়োজনীয়তা পূরণ করা হচ্ছে

ডান লেজের জন্য, কেবলমাত্র একটি গড় এবং স্ট্যান্ডার্ড বিচ্যুতি গণনা করা, একটি পরিসীমা তৈরি করতে গড় থেকে 1, 2 এবং 3 স্ট্যান্ডার্ড বিচ্যুতি যুক্ত করে ব্যবহার করার পরে স্ট্যান্ডার্ড সাধারণ বিতরণের জন্য সাধারণ 68/95 / 99.7 এর সাথে তুলনা করুন প্রতিটি স্ট্যান্ডার্ড বিচ্যুতির মান পরীক্ষা করতে এক্সেল-এ আদর্শ.ডিজিট ফাংশন।

নাকি স্বাভাবিকতার জন্য পরীক্ষা করার আরও ভাল উপায় আছে?


উত্তর:


15

আপনার সঠিক ধারণা আছে। এটি পদ্ধতিগতভাবে, ব্যাপকভাবে এবং তুলনামূলকভাবে সহজ গণনার সাথে করা যেতে পারে। ফলাফলগুলির গ্রাফকে একটি সাধারণ সম্ভাব্যতা প্লট (বা কখনও কখনও পিপি প্লট) বলা হয়। এ থেকে আপনি অন্যান্য গ্রাফিকাল উপস্থাপনা, বিশেষত হিস্টোগ্রামগুলিতে প্রদর্শিত হওয়ার চেয়ে অনেক বেশি বিশদ দেখতে পাচ্ছেন এবং সামান্য অনুশীলনের সাহায্যে আপনি নিজের ডেটাগুলিকে পুনরায় প্রকাশ করার উপায়গুলি নির্ধারণ করতে শিখতে পারেন যেখানে এমন পরিস্থিতিতে রয়েছে যেখানে পরিস্থিতি স্বীকৃত in

এখানে একটি উদাহরণ:

সম্ভাবনার প্লট সহ স্প্রেডশিট

ডেটা কলামে রয়েছে A(এবং নাম দেওয়া হয়েছে Data)। বাকিটি সমস্ত গণনা, যদিও আপনি প্লটের একটি রেফারেন্স লাইনে ফিট করতে ব্যবহৃত "কব্জাগুলি" মানটি নিয়ন্ত্রণ করতে পারেন।

এই প্লটটি হ'ল একটি স্কেটরপ্লট যা মানগুলির সাথে ডেটার সাথে তুলনা করে যা একটি সাধারণ সাধারণ বিতরণ থেকে স্বতন্ত্রভাবে অঙ্কিত সংখ্যার দ্বারা প্রাপ্ত হবে। পয়েন্টগুলি যখন তির্যকটি বরাবর সরে যায়, তারা সাধারণের কাছাকাছি থাকে; অনুভূমিক প্রস্থানগুলি (ডেটা অক্ষের সাথে) স্বাভাবিকতা থেকে প্রস্থানগুলি নির্দেশ করে। এই উদাহরণে পয়েন্টগুলি উল্লেখযোগ্যভাবে রেফারেন্স লাইনের কাছাকাছি; বৃহত্তম প্রস্থান সর্বাধিক মানতে ঘটে, যা লাইনের বাম দিকে প্রায় ইউনিট। এইভাবে আমরা এক নজরে দেখি যে এই ডেটাগুলি সাধারণত বিতরণ করার খুব কাছাকাছি থাকে তবে সম্ভবত কিছুটা "হালকা" ডান লেজ থাকে। এটি একটি টি-টেস্ট প্রয়োগের জন্য পুরোপুরি ঠিক।1.5

উল্লম্ব অক্ষের তুলনা মানগুলি দুটি ধাপে গণনা করা হয়। প্রথমে প্রতিটি ডাটা মান থেকে মাধ্যমে , ডেটার পরিমাণ ( ঘরে ক্ষেত্রটিতে প্রদর্শিত ) ranked এগুলি থেকে ব্যাপ্তির মধ্যে আনুপাতিকভাবে রূপান্তরিত হয় । ব্যবহারের জন্য একটি ভাল সূত্র হ'ল ( যেখান থেকে আসে তার জন্য http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm দেখুন )) তারপরে এগুলি ফাংশনের মাধ্যমে মানক আদর্শ মানগুলিতে রূপান্তরিত হয় । এই মানগুলি কলামে প্রদর্শিত হবে । ডানদিকে প্লটটি একটি এক্সওয়াই স্ক্যাটারপ্ল্লট1এন0 1 ( র্যাঙ্ক - 1 / 6 ) / ( এন + + 2 / 3 )CountF201(মর্যাদাক্রম-1/6)/(এন+ +2/3)NormSInvNormal scoreNormal Scoreতথ্য বিরুদ্ধে। (কিছু রেফারেন্সে আপনি এই প্লটের ট্রান্সপোজ দেখতে পাবেন যা সম্ভবত আরও প্রাকৃতিক তবে এক্সেল অনুভূমিক অক্ষের উপরে বামতম স্তম্ভ এবং উল্লম্ব অক্ষের ডানদিকের কলামটি রাখার পক্ষে পছন্দ করে, তাই আমি এটি এটি পছন্দ করতে দিয়েছি। )

স্প্রেডশিট: সাধারণ স্কোর গণনা

(যেমন আপনি দেখতে পাচ্ছেন, আমি এই ডেটাটি সাধারণ বন্টন থেকে গড় এবং স্ট্যান্ডার্ড বিচ্যুতি সহ স্বতন্ত্র এলোমেলো অঙ্কনের সাথে সিমুলেটেড করেছি therefore সুতরাং সম্ভাবনা প্লটটি এত সুন্দর দেখাচ্ছে বলে অবাক হওয়ার কিছু নেই)) টাইপ করার জন্য কেবল দুটি সূত্র রয়েছে, যা আপনি নীচের দিকে ডেটা মেলানোর জন্য প্রচার করেন: সেগুলি কোষগুলিতে উপস্থিত হয় এবং কোষে গণিত মানের উপর নির্ভর করে । ষড়যন্ত্র বাদে সত্যই এটি আছে।52B2:C2CountF2

এই শীটটির বাকী অংশটি প্রয়োজনীয় নয় তবে এটি প্লটটি বিচার করার জন্য সহায়ক: এটি একটি রেফারেন্স লাইনের একটি শক্তিশালী অনুমান সরবরাহ করে। প্লটের বাম এবং ডান দিক থেকে সমান দূরত্বে দুটি পয়েন্ট বাছাই করে এবং একটি লাইনের সাথে সংযুক্ত করে এটি করা হয়। উদাহরণে এই পয়েন্ট হিসাবে দ্বারা নির্ধারিত, তৃতীয় সর্বনিম্ন এবং তৃতীয় সর্বোচ্চ হয় মধ্যে , সেল । বোনাস হিসাবে, এর opeাল এবং আটকানো যথাক্রমে স্ট্যান্ডার্ড বিচ্যুতি এবং ডেটার গড়ের মজবুত অনুমান।3Hinge RankF3

রেফারেন্স লাইনের প্লট করতে, দুটি চরম পয়েন্ট গণনা করা হয় এবং প্লটে যুক্ত করা হয়: তাদের গণনা কলামগুলিতে ঘটে থাকে I:J, লেবেলযুক্ত Xএবং Y

স্প্রেডশিট: রেফারেন্স লাইন গণনা


কর্নেল বি এর সূত্রগুলির জন্য, আপনি কি 1 যুক্ত করে 6 এবং 3 ("+ 1/6" এবং "+ 1/3") ভাগ করার কারণ ব্যাখ্যা করবেন? এছাড়াও হিন্জ র‌্যাঙ্ক কোষে আপনি 6 দ্বারা ভাগ করে নেওয়ার কোনও কারণ আছে কি?

@ মিশেল ভাল প্রশ্ন। সম্ভাব্যতা প্লটিং পয়েন্টগুলি স্থাপন করার জন্য একটি সহজ এবং সুপরিচিত উপায় আমি মনে করি জন টুকি তাঁর ইডিএ বইতে এটির প্রস্তাব দিয়েছিল । কব্জা র‌্যাঙ্কের সূত্রটি রহস্যজনক: আমার বোঝানো উচিত ছিল যে আমি এবং পার্সেন্টাইলগুলিতে শেষ থেকে সমানভাবে দুটি পয়েন্ট তুলছি। যে কোনও গুণক উল্লেখযোগ্যভাবে চেয়ে বড় এবং চেয়ে কম কাজ করবে। জনপ্রিয়: এটা ক্যুয়ারটাইলস অনুরূপ। সুতরাং হয় , একটি সাধারণ বন্টনের জন্য 1 এসডি সংশ্লিষ্ট। 100 × 1 / 6 100 × 5 / 6 0 1 / 2 1 / 4 0.161/6100×1/6100×5/601/21/40.16
whuber

সূত্র (র‌্যাঙ্ক + ১/6) / (এন + 1/3) আমরা প্রত্যাশার মতো প্রতিসাম্য বলে মনে হচ্ছে না। উদাহরণস্বরূপ 3 এর মধ্য পর্যবেক্ষণের সাথে র‌্যাঙ্কটি 2 হয় এবং এটি মধ্য পর্যবেক্ষণের জন্য গ্রহণীয় স্বাভাবিক বলে মনে হয় না বরং 0.65 এর সাথে সম্পর্কিত পার্সেন্টাইলের প্রস্তাব দেয় (0.5)। আমি কি স্পষ্ট কিছু মিস করেছি? [আমি দেখেছি টুকি বিভিন্ন জায়গায় কয়েকটি পৃথক সূত্র ব্যবহার করেছে, (i-1/3) / (n + 1/3) সহ। আপনার লিঙ্কের সূত্রটি সাধারণ (আইএ) / (এন + 1-2a) স্কিমের সাথে খাপ খায় তবে আপনি যে উত্তরটি দিয়েছিলেন সেই সূত্রটি এতে কার্যকর হয় না]
Glen_b -Rininstate Monica

rএকটিএন+ +1-2একটি
R1এনএকটি011/6(R-1/6)/(এন+ +2/3)একটি=1/3
হোয়বার

5

আপনি এক্সেলে ডেটা অ্যানালাইসিস টুলপ্যাক ব্যবহার করে একটি হিস্টোগ্রাম প্লট করতে পারেন । গ্রাফিকাল পদ্ধতির কারণে অ-স্বাভাবিকতার ডিগ্রিটি যোগাযোগের সম্ভাবনা বেশি থাকে, যা সাধারণত অনুমান পরীক্ষার জন্য আরও প্রাসঙ্গিক ( স্বাভাবিকতার এই আলোচনা দেখুন )।

আপনি যদি বর্ণনামূলক পরিসংখ্যানের জন্য জিজ্ঞাসা করেন এবং "সংক্ষিপ্ত পরিসংখ্যান" বিকল্পটি বেছে নেন তবে এক্সেলের ডেটা অ্যানালাইসিস টুলপ্যাকটি আপনাকে স্কিউনেস এবং কুর্তোসিসও দেয় । আপনি উদাহরণস্বরূপ উপরের ঝাঁকুনির মানগুলি প্লাস বা বিয়োগের উপরের দিকে বিবেচনা করতে পারেন এবং এটি সাধারণ অস্বাভাবিকতার একটি রূপ হতে পারে।

এটি বলেছিল, টি-পরীক্ষার সাথে অনুমানটি হ'ল অবশিষ্টাংশগুলি সাধারণত বিতরণ করা হয় না ভেরিয়েবল। তদ্ব্যতীত, তারা এগুলিও যথেষ্ট শক্তিশালী যে এমনকি প্রচুর পরিমাণে অ-স্বাভাবিকতা সহ, পি-মানগুলি এখনও মোটামুটি বৈধ।


4

এই প্রশ্নটিও পরিসংখ্যান তত্ত্বের সীমানা - সীমিত ডেটার সাথে স্বাভাবিকতার জন্য পরীক্ষা করা প্রশ্নবিদ্ধ হতে পারে (যদিও আমরা সকলেই এটি সময়ে সময়ে করেছি)।

বিকল্প হিসাবে, আপনি কুরটোসিস এবং স্কিউনেস সহগগুলি দেখতে পারেন। থেকে হান এবং শাপিরো: ইঞ্জিনিয়ারিং এ পরিসংখ্যানগত মডেল কিছু ব্যাকগ্রাউন্ড বৈশিষ্ট্য Beta1 এবং Beta2 (পৃষ্ঠাগুলি থেকে 49 42) এবং পৃষ্ঠার ডুমুর 6-1 197. এর পেছনে অতিরিক্ত তত্ত্ব উইকিপিডিয়া পাওয়া যাবে (পিয়ারসন বিতরণ দেখুন) উপর প্রদান করা হয়।

মূলত আপনাকে তথাকথিত বৈশিষ্ট্য বিটা 1 এবং বিটা 2 গণনা করতে হবে। একটি বিটা 1 = 0 এবং বিটা 2 = 3 পরামর্শ দেয় যে ডেটা সেটটি স্বাভাবিকতার দিকে এগিয়ে যায়। এটি একটি মোটামুটি পরীক্ষা তবে সীমিত তথ্যের সাথে যুক্তিযুক্ত যে কোনও পরীক্ষা মোটামুটি একটি হিসাবে বিবেচিত হতে পারে।

বিটা 1 যথাক্রমে 2 এবং 3 মুহুর্তগুলির সাথে বৈকল্পিকতা এবং স্কিউনেস সম্পর্কিত। এক্সেলে, এগুলি ভিএআর এবং এসকেইউউ। যেখানে আপনার ডেটা অ্যারে, সূত্রটি হ'ল:

Beta1 = SKEW(...)^2/VAR(...)^3

বিটা 2 যথাক্রমে 2 এবং 4 এর মুহুর্তগুলি বা তারতম্য এবং কুর্তোসিসের সাথে সম্পর্কিত। এক্সেলে, এগুলি ভিএআর এবং কেআরটি। যেখানে আপনার ডেটা অ্যারে, সূত্রটি হ'ল:

Beta2 = KURT(...)/VAR(...)^2

তারপরে আপনি যথাক্রমে 0 এবং 3 এর মানগুলির বিপরীতে এটি পরীক্ষা করতে পারেন। এটির অন্যান্য বিতরণগুলি (পিয়ারসন ডিস্ট্রিবিউশনস I, I (U), I (জে), II, II (U), III, IV, V, VI, VII সহ) সম্ভাব্যভাবে সনাক্ত করার সুবিধা রয়েছে। উদাহরণস্বরূপ, ইউনিফর্ম, নরমাল, স্টুডেন্টস টি, বিটা, গামা, এক্সপোনেনশিয়াল এবং লগ-নরমাল এর মতো প্রচলিত ব্যবহৃত বিতরণগুলি এই বৈশিষ্ট্যগুলি থেকে নির্দেশিত হতে পারে:

Where:   0 <= Beta1 <= 4
         1 <= Beta2 <= 10 

Uniform:        [0,1.8]                                 [point]
Exponential:    [4,9]                                   [point] 
Normal:         [0,3]                                   [point]
Students-t:     (0,3) to [0,10]                         [line]
Lognormal:      (0,3) to [3.6,10]                       [line]
Gamma:          (0,3) to (4,9)                          [line]
Beta:           (0,3) to (4,9), (0,1.8) to (4,9)        [area]
Beta J:         (0,1.8) to (4,9), (0,1.8) to [4,6*]     [area]
Beta U:         (0,1.8) to (4,6), [0,1] to [4.5)        [area]
Impossible:     (0,1) to (4.5), (0,1) to (4,1]          [area]
Undefined:      (0,3) to (3.6,10), (0,10) to (3.6,10)   [area]

Values of Beta1, Beta2 where brackets mean:

[ ] : includes (closed)
( ) : approaches but does not include (open)
 *  : approximate 

এগুলি হান এবং শাপিরো চিত্র 6-1 তে চিত্রিত করা হয়েছে।

অনুমোদিত এটি একটি খুব রুক্ষ পরীক্ষা (কিছু সমস্যা সহ) তবে আপনি আরও কঠোর পদ্ধতিতে যাওয়ার আগে এটি প্রাথমিক চেক হিসাবে বিবেচনা করতে চাইতে পারেন।

বিটা 1 এবং বিটা 2 গণনার ক্ষেত্রে সামঞ্জস্য করার ব্যবস্থাও রয়েছে যেখানে ডেটা সীমাবদ্ধ - তবে এটি এই পোস্টের বাইরে।


এই উপাদানটি অনেক বড় ডেটাসেটের জন্য ভালভাবে কাজ করতে পারে এবং আমি আপনার প্রাথমিক মূল্যায়নের সাথে একমত যে স্বাভাবিকতা পরীক্ষাটি সীমিত বা ছোট ডেটাসেটের সাথে প্রশ্নবিদ্ধ হতে পারে। তবে স্কিউনেস এবং কুর্তোসিসের বিশাল পরিবর্তনশীলতা দেখে মনে হয় যে এই পরিসংখ্যানের ভিত্তিতে অন্তর্নিহিত বিতরণের ধরন চিহ্নিত করার যে কোনও প্রচেষ্টা আরও প্রশ্নবিদ্ধ এবং কম নিশ্চিত হবে। ফলস্বরূপ, প্রাথমিক চেক হিসাবেও এই পদ্ধতির (সর্বোত্তম) বিভ্রান্তিকর হবে না?
হুশিয়ার

1
সম্ভবত পদ্ধতিটি আরও যোগ্য করে তোলা ভাল: হান এবং শাপিরো (উপরে উল্লিখিত হিসাবে) পরামর্শ দেয় যে সাবধানতা অবলম্বন করা উচিত, বিশেষত যখন নমুনার আকার 200 এরও কম হয় - এবং এটি আরও যাচাইকরণের অনুসরণ করা উচিত, যেমন ফ্রিকোয়েন্সি টেবিলের মতো যা লাগানো বিতরণকে প্রকৃত ডেটার সাথে তুলনা করে। কিন্তু আমার মতে এটি একটি দরকারী পদ্ধতি যে পরামর্শ দিতে পারেন যেখানে ডাটা সম্ভাবনার একটি বর্ণালী মধ্যে রাখা হতে পারে। আমি এটি প্রায় 3000 এর চেয়ে ছোট নয় এমন ডেটা সেটগুলিতে ব্যবহার করেছি এবং এটি কম্পিউটার সিমুলেশন সফ্টওয়্যারটিতে তৈরি করেছি যেখানে এটি কার্যকর প্রমাণিত হয়েছে।
অসিমল্যাবস 11:36

আমি আপনার পদ্ধতিটি 3000 বা তার বেশি ডেটাসেটের সাথে দরকারী তথ্য দিচ্ছি। তবে, এরপরে এর টি-টেস্টের প্রয়োগযোগ্যতা নির্ধারণের জন্য বিতরণমূলক পরীক্ষা করার দরকার নেই।
হোয়বার

এটি যেমন কোনও কার্যকর কৌশল হিসাবে দেখা হয়, যেমন আমি করি বা অন্যথায় যেমনটি আপনার মতামত হিসাবে প্রতীয়মান হয়, তা তবে এটি সাধারণ এবং (শিক্ষার্থী-টি প্রয়োগের) পরীক্ষার জন্য একটি দ্রুত এবং দীর্ঘ-প্রতিষ্ঠিত (পিয়ারসনের দ্বারা) বিকল্প এই থ্রেড প্রসঙ্গে। দয়া করে আমাকে ভুল করবেন না, আমি স্বীকার করি এবং আপনার উদ্বেগগুলির সাথে একমত হই। তবে আমরা উভয়ই একমত হব, আমরা কি তা করব না, পূর্বের তথ্য ব্যতীত, খুব কম তথ্য উপাত্তের নমুনা থেকে কোনও গোটা জনগোষ্ঠীকে মডেল করা যায় কিনা তা প্রতিষ্ঠার চেষ্টা করা যে কোনও পদ্ধতির সাথে অন্ধকারে একটি গুলি এবং সবচেয়ে খারাপ এটি is বিপজ্জনক।
অসমল্যাব

1
সেটা ঠিক. আমি যা বলছি তা হ'ল যদি ছোট্ট নমুনা থেকে চেষ্টা করা বিপুল হয় যে জনসংখ্যা গাউসিয়ান কিনা তা পরীক্ষা করা, তবে অন্তর্নিহিত বন্টন কী হতে পারে তা চিহ্নিত করার জন্য স্কিউনেস এবং কুর্তোসিস ব্যবহার করা কমপক্ষে বিপদজনক হতে হবে! আসলে, মনে হচ্ছে এ জাতীয় প্রচেষ্টা আসলে আরও খারাপ হবে কারণ এটি কুরটোসিসের মতো অস্থির পরিসংখ্যানের উপর নির্ভর করে। যদিও পিয়ারসন সিস্টেমটি সম্ভাব্য বিতরণগুলি সনাক্ত করতে লোকদের সহায়তা করার জন্য একটি শক্তিশালী গাইড হতে পারে তবে এটি হিস্টোগ্রামের মতো সীমিত গ্রাফিকাল ডিসপ্লেগুলির চেয়ে কম অন্তর্দৃষ্টি সরবরাহ করে।
হোয়বার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.