আমি এই পোস্টের দৈর্ঘ্যের জন্য আগাম ক্ষমা চাইছি: এটি কিছুটা হতাশার সাথে আমি এটিকে জনসম্মুখে প্রকাশ করতে দিয়েছি কারণ এটি পড়ার জন্য কিছুটা সময় এবং মনোযোগ লাগে এবং নিঃসন্দেহে টাইপোগ্রাফিক ত্রুটি এবং এক্সপোজিটারি ল্যাপস রয়েছে। তবে এখানে এটি তাদের জন্য যারা আকর্ষণীয় বিষয়টিতে আগ্রহী, তারা এই আশায় প্রস্তাব দিয়েছিল যে এটি আপনাকে নিজের প্রতিক্রিয়াগুলিতে আরও বিস্তৃত করার জন্য সিএলটি-র অনেকগুলি অংশের একটি বা একাধিক চিহ্নিত করতে উত্সাহিত করবে।
সিএলটি "ব্যাখ্যা" করার বেশিরভাগ প্রচেষ্টা হ'ল চিত্র বা কেবল পুনরুদ্ধার যা এটি দৃsert়ভাবে দাবি করে। একটি সত্যই অনুপ্রবেশকারী, সঠিক ব্যাখ্যার জন্য একটি ভয়াবহ বিষয়গুলি ব্যাখ্যা করতে হবে।
এটি আরও দেখার আগে, আসুন সিএলটি কী বলে তা পরিষ্কার হয়ে আসুন। আপনারা সবাই জানেন, এমন সংস্করণ রয়েছে যা তাদের সাধারণতার চেয়ে আলাদা হয়। সাধারণ প্রসঙ্গটি এলোমেলো ভেরিয়েবলগুলির ক্রম, যা সাধারণ সম্ভাবনার জায়গাতে নির্দিষ্ট ধরণের ফাংশন। কঠোরভাবে ধারণ করে এমন স্বজ্ঞাত ব্যাখ্যাগুলির জন্য, আমি সম্ভাব্য স্থানটিকে পৃথকযোগ্য বস্তুর বাক্স হিসাবে ভাবতে সহায়তা করি। এই বিষয়গুলি কী তা বিবেচ্য নয় তবে আমি তাদের "টিকিট" বলব। টিকিটগুলি পুরোপুরি মিশ্রিত করে এবং একটি বাইরে এঁকে দিয়ে আমরা একটি বাক্সের একটি "পর্যবেক্ষণ" করি; এই টিকিট পর্যবেক্ষণ গঠন করে। পরবর্তী বিশ্লেষণের জন্য এটি রেকর্ড করার পরে আমরা টিকিটটি বাক্সে ফিরিয়ে দেব যাতে এর সামগ্রীগুলি অপরিবর্তিত থাকে। একটি "র্যান্ডম ভেরিয়েবল" হ'ল মূলত প্রতিটি টিকিটে লিখিত একটি নম্বর।
1733 সালে, আব্রাহাম ডি মাইভ্রে একটি একক বাক্সের ক্ষেত্রে বিবেচনা করেছিলেন যেখানে টিকিটের সংখ্যাগুলি কেবল শূন্য এবং একটি ("বার্নোল্লি ট্রায়ালস") রয়েছে, যেখানে প্রতিটি সংখ্যার উপস্থিত রয়েছে। তিনি কল্পনা করেছিলেন যে শারীরিকভাবে স্বতন্ত্র পর্যবেক্ষণগুলি করে, মানগুলির ক্রম নির্ধারণ করে সেগুলি সবই শূন্য বা এক। এই মানগুলির যোগফল , , এলোমেলো কারণ সমষ্টিটির শর্তগুলি। অতএব, আমরা যদি এই পদ্ধতিটি বহুবার পুনরাবৃত্তি করতে পারি তবে বিভিন্ন পরিমাণগুলি ( থেকে মধ্য দিয়ে সম্পূর্ণ সংখ্যা ) বিভিন্ন ফ্রিকোয়েন্সি - মোট অনুপাত সহ উপস্থিত হবে। (নীচে হিস্টোগ্রামগুলি দেখুন))x 1 , x 2 , … , x n y n = x 1 + x 2 + … + x n 0 এনnx1,x2,…,xnyn=x1+x2+…+xn0n
এখন একটি আশা করবে - এবং এটি সত্য - যে খুব বড় মানের জন্য , সমস্ত ফ্রিকোয়েন্সিগুলি বেশ ছোট হবে। আমরা যদি তাই সাহসী (অথবা নির্বোধ) হিসাবে "একটা সীমা নেওয়া" বা "যাক প্রচেষ্টা হতে ছিল যেতে ", আমরা সঠিকভাবে এই উপসংহারে যে সব ফ্রিকোয়েন্সি কমাতে । কিন্তু যদি আমরা কেবল একটি হিস্টোগ্রাম আঁকা কিভাবে তার অক্ষ লেবেলযুক্ত কোনো মনোযোগ পরিশোধ ছাড়া ফ্রিকোয়েন্সি, আমরা দেখতে পাই যে বৃহৎ জন্য histograms সব একই দেখুন শুরু করুন: কিছু অর্থে, এই histograms একটা সীমা কাছে এমনকি ফ্রিকোয়েন্সি যদিও নিজেরাই সব শূন্যে চলে যায়।n ∞ 0 nnn∞0n
এই হিস্টোগ্রামগুলি প্রাপ্তির বহুবার পুনরাবৃত্তি করার ফলাফলগুলি চিত্রিত করে । শিরোনামগুলির মধ্যে "পরীক্ষার সংখ্যা"। nynn
অন্তর্দৃষ্টিটি হিস্টোগ্রামটি প্রথমে অঙ্কন করা এবং এর অক্ষগুলি পরে লেবেল করা । বৃহত্তর সহ হিস্টোগ্রাম (অনুভূমিক অক্ষের উপরে) এবং ভেন্যালিভাবে ছোট ছোট বিরতি (উল্লম্ব অক্ষের উপরে) কেন্দ্রিক মানের একটি বৃহত পরিসীমা জুড়ে কারণ পৃথক ফ্রিকোয়েন্সিগুলি বেশ ছোট হয় small এই বাঁকটিকে চক্রান্ত ক্ষেত্রের মধ্যে ফিট করার জন্য হিস্টোগ্রামের স্থানান্তর এবং পুনরুদ্ধার উভয়ই প্রয়োজন । এর গাণিতিক বিবরণ হ'ল প্রতিটি আমরা এবং কিছু স্কেল মান অবস্থানের জন্য কিছু কেন্দ্রীয় মান (প্রয়োজনীয় অনন্য নয়!) চয়ন করতেএন / 2 এন এম এন গুলি এন ওয়াই এন z- র এন = ( Y এন - মি এন ) / গুলি এনnn/2nmnsnএটি অক্ষের মধ্যে ফিট করার জন্য (অগত্যা অনন্য নয়!)। কে পরিবর্তন করে এটি গাণিতিকভাবে করা ।ynzn=(yn−mn)/sn
মনে রাখবেন যে একটি হিস্টোগ্রাম এটির সাথে অনুভূমিক অক্ষের মধ্যবর্তী অঞ্চলগুলি দ্বারা ফ্রিকোয়েন্সিগুলি উপস্থাপন করে । বৃহত্তর মানগুলির জন্য এই হিস্টোগ্রামের শেষ স্থায়িত্ব তাই ক্ষেত্রের ক্ষেত্রে বলা উচিত should n সুতরাং, আপনার যে কোনও মান অন্তর বেছে নিন, থেকে এবং বাড়ার সাথে সাথে এর হিস্টোগ্রামের অংশের ক্ষেত্রটি ট্র্যাক করুন যা অনুভূমিকভাবে অন্তর বিস্তৃত হয় । সিএলটি বেশ কয়েকটি দেয় জিনিস:b > a nab>an ( ক , খ ]zn(a,b]
কোন ব্যাপার কি এবং হয়,b ab যদি আমরা নির্বাচন সিকোয়েন্স এবং উপযুক্তভাবে (একটি উপায় যে উপর নির্ভর করে না যে বা সব সময়ে), এই এলাকা প্রকৃতপক্ষে একটা সীমা পন্থা হিসাবে বৃহৎ পায়।s n a a b nmnsnabn
এবং সিকোয়েন্সগুলি বেছে নেওয়া যেতে পারে যা কেবলমাত্র উপর নির্ভর করে , বাক্সের মানগুলির গড় এবং সেই মানগুলি ছড়িয়ে দেওয়ার কিছু পরিমাপ - তবে অন্য কিছুই নয় - যাতে বাক্সে যা আছে তা নির্বিশেষে , সীমা সর্বদা একই থাকে। (এই সর্বজনীন সম্পত্তি আশ্চর্যজনক।)এস এন এনmnsnn
বিশেষ করে, যে সীমিত এলাকায় বক্ররেখা অধীনে এলাকা মধ্যে এবং : এই যে সার্বজনীন সীমিত হিস্টোগ্রাম এর সূত্র। কখy=exp(−z2/2)/2π−−√ab
সিএলটির প্রথম সাধারণীকরণ যোগ করে,
বাক্সে শূন্য ওগুলি ছাড়াও সংখ্যা থাকতে পারে, ঠিক একই সিদ্ধান্তে ধরা পড়ে (শর্ত থাকে যে বাক্সে অত্যন্ত বড় বা ছোট সংখ্যার অনুপাত "খুব বড়" নয়, একটি মানদণ্ডে যার একটি নির্দিষ্ট এবং সাধারণ পরিমাণগত বিবৃতি রয়েছে) ।
পরবর্তী সাধারণীকরণ এবং সম্ভবত সবচেয়ে আশ্চর্যজনক এই টিকিটের এই একক বাক্সটিকে টিকিট সহ একটি অনির্দিষ্টকালের জন্য দীর্ঘ দীর্ঘ বাক্সের বাক্সের সাথে প্রতিস্থাপন করে। প্রতিটি বাক্সের টিকিটে বিভিন্ন অনুপাতে বিভিন্ন নম্বর থাকতে পারে। পর্যবেক্ষণটি প্রথম বাক্স থেকে টিকিট আঁকতে তৈরি করা হয়, দ্বিতীয় বাক্স থেকে আসে।x 2x1x2
ঠিক একই সিদ্ধান্তে হোল্ডগুলি সরবরাহ করে যে বাক্সগুলির বিষয়বস্তুগুলি "খুব বেশি আলাদা নয়" (সেখানে অনেকগুলি সুনির্দিষ্ট, তবে পৃথক, "খুব বেশি আলাদা নয়" এর অর্থের পরিমাণগত বৈশিষ্ট্য রয়েছে; তারা আশ্চর্যের পরিমাণে অক্ষাংশের অনুমতি দেয়)।
এই পাঁচটি বক্তব্য, কমপক্ষে, ব্যাখ্যা করা দরকার need আরো আছে. সেটআপের বেশ কয়েকটি আকর্ষণীয় দিক সমস্ত বিবৃতিতে অন্তর্ভুক্ত। উদাহরণ স্বরূপ,
যোগফল সম্পর্কে বিশেষ কী ? কেন আমাদের গাণিতিক সংখ্যার যেমন তাদের পণ্য বা তাদের সর্বোচ্চের সংখ্যার জন্য কেন্দ্রীয় সীমাবদ্ধ তত্ত্বগুলি নেই? (এটি প্রমাণিত হয় যে আমরা করি, তবে সেগুলি এতটা সাধারণ নয় এবং সিএলটি-তে হ্রাস না করা তারা সবসময় এ জাতীয় একটি পরিষ্কার, সাধারণ উপসংহার পায়)) এবং এর অনন্য নয় তবে তারা প্রায় অনন্য' re এই অর্থে যে অবশেষে তাদের টিকিটের যোগফলের সমান প্রত্যাশা এবং যথাক্রমে যোগফলের প্রমিত বিচ্যুতি ঘটে (যা, সিএলটি-র প্রথম দুটি বিবৃতিতে, এর মান বিচ্যুতির দ্বিগুণ হয়) বাক্স)। এস এন এন √mnsnnn−−√
স্ট্যান্ডার্ড বিচ্যুতি হ'ল মানগুলির প্রসারের এক পরিমাপ, তবে এটি কোনওভাবেই এক নয় বা এটি historতিহাসিকভাবে বা অনেকগুলি অ্যাপ্লিকেশনগুলির জন্য সর্বাধিক "প্রাকৃতিক" নয়। ( উদাহরণস্বরূপ, অনেক লোক মধ্যমা থেকে মধ্যমা পরম বিচ্যুততার মতো কিছু বেছে নেবে ))
এসডি কেন এমন অপরিহার্য উপায়ে উপস্থিত হয়?
সীমাবদ্ধ হিস্টোগ্রামের সূত্রটি বিবেচনা করুন: কে এইরকম ফর্ম নেবে বলে আশা করেছিল? এটি বলেছে যে সম্ভাবনার ঘনত্বের লগারিদম একটি চতুর্ভুজ ফাংশন। কেন? এর জন্য কিছু স্বজ্ঞাত বা স্পষ্ট, জোরালো ব্যাখ্যা আছে?
আমি স্বীকার করি যে আমি উত্তর সরবরাহের চূড়ান্ত লক্ষ্যে পৌঁছতে পারছি না যা স্বজ্ঞানতা এবং সরলতার জন্য শ্রীকান্তের চ্যালেঞ্জিং মানদণ্ডটি পূরণ করার পক্ষে যথেষ্ট সহজ, তবে আমি এই ব্যাকগ্রাউন্ডটি আঁকিয়ে রেখেছি যে অন্যরা অনেকগুলি শূন্যতার কিছু পূরণ করতে অনুপ্রাণিত হবে। আমি মনে করি যে ভাল একটি বিক্ষোভের পরিণামে কীভাবে এবং মধ্যে এর যোগফল তৈরি করতে পারে তার প্রাথমিক বিশ্লেষণের উপর নির্ভর করতে হবে । সিএলটি-এর একক-বাক্স সংস্করণে ফিরে যাওয়া, প্রতিসামগ্রী বিতরণের ক্ষেত্রে হ্যান্ডেল করা সহজ: এর মাঝারিটি এর গড় সমান হয়, তাই ৫০% সম্ভাবনা রয়েছে যে বাক্সটির গড়ের চেয়ে কম হবে এবং ৫০% সম্ভাবনা রয়েছে যেβ n = বি এস এন + এম এন এক্স 1 + এক্স 2 + ... + এক্স এন এক্স আই এক্স আই এনαn=asn+mnβn=bsn+mnx1+x2+…+xnxixiতার গড় চেয়ে বড় হবে। তদ্ব্যতীত, যখন পর্যাপ্ত পরিমাণে বড় হয়, গড় থেকে ইতিবাচক বিচ্যুতিগুলির অর্থ অবশ্যই নেতিবাচক বিচ্যুতির জন্য ক্ষতিপূরণ করা উচিত। (এটির জন্য কেবল হাত বোলানো নয়, কিছু যত্ন সহকারে ন্যায়সঙ্গত হওয়া প্রয়োজন)) সুতরাং আমাদের প্রাথমিকভাবে ইতিবাচক এবং নেতিবাচক বিচ্যুতির সংখ্যা গণনা সম্পর্কে উদ্বিগ্ন হওয়া উচিত এবং কেবল তাদের আকারগুলি সম্পর্কে গৌণ উদ্বেগ থাকতে হবে ।n (আমি এখানে যা লিখেছি সেগুলির মধ্যে, সিএলটি কেন কাজ করে সে সম্পর্কে কিছুটা অন্তর্দৃষ্টি প্রদানের ক্ষেত্রে এটি সবচেয়ে কার্যকর হতে পারে Indeed প্রকৃতপক্ষে, সিএলটি-র সাধারণীকরণকে মূলত মূলত করার জন্য যে প্রযুক্তিগত অনুমান করা দরকার তা হ'ল সম্ভাবনা উড়িয়ে দেওয়ার বিভিন্ন উপায় that বিরল বিশাল বিচ্যুতি সীমাবদ্ধ হিস্টোগ্রাম উত্থান থেকে রোধ করতে যথেষ্ট পরিমাণ ভারসাম্য বিচলিত করবে))
এটি দেখায়, যাইহোক, কিছুটা হলেও, সিএলটি-র প্রথম সাধারণীকরণ কেন এমন কিছু আবিষ্কার করতে পারে না যা ডি মাইভেরের আসল বার্নোল্লি ট্রায়াল সংস্করণে ছিল না।
এই মুহুর্তে দেখে মনে হচ্ছে এটি অল্প গণিত করা ছাড়া আর কিছুই নেই: আমাদের স্বতন্ত্র উপায়গুলির সংখ্যা গণনা করতে হবে যেখানে মধ্য থেকে ধনাত্মক বিচরণের সংখ্যা কোনও পূর্বনির্ধারিত মান দ্বারা নেতিবাচক বিচ্যুতির সংখ্যার থেকে পৃথক হতে পারে সেখানে স্পষ্ট এক । তবে যেহেতু অদৃশ্যভাবে ছোট ত্রুটিগুলি সীমাতে অদৃশ্য হয়ে যাবে, আমাদের সঠিকভাবে গণনা করতে হবে না; আমাদের কেবল হিসাবের আনুমানিক প্রয়োজন। এই লক্ষ্যে এটি জানার পক্ষে যথেষ্টকে - এন , - এন + 2 , … , এন - 2 , এনkk−n,−n+2,…,n−2,n
The number of ways to obtain k positive and n−k negative values out of n
equals n−k+1k
times the number of ways to get k−1 positive and n−k+1 negative values.
(এটি একটি নিখুঁত প্রাথমিক ফলাফল তাই আমি ন্যায়সঙ্গতটি লিখতে বিরক্ত করব না)) এখন আমরা আনুমানিক পাইকার পাই। সর্বাধিক ফ্রিকোয়েন্সি ঘটে যখন যতটা সম্ভব কাছাকাছি থাকে (প্রাথমিকও)। আসুন । তারপরে, সর্বাধিক ফ্রিকোয়েন্সিটির তুলনায় , পজিটিভ বিচ্যুতির ( ) ফ্রিকোয়েন্সিটি পণ্য দ্বারা অনুমান করা হয়এন / 2 মি = ঢ / 2 মি + + ঞ + + 1 ঞ ≥ 0kn/2m=n/2m+j+1j≥0
m+1m+1mm+2⋯m−j+1m+j+1
=1−1/(m+1)1+1/(m+1)1−2/(m+1)1+2/(m+1)⋯1−j/(m+1)1+j/(m+1).
ডি মাইভ্রে লেখার ১৩৫ বছর আগে জন নেপিয়ার বহুগুণ সহজ করার জন্য লগারিদমগুলি আবিষ্কার করেছিলেন, তাই আসুন এর সুবিধাটি নেওয়া যাক। আনুমানিক ব্যবহার
log(1−x1+x)∼−2x,
আমরা দেখতে পাই যে আপেক্ষিক ফ্রিকোয়েন্সিটির লগ প্রায় approximately
−2/(m+1)−4/(m+1)−⋯−2j/(m+1)=−j(j+1)m+1∼−j2m.
যেহেতু ক্রমযুক্ত ত্রুটি সমানুপাতিক , এটি সাথে তুলনায় ছোট । এটি এর মানগুলির বৃহত্তর পরিসীমাটিকে আবৃত করে । ( কেবলমাত্র the এর অর্ডারে জন্য কাজ করা প্রায় অনুমানের পক্ষে যথেষ্ট, যা asympototically চেয়ে অনেক ছোট ))জ 4j4/m3j4 জে জে √m3jjm−−√m3/4
স্পষ্টতই এই ধরণের আরও অনেক বিশ্লেষণ সিএলটি-র অন্যান্য দৃ as়তা প্রমাণ করার জন্য উপস্থাপন করা উচিত, তবে আমি সময়, স্থান এবং শক্তি শেষ করছি এবং আমি সম্ভবত 90% লোককে হারিয়েছি যারা এইভাবে পড়া শুরু করেছে। যদিও এই সরল আনুমানিকতাটি প্রমাণ করে যে ডি মাইভ্রে কীভাবে মূলত সন্দেহ করতে পারেন যে সেখানে সর্বজনীন সীমাবদ্ধ বিতরণ রয়েছে, এর কার্য, এবং সঠিক স্কেল ফ্যাক্টর অবশ্যই সমানুপাতিক হতে হবে (কারণ )।snn−−√j2/m=2j2/n=2(j/n−−√)2 একরকম গাণিতিক তথ্য ও যুক্তি না দিয়ে এই গুরুত্বপূর্ণ পরিমাণগত সম্পর্ককে কীভাবে ব্যাখ্যা করা যেতে পারে তা কল্পনা করা কঠিন; এর চেয়ে কম কিছু সীমাবদ্ধ বক্ররেখার যথাযথ আকৃতিটি পুরো রহস্যকে ছাড়বে।