১. অসাধারণ সম্ভাব্যতা।
এই নোটের পরবর্তী দুটি বিভাগ সিদ্ধান্ত তত্ত্বের মানক সরঞ্জামগুলি (2) ব্যবহার করে "অনুমানটি আরও বড়" এবং "দুটি খাম" সমস্যার বিশ্লেষণ করে। এই পদ্ধতির, যদিও সোজা, নতুন বলে মনে হচ্ছে। বিশেষত, এটি দুটি খামের সমস্যার জন্য সিদ্ধান্ত পদ্ধতির একটি সেট সনাক্ত করে যা "সর্বদা স্যুইচ" বা "কখনই স্যুইচ না" পদ্ধতিগুলির তুলনায় সুস্পষ্ট superiorর্ধ্বতন।
বিভাগ 2 (মানক) পরিভাষা, ধারণা এবং স্বরলিপি প্রবর্তন করে। এটি "অনুমান যা আরও বড় সমস্যা" "এর জন্য সম্ভাব্য সমস্ত সিদ্ধান্ত পদ্ধতি বিশ্লেষণ করে। এই উপাদানগুলির সাথে পরিচিত পাঠকরা এই বিভাগটি এড়িয়ে যেতে পছন্দ করতে পারেন। বিভাগ 3 দুটি খামের সমস্যাটির জন্য একই রকম বিশ্লেষণ প্রয়োগ করে। বিভাগ 4, উপসংহারগুলি, মূল পয়েন্টগুলির সংক্ষিপ্তসার করে।
এই ধাঁধাগুলির সমস্ত প্রকাশিত বিশ্লেষণ ধরে নিয়েছে যে প্রকৃতির সম্ভাব্য রাজ্যগুলি পরিচালনা করে এমন সম্ভাবনা বন্টন রয়েছে। এই ধারণাটি ধাঁধা বিবৃতি অংশ নয়। এই বিশ্লেষণগুলির মূল ধারণাটি হ'ল এই (অযাচিত) অনুমানকে বাদ দেওয়া এই ধাঁধাগুলিতে আপাত বিপরীতে একটি সহজ সমাধানের দিকে নিয়ে যায়।
"সমস্যাটি যা সবচেয়ে বড়" সমস্যা।
একটি পরীক্ষককে বলা হয় যে বিভিন্ন বাস্তব সংখ্যা x 1x1 এবং x 2x2 কাগজের দুটি স্লিপে লেখা থাকে। তিনি এলোমেলোভাবে বেছে নেওয়া স্লিপে নম্বরটি দেখেন। কেবলমাত্র এই একটি পর্যবেক্ষণের ভিত্তিতে, তাকে অবশ্যই সিদ্ধান্ত নিতে হবে যে এটি দুটি সংখ্যার চেয়ে ছোট বা বড়।
সম্ভাব্যতা সম্পর্কে এই জাতীয় সহজ তবে উন্মুক্ত সমস্যাগুলি বিভ্রান্তিকর এবং পাল্টা স্বজ্ঞাত হওয়ার জন্য কুখ্যাত। বিশেষত, কমপক্ষে তিনটি স্বতন্ত্র উপায় রয়েছে যেখানে সম্ভাব্যতা ছবিটিতে প্রবেশ করে। এটি স্পষ্ট করতে, আসুন একটি আনুষ্ঠানিক পরীক্ষামূলক দৃষ্টিভঙ্গি গ্রহণ করুন (2)।
ক্ষতির ফাংশন নির্দিষ্ট করে শুরু করুন । আমাদের লক্ষ্যটি তার প্রত্যাশাটি হ্রাস করা হবে, এক অর্থে নীচে সংজ্ঞায়িত করা হবে। একটি ভাল পছন্দ করতে ক্ষতি সমান 11 যখন পরীক্ষায় সঠিকভাবে এবং অনুমান 00 অন্যথায়। এই ক্ষতির কার্যকারিতাটির প্রত্যাশা হ'ল ভুল অনুমানের সম্ভাবনা। সাধারণভাবে, ভুল অনুমানের জন্য বিভিন্ন জরিমানা বরাদ্দের মাধ্যমে, একটি ক্ষতির ফাংশন সঠিকভাবে অনুমানের উদ্দেশ্যটি ধারণ করে। নিশ্চিত হওয়া উচিত যে ক্ষতির ফাংশন গ্রহণ করা x 1x1 এবং এর পূর্বের সম্ভাবনা বন্টনকে ধরে নেওয়ার মতো স্বেচ্ছাচারী এক্স 2x2, তবে এটি আরও প্রাকৃতিক এবং মৌলিক। যখন আমরা কোনও সিদ্ধান্ত নেওয়ার মুখোমুখি হই তখন আমরা স্বাভাবিকভাবেই সঠিক বা ভুল হওয়ার পরিণতি বিবেচনা করি। যদি কোনওভাবেই কোনও পরিণতি না হয় তবে কেন যত্ন করবেন? আমরা যখনই কোনও যুক্তিযুক্ত সিদ্ধান্ত গ্রহণ করি তখনই আমরা স্পষ্টভাবে সম্ভাব্য ক্ষতির বিষয়টি বিবেচনা করি এবং সুতরাং ক্ষতির একটি সুস্পষ্ট বিবেচনা থেকে আমরা উপকৃত হই, অন্যদিকে কাগজের স্লিপগুলিতে সম্ভাব্য মানগুলি বর্ণনা করার সম্ভাবনার ব্যবহার অপ্রয়োজনীয়, কৃত্রিম এবং যেমন -— আমরা দেখতে পাব useful- দরকারী সমাধানগুলি পেতে আমাদের বাধা দিতে পারে।
সিদ্ধান্ত তত্ত্বের মডেলগুলি পর্যবেক্ষণমূলক ফলাফল এবং সেগুলি সম্পর্কে আমাদের বিশ্লেষণ। এটি তিনটি অতিরিক্ত গাণিতিক অবজেক্ট ব্যবহার করে: একটি নমুনা স্থান, "প্রকৃতির রাজ্যগুলির একটি সেট" এবং সিদ্ধান্ত পদ্ধতি procedure
নমুনা স্পেস এসS সমস্ত সম্ভাব্য পর্যবেক্ষণ নিয়ে গঠিত; এখানে এটি আর এর সাথে চিহ্নিত করা যেতে পারে R (প্রকৃত সংখ্যাগুলির সেট) ।
প্রকৃতির রাজ্যগুলি হ'লΩ পরীক্ষামূলক ফলাফলকে পরিচালনা করে এমন সম্ভাব্য বন্টন। (এটিই প্রথম অনুভূতি যেখানে আমরা কোনও ঘটনার "সম্ভাবনা" সম্পর্কে কথা বলতে পারি।) "অনুমান যা আরও বড়" সমস্যাটিতে, এগুলি হ'ল বিযুক্ত ডিস্ট্রিবিউশনগুলি সমান সম্ভাবনার সাথে পৃথক বাস্তব সংখ্যা x 1x1 এবং x 2 এ মান গ্রহণ করছে taking x2এর 112প্রতিটি মান 2 । ΩΩ দ্বারা স্থিতিমাপ করা যেতে পারে{ω=(x এর1,x এর2)∈আর×আর| x1>x2}। {ω=(x1,x2)∈R×R | x1>x2}.
সিদ্ধান্ত স্থান বাইনারি সেট Δ = { ছোট , বড় }Δ={smaller,larger} সম্ভব সিদ্ধান্ত।
এই শর্তাবলীতে, লোকসান ফাংশন একটি বাস্তব-মান ফাংশন উপর সংজ্ঞায়িত Ω × ΔΩ×Δ । এটি আমাদের জানায় যে বাস্তবতা (প্রথম যুক্তি) এর তুলনায় সিদ্ধান্তটি "খারাপ" কী (দ্বিতীয় যুক্তি)।
সবচেয়ে সাধারণ সিদ্ধান্ত পদ্ধতি δδ পরীক্ষায় উপলব্ধ একটি হল এলোমেলোভাবে এক: কোন পরীক্ষামূলক ফলাফল তার মূল্যের ওপর সম্ভাব্যতা বিতরণের হয় ΔΔ । অর্থাৎ সিদ্ধান্ত দেখে ফলাফল উপর করতে এক্সx অগত্যা নির্দিষ্ট নয়, বরং এলোমেলোভাবে একটি বিতরণ অনুযায়ী মনোনীত করা হয় δ ( এক্স )δ( এক্স ) । (এটি দ্বিতীয় উপায় যাতে সম্ভাবনা জড়িত হতে পারে))
যখন ΔΔ মাত্র দুটি উপাদান আছে, কোন এলোমেলোভাবে পদ্ধতি সম্ভাব্যতা এটি একটি prespecified সিদ্ধান্ত নির্ধারণ, যা কংক্রিট আমরা নিতে হতে হতে দ্বারা চিহ্নিত করা যেতে পারে "বড় করা হয়েছে।"
একটি শারীরিক স্পিনার কার্যকরী যেমন একটি বাইনারি এলোমেলোভাবে পদ্ধতি: অবাধে-কাটনা পয়েন্টার উপরের এলাকায় বন্ধ করার এক সিদ্ধান্ত সংশ্লিষ্ট আসবে ΔΔ সম্ভাব্যতা সঙ্গে, δδ সম্ভাব্যতা সঙ্গে নিচের বাম এলাকায় বন্ধ করে দেবে, এবং অন্যথায় 1 - δ ( x )1 - δ( এক্স ) । স্পিনার সম্পূর্ণরূপে মান নির্দিষ্ট করে নির্ধারণ করা হয় δ ( এক্স ) ∈ [ 0 , 1 ]δ( x ) ∈ [ 0 , 1 ] ।
সুতরাং একটি সিদ্ধান্ত পদ্ধতি একটি ফাংশন হিসাবে চিন্তা করা যেতে পারে
δ ′ : এস → [ 0 , 1 ] ,
δ': এস→ [ 0 , 1 ] ,
কোথায়
প্র δ ( এক্স ) (বৃহত্তর)= δ ′ (এক্স) এবং প্র δ ( এক্স ) (ছোট)=1- δ ′ (এক্স)।
prδ( এক্স )(larger)=δ′(x) and Prδ(x)(smaller)=1−δ′(x).
বিপরীতভাবে, কোন ফাংশন δ ' একটি এলোমেলোভাবে সিদ্ধান্ত পদ্ধতি নির্ধারণ করে। এলোমেলোভাবে সিদ্ধান্ত বিশেষ ক্ষেত্রে নির্ণায়ক সিদ্ধান্ত অন্তর্ভুক্ত যেখানে পরিসীমা δ ' মিথ্যা { 0 , 1 }δ′δ′{0,1} ।
আমাদের বলে যে যাক খরচ একটি সিদ্ধান্ত কার্যপ্রণালী δ জন্য একটি ফলাফল এক্স প্রত্যাশিত ক্ষতি δ ( এক্স ) । প্রত্যাশা সম্ভাব্যতা বিতরণের সম্মান সঙ্গে হয় δ ( এক্স ) সিদ্ধান্ত স্থান Δ । প্রকৃতির প্রতিটি রাজ্য ω (যা, প্রত্যাহার, নমুনা স্থান একটি বাইনমিয়াল সম্ভাব্যতা বিতরণের হয় এস ) কোন পদ্ধতি প্রত্যাশিত খরচ নির্ণয় δ ; এই হল ঝুঁকি এর δ জন্য ω , ঝুঁকি δ ( ω )δxδ(x)δ(x)ΔωSδδωRiskδ(ω)। এখানে, প্রত্যাশা প্রকৃতির রাষ্ট্র থেকে সম্মান সঙ্গে নেওয়া হয় ω ।ω
সিদ্ধান্তের পদ্ধতিগুলি তাদের ঝুঁকিপূর্ণ কার্যগুলির সাথে তুলনা করা হয়। যখন প্রকৃতির রাষ্ট্র সত্যিই অজানা, ε এবং δ দুই পদ্ধতি আছে, এবং ঝুঁকি ε ( ω ) ≥ ঝুঁকি δ ( ω ) সবার জন্য ω , তারপর পদ্ধতি ব্যবহার করে কোন মানে হয়না ε , কারণ পদ্ধতি δ কোন খারাপ না হয় ( এবং কিছু ক্ষেত্রে ভাল হতে পারে)। এই ধরনের একটি পদ্ধতি ε হয় অগ্রহণীয়εδRiskε(ω)≥Riskδ(ω)ωεδε; otherwise, it is admissible. Often many admissible procedures exist. We shall consider any of them “good” because none of them can be consistently out-performed by some other procedure.
নোট করুন যে পূর্বের কোনও বিতরণ ( Ω (" সি এর জন্য একটি মিশ্র কৌশল ") এর পরিভাষায় (1) এর প্রবর্তন করা হয়নি । এটি তৃতীয় উপায় যাতে সম্ভাবনা সমস্যা সেটিংয়ের অংশ হতে পারে। এটি ব্যবহার করা বর্তমান বিশ্লেষণকে (1) এবং এর রেফারেন্সগুলির তুলনায় আরও সাধারণ করে তোলে, যদিও এখনও সহজ হওয়া যায়।ΩC
প্রকৃতির সত্যিকারের অবস্থা ω = ( x 1 , x 2 ) দ্বারা দেওয়া হলে সারণী 1 ঝুঁকিটি মূল্যায়ন করে । X 1 > x 2 স্মরণ করুন ।ω=(x1,x2).x1>x2.
1 নং টেবিল.
ডিসিশন:LargerLargerSmallerSmallerOutcomeProbabilityProbabilityLossProbabilityLossCostx11/2δ′(x1)01−δ′(x1)11−δ′(x1)x21/2δ′(x2)11−δ′(x2)01−δ′(x2)
Decision:Outcomex1x2Probability1/21/2LargerProbabilityδ′(x1)δ′(x2)LargerLoss01SmallerProbability1−δ′(x1)1−δ′(x2)SmallerLoss10Cost1−δ′(x1)1−δ′(x2)
Risk(x1,x2): (1−δ′(x1)+δ′(x2))/2.
Risk(x1,x2): (1−δ′(x1)+δ′(x2))/2.
In these terms the “guess which is larger” problem becomes
Given you know nothing about x1x1 and x2x2, except that they are distinct, can you find a decision procedure δδ for which the risk [1–δ′(max(x1,x2))+δ′(min(x1,x2))]/2[1–δ′(max(x1,x2))+δ′(min(x1,x2))]/2 is surely less than 1212?
This statement is equivalent to requiring δ′(x)>δ′(y)δ′(x)>δ′(y) whenever x>y.x>y. Whence, it is necessary and sufficient for the experimenter's decision procedure to be specified by some strictly increasing function δ′:S→[0,1].δ′:S→[0,1]. This set of procedures includes, but is larger than, all the “mixed strategies QQ” of 1. There are lots of randomized decision procedures that are better than any unrandomized procedure!
3. THE “TWO ENVELOPE” PROBLEM.
It is encouraging that this straightforward analysis disclosed a large set of solutions to the “guess which is larger” problem, including good ones that have not been identified before. Let us see what the same approach can reveal about the other problem before us, the “two envelope” problem (or “box problem,” as it is sometimes called). This concerns a game played by randomly selecting one of two envelopes, one of which is known to have twice as much money in it as the other. After opening the envelope and observing the amount xx of money in it, the player decides whether to keep the money in the unopened envelope (to “switch”) or to keep the money in the opened envelope. One would think that switching and not switching would be equally acceptable strategies, because the player is equally uncertain as to which envelope contains the larger amount. The paradox is that switching seems to be the superior option, because it offers “equally probable” alternatives between payoffs of 2x2x and x/2,x/2, whose expected value of 5x/45x/4 exceeds the value in the opened envelope. Note that both these strategies are deterministic and constant.
In this situation, we may formally write
S={x∈R | x>0},Ω={Discrete distributions supported on {ω,2ω} | ω>0 and Pr(ω)=12},andΔ={Switch,Do not switch}.
SΩΔ={x∈R | x>0},={Discrete distributions supported on {ω,2ω} | ω>0 and Pr(ω)=12},and={Switch,Do not switch}.
As before, any decision procedure δδ can be considered a function from SS to [0,1],[0,1], this time by associating it with the probability of not switching, which again can be written δ′(x)δ′(x). The probability of switching must of course be the complementary value 1–δ′(x).1–δ′(x).
The loss, shown in Table 2, is the negative of the game's payoff. It is a function of the true state of nature ωω, the outcome xx (which can be either ωω or 2ω2ω), and the decision, which depends on the outcome.
Table 2.
LossLossOutcome(x)SwitchDo not switchCostω−2ω−ω−ω[2(1−δ′(ω))+δ′(ω)]2ω−ω−2ω−ω[1−δ′(2ω)+2δ′(2ω)]
Outcome(x)ω2ωLossSwitch−2ω−ωLossDo not switch−ω−2ωCost−ω[2(1−δ′(ω))+δ′(ω)]−ω[1−δ′(2ω)+2δ′(2ω)]
In addition to displaying the loss function, Table 2 also computes the cost of an arbitrary decision procedure δδ. Because the game produces the two outcomes with equal probabilities of 1212, the risk when ωω is the true state of nature is
Riskδ(ω)=−ω[2(1−δ′(ω))+δ′(ω)]/2+−ω[1−δ′(2ω)+2δ′(2ω)]/2=(−ω/2)[3+δ′(2ω)−δ′(ω)].
Riskδ(ω)=−ω[2(1−δ′(ω))+δ′(ω)]/2+−ω[1−δ′(2ω)+2δ′(2ω)]/2=(−ω/2)[3+δ′(2ω)−δ′(ω)].
A constant procedure, which means always switching (δ′(x)=0δ′(x)=0) or always standing pat (δ′(x)=1δ′(x)=1), will have risk −3ω/2−3ω/2. Any strictly increasing function, or more generally, any function δ′δ′ with range in [0,1][0,1] for which δ′(2x)>δ′(x)δ′(2x)>δ′(x) for all positive real x,x, determines a procedure δδ having a risk function that is always strictly less than −3ω/2−3ω/2 and thus is superior to either constant procedure, regardless of the true state of nature ωω! The constant procedures therefore are inadmissible because there exist procedures with risks that are sometimes lower, and never higher, regardless of the state of nature.
Comparing this to the preceding solution of the “guess which is larger” problem shows the close connection between the two. In both cases, an appropriately chosen randomized procedure is demonstrably superior to the “obvious” constant strategies.
These randomized strategies have some notable properties:
There are no bad situations for the randomized strategies: no matter how the amount of money in the envelope is chosen, in the long run these strategies will be no worse than a constant strategy.
No randomized strategy with limiting values of 00 and 11 dominates any of the others: if the expectation for δδ when (ω,2ω)(ω,2ω) is in the envelopes exceeds the expectation for εε, then there exists some other possible state with (η,2η)(η,2η) in the envelopes and the expectation of εε exceeds that of δδ .
The δδ strategies include, as special cases, strategies equivalent to many of the Bayesian strategies. Any strategy that says “switch if xx is less than some threshold TT and stay otherwise” corresponds to δ(x)=1δ(x)=1 when x≥T,δ(x)=0x≥T,δ(x)=0 otherwise.
What, then, is the fallacy in the argument that favors always switching? It lies in the implicit assumption that there is any probability distribution at all for the alternatives. Specifically, having observed xx in the opened envelope, the intuitive argument for switching is based on the conditional probabilities Prob(Amount in unopened envelope | xx was observed), which are probabilities defined on the set of underlying states of nature. But these are not computable from the data. The decision-theoretic framework does not require a probability distribution on ΩΩ in order to solve the problem, nor does the problem specify one.
This result differs from the ones obtained by (1) and its references in a subtle but important way. The other solutions all assume (even though it is irrelevant) there is a prior probability distribution on ΩΩ and then show, essentially, that it must be uniform over S.S. That, in turn, is impossible. However, the solutions to the two-envelope problem given here do not arise as the best decision procedures for some given prior distribution and thereby are overlooked by such an analysis. In the present treatment, it simply does not matter whether a prior probability distribution can exist or not. We might characterize this as a contrast between being uncertain what the envelopes contain (as described by a prior distribution) and being completely ignorant of their contents (so that no prior distribution is relevant).
4. CONCLUSIONS.
In the “guess which is larger” problem, a good procedure is to decide randomly that the observed value is the larger of the two, with a probability that increases as the observed value increases. There is no single best procedure. In the “two envelope” problem, a good procedure is again to decide randomly that the observed amount of money is worth keeping (that is, that it is the larger of the two), with a probability that increases as the observed value increases. Again there is no single best procedure. In both cases, if many players used such a procedure and independently played games for a given ωω, then (regardless of the value of ωω) on the whole they would win more than they lose, because their decision procedures favor selecting the larger amounts.
In both problems, making an additional assumption-—a prior distribution on the states of nature—-that is not part of the problem gives rise to an apparent paradox. By focusing on what is specified in each problem, this assumption is altogether avoided (tempting as it may be to make), allowing the paradoxes to disappear and straightforward solutions to emerge.
REFERENCES
(1) D. Samet, I. Samet, and D. Schmeidler, One Observation behind Two-Envelope Puzzles. American Mathematical Monthly 111 (April 2004) 347-351.
(2) J. Kiefer, Introduction to Statistical Inference. Springer-Verlag, New York, 1987.
sum(p(X) * (1/2X*f(X) + 2X(1-f(X)) ) = X
, যেখানে f (এক্স) কোনও নির্দিষ্ট এক্স দেওয়া হলে প্রথম খামটি বড় হওয়ার সম্ভাবনা রয়েছে