সাধারণ সেট ধারণা


15

আমি ভেবেছিলাম যে টিপিকাল সেটটির ধারণাটি বেশ স্বজ্ঞাত: দৈর্ঘ্য এর একটি অনুক্রম nটিপিকাল সেট Aϵ(n) যদি সিকোয়েন্সটি বের হওয়ার সম্ভাবনা বেশি থাকে। সুতরাং, কোন ক্রম যে সম্ভাবনা ছিল হবে Aϵ(n) । (আমি এন্ট্রপির সাথে সম্পর্কিত আনুষ্ঠানিক সংজ্ঞা এড়িয়ে চলেছি কারণ আমি এটি গুণগতভাবে বোঝার চেষ্টা করছি।)

তবে, আমি এটি পড়েছি, সাধারণভাবে, সর্বাধিক সম্ভাব্য ক্রমটি আদর্শ সেটটির সাথে সম্পর্কিত নয়। এই আমাকে বড় সময় বিভ্রান্ত করেছে।

টিপিকাল সেটটির কোন স্বজ্ঞাত সংজ্ঞা আছে? বা এটি কি কেবল একটি গাণিতিক সরঞ্জাম যা সাধারণ জ্ঞানের সাথে তেমন কিছু করতে পারে না?

উত্তর:


13

আমি জানি আপনি স্পষ্টভাবে একটি স্বজ্ঞাত ব্যাখ্যা দেওয়ার জন্য এবং আনুষ্ঠানিক সংজ্ঞাটি ছেড়ে দেওয়ার জন্য বলেছেন, তবে আমি মনে করি তারা বরং এটি সম্পর্কিত, তাই আমাকে সাধারণ সেটটির সংজ্ঞাটি আবার স্মরণ করিয়ে দিন:

এক্স1,এক্স2,হয়IIDর্যান্ডম ভেরিয়েবল~ পি(এক্স) তারপর টিপিক্যাল সেটএকজনε(এন) থেকে সম্মান সঙ্গেপি(এক্স) ক্রম সেট(x1,x2,...,xn)χn সম্পত্তি সঙ্গে

(1)2n(H(X)+ϵ)p(x1,x2,...,xn)2n(H(X)ϵ)
যে একটি নির্দিষ্ট জন্য এই উপায়েϵ, সাধারণত সেট সব সিকোয়েন্স গঠিত হয় যার সম্ভাব্যতা হয়ঘনিষ্ঠকরার2nH(X)। তাই আদর্শ ক্রমের সাথে সম্পর্কিত কোনও ক্রমের জন্য, এটির সম্ভাবনা খুব কাছাকাছি থাকতে হবে2nH(X) , এটি সাধারণত যদিও হয় না। কেন তা বোঝার জন্য,log2 উপর l o g 2 প্রয়োগ করে সমীকরণ 1টি আবার লিখি।

(2)H(X)ϵ1nlog2(1p(x1,x2,...,xn))H(X)+ϵ

এখন সাধারণ সেট সংজ্ঞাটি এন্ট্রপির ধারণার সাথে আরও সরাসরি সম্পর্কিত, বা অন্য কোনওভাবে বলেছেন, এলোমেলো ভেরিয়েবলের গড় তথ্য। মধ্যবর্তী শব্দটি অনুক্রমের নমুনা এনট্রপি হিসাবে ভাবা যেতে পারে, এইভাবে আদর্শ সেটটি সমস্ত ক্রম দ্বারা তৈরি করা হয় যা আমাদের এলোমেলো পরিবর্তনশীল X গড় তথ্যের কাছাকাছি তথ্য সরবরাহ করে । সর্বাধিক সম্ভাব্য ক্রমটি সাধারণত আমাদের গড়ের চেয়ে কম তথ্য দেয়। মনে রাখবেন, ফলাফলের সম্ভাবনা যত কম হবে ততই আমাদের আমাদের দেওয়া তথ্যটি তত বেশি হবে। আমাকে কেন একটি উদাহরণ দিতে হবে তা বোঝার জন্য:

ধরা যাক আপনি এমন এক শহরে বাস করেন যার আবহাওয়া রৌদ্র এবং উষ্ণতার সম্ভাবনা 24 ডিগ্রি সেন্টিগ্রেড থেকে 26 ডিগ্রি সেন্টিগ্রেডের মধ্যে থাকে। আপনি প্রতি সকালে আবহাওয়ার প্রতিবেদনটি দেখতে পারেন তবে আপনি এটির বিষয়ে খুব বেশি চিন্তা করবেন না, আমি বলতে চাইছি এটি সর্বদা রোদ এবং উষ্ণ থাকে। তবে কি যদি কোনও দিন আবহাওয়ার পুরুষ / মহিলা আপনাকে বলে যে আজ বৃষ্টি এবং শীত থাকবে, এটি গেম চেঞ্জার। আপনাকে কিছু আলাদা পোশাক ব্যবহার করতে হবে এবং একটি ছাতা নিতে হবে এবং অন্যান্য জিনিসগুলি যা আপনি সাধারণত করেন না, তাই আবহাওয়ার লোক আপনাকে একটি সত্যিকারের গুরুত্বপূর্ণ তথ্য দিয়েছে।

সংক্ষিপ্তসার হিসাবে, আদর্শ সেটটির স্বজ্ঞাত সংজ্ঞাটি এটি এমন ক্রমগুলি নিয়ে গঠিত যা আমাদের উত্সের প্রত্যাশিত একটির (র্যান্ডম ভেরিয়েবল) কাছাকাছি পরিমাণ পরিমাণ তথ্য দেয়।


1
... বা বরং $$H(X)-\epsilon\le \frac{1}{n}log_2(\frac{1}{p(x_1,x_2,...,x_n)}) \le H(X)+\epsilon \tag{2}$$...
সিবিহে

ঠিক আছে, তবে সাধারণ সেটটির উদ্দেশ্য কী এইভাবে সংজ্ঞায়িত করা হয়েছে? পূর্বে আমি ভেবেছিলাম যে আমরা একটি অন্তর্নিহিতকরণের জন্য সাধারণ সেটের ধারণা তৈরি করেছি যা আমরা "কভার" (1 - ps eps)% কেসগুলি নিশ্চিত করার জন্য আমাদের যে ছোট ছোট অনুক্রমের প্রয়োজন তা গ্রহণ করা দরকার। এইভাবে, সর্বাধিক সম্ভাব্য ক্রম গ্রহণ করা একটি সুস্পষ্ট পছন্দ। আমি কী মিস করছি?
tomwesolowski

12

ডিয়েগোব্যাট এর উত্তর টিপিক্যাল সেটটি কী তা স্বজ্ঞাতভাবে ব্যাখ্যা করার জন্য একটি ভাল কাজ করে। এই উত্তরটি @ টম্বেসলোভস্কি দ্বারা প্রতিধ্বনিত ওপি-র অন্যান্য প্রশ্নের সমাধান করবে: আপনি কেন সম্ভবত আদর্শ সেটটিকে এমনভাবে সংজ্ঞায়িত করবেন যে সবচেয়ে সম্ভাব্য উপাদানগুলি বাদ দিতে পারে?

সংক্ষিপ্ত উত্তর যে সাধারণ সেটটি মূলত একটি গাণিতিক সরঞ্জাম। এটি কোনও কিছু প্রমাণ করতে সহায়তা করার জন্য সংজ্ঞায়িত হয়েছিল এবং প্রমাণের জন্য এই সংজ্ঞাটি সবচেয়ে সুবিধাজনক। তাত্ত্বিক চাহিদা কীভাবে গণিতের ক্ষেত্রে স্বজ্ঞাত পছন্দকে ট্রাম্প করতে পারে তার এটি একটি উত্তম উদাহরণ।

টিপিক্যাল সেট পিতা দ্বারা সংজ্ঞায়িত করা হয় তথ্য তত্ত্ব , ক্লদ শ্যানন । তিনি নির্ধারণ করতে চেয়েছিলেন যে কোনও সংক্ষিপ্ত বর্ণমালা থেকে প্রতীকের স্রোতকে কীভাবে দক্ষতার সাথে এনকোড করা যায়, প্রতিটি প্রতীককে কিছু বিতরণ থেকে আইড এলোমেলো নমুনা ধরে নিচ্ছেন । তাঁর মূল অন্তর্দৃষ্টিগুলি হ'ল:

  1. একটি "সনাক্তযোগ্য" সিকোয়েন্সগুলির একটি সহজেই সনাক্তযোগ্য, তুলনামূলকভাবে ছোট সেট রয়েছে যা প্রায়শই প্রবাহে অপ্রয়োজনীয়ভাবে দেখায়।
  2. সিকোয়েন্সের এই "টিপিক্যাল সেট" অর্পণ করলে সংক্ষিপ্ততম এনকোডিংগুলি সর্বোত্তম দক্ষ এনকোডিং দেয় (asympotically, যেহেতু স্রোতের আউটপুট নির্বিচারে দীর্ঘ বৃদ্ধি পায়)।

শ্যানন আবিষ্কার করেছেন এমন সাধারণ সেটটি যথাযথভাবে এমন ক্রমগুলির সাথে রচিত যাঁর নিজের তথ্য বা "অবাক করা-নেস", নিজের তথ্য হিসাবে একই স্রোতের উত্স বন্টনের জন্য গড়ে প্রত্যাশিত হয়েছিল । এই ধরণের ক্রমগুলি এই অর্থে "সাধারণ" যে তাদের তথ্যগুলি প্রায় গড়, তবে এই সংজ্ঞাটি স্পষ্টতই সেই অনুক্রমগুলিকে বাদ দেয় যেগুলির গড়ের তুলনায় উল্লেখযোগ্যভাবে কম তথ্য রয়েছে। এই কম তথ্যবহুল ক্রমগুলিও সবচেয়ে সম্ভাব্য।

ওপি নোট হিসাবে, এটি স্বজ্ঞাতভাবে আবেদনযোগ্য নয়! এটির মুখের দিকে, টিপিক্যাল সেটটি মনে হয় যে এটিতে কিছু প্রান্তিক অবধি সমস্ত সম্ভাব্য সিকোয়েন্স থাকা উচিত। এটি সাধারণত স্ট্রিমে যা দেখা যায় তার প্রতিনিধিত্ব করবে।

তবে শ্যানন সর্বাধিক "আদর্শ" সম্ভাব্য টিপিকাল সেটটি চাননি; তিনি এমন একটি চেয়েছিলেন যার ফলে তিনি যে ফলাফলটি প্রমাণ করতে চেয়েছিলেন তা প্রমাণ করা সহজ হয়েছিল। শ্যানন দ্বারা সংজ্ঞায়িত আদর্শ সেটটির নিশ্চয়তা রয়েছে, এটি ছোট হওয়ার গ্যারান্টিযুক্ত, এবং এটি যে উত্তর হিসাবে আপনি প্রস্তাব করতে পারেন সে হিসাবে এটি যতটা ছোট তার গ্যারান্টিযুক্ত উল্লেখ করেছে। সর্বাধিক সম্ভাব্য উপাদানগুলি যুক্ত করা সেটটিকে আরও বেশি সম্ভাবনা দেয় যা ভাল তবে এটি সেটটি আরও বড় করে তোলে যা খারাপ। আপনার যত্ন নেওয়া সমস্ত কিছু যদি আপনার প্রমাণ হয়ে যায়, তবে কেন ভাঙা হয়নি তা স্থির করবেন?

শ্যাননের চেয়ে আপনার যদি আলাদা উদ্দেশ্য থাকে তবে আপনার পছন্দ সম্পর্কিত পছন্দটি ধারণাটিও আলাদা হতে পারে। উদাহরণস্বরূপ, হাফম্যান কোডিংয়ে সর্বাধিক সম্ভাব্য চিহ্ন (বা প্রতীক ক্রম) সবচেয়ে সংক্ষিপ্ত কোডগুলি পায়। একটি নির্দিষ্ট প্রযুক্তিগত দিক থেকে, হাফম্যান কোডিং হ'ল শ্যাননের মূল সমস্যার সর্বোত্তম সমাধান এবং এটি সাধারণত বৈশিষ্ট্য সম্পর্কে আমাদের অন্তর্নিহিতাকে আরও ভালভাবে ধারণ করে। অন্যদিকে, শাননের বৈশিষ্ট্যটির সংজ্ঞা জিনিস প্রমাণ করার জন্য আরও সুবিধাজনক।


1
অন্তর্দৃষ্টি এবং সংজ্ঞা মধ্যবর্তী ব্যবধানকে সুরাহা করে একটি কাজের পক্ষে দুর্দান্ত যুক্তি এবং কাজগুলি ভালভাবে সম্পন্ন করেছেন। আমি বলব যে প্রতিদিনের জীবন থেকে একটি ভাষার ঘাটতির কারণেই এই বৈষম্য ঘটে, যেখানে সাধারণত এবং গড় সাধারণত একই জিনিস বোঝায়, তবে পরিসংখ্যানের বিচারে, সাধারণত (সম্ভাবনার দিক থেকে অর্থাত্ মোডে) সাধারণত গড়ের মতো হয় না , অর্থাত্ প্রত্যাশিত মান।
এমিল

একটি প্রশ্ন যদিও আপনি যখন বলছেন যে সংজ্ঞাটি "ধারাবাহিকভাবে গড়ের তুলনায় উল্লেখযোগ্যভাবে কম তথ্য" বাদ দিয়েছে সেগুলি নীচে এবং উপরের সীমানা যথাক্রমে "উল্লেখযোগ্যভাবে কম বা বেশি" হওয়া উচিত নয় এইচ(এক্স)-ε এবং এইচ(এক্স)+ +ε?
এমিল

@ এমিল, আমি ধরে নিই যে লেখক এটি এভাবে বলেছেন, কারণ আমরা সকলেই একমত হয়েছি যে আরও কিছু তথ্য (কম সম্ভাব্য) থাকার সিকোয়েন্সগুলি সাধারণ সেটে অন্তর্ভুক্ত করা উচিত নয়।
tomwesolowski

1

একটি সাধারণ সেটের ধারণা ফলাফলের সিকোয়েন্সগুলি স্পষ্টভাবে মাল্টিসেট হিসাবে বিবেচনা করে, যেমন এটি ধরে নিয়েছে যে আপনি কেবল প্রতিটি অনুক্রমের হিস্টোগ্রামের বিষয়ে যত্ন নিচ্ছেন, যেমন আপনি 7 টি মাথা এবং 3 টি লেজযুক্ত সমস্ত 10 কয়েন টস ক্রমকে সমতুল্য মনে করেন।

আপনি একটি খুব পক্ষপাতমূলক মুদ্রা আছে কল্পনা করুন, বলুন পি(এইচ)=.9। এটি কেবল দ্বিপদী বিতরণ। সর্বাধিক সম্ভাব্য 100-টস সিকোয়েন্সটি 100 মাথা, তবে কেবল 1 100 টি শৃঙ্খলা রয়েছে। এখানে আরও অনেক সিকোয়েন্স রয়েছে যা 10 টি টেল ধারণ করে তবে স্বতন্ত্রভাবে এগুলি খুব কম সম্ভাব্য। সর্বাধিক সংখ্যার সিকোয়েন্সগুলি অর্ধেক মাথা এবং অর্ধেক পুচ্ছ সহ, তবে এগুলি আরও কম সম্ভাব্য। সুতরাং পৃথক সিকোয়েন্সগুলির সম্ভাবনা এবং একটি শ্রেণিতে সমতুল্য ক্রমের সংখ্যাগুলির মধ্যে একটি উত্তেজনা রয়েছে। সিকোয়েন্সগুলির ফ্রিকোয়েন্সিগুলি সম্ভাবনার সাথে মিলে গেলে সর্বাধিক সম্ভাবনা পৌঁছে যায়।

গুরুত্বপূর্ণ ফলটি হ'ল যথেষ্ট দীর্ঘ ক্রমগুলির জন্য প্রায় সমস্ত নমুনাযুক্ত সিকোয়েন্সগুলি নির্বিচারে প্রত্যাশিত ফ্রিকোয়েন্সিগুলির কাছাকাছি থাকবে, অর্থাত ক্রম বৃদ্ধি হিসাবে বিবেচিত হিসাবে বিতরণটি চূড়ান্ত হয়ে যায়।

যেমন পালন করা 105 এর টাস সিকোয়েন্স পি(এইচ)=.9 মুদ্রা সঙ্গে সিকোয়েন্স পাবেন 104+ +/-300 লেজগুলি 99% সময় যেহেতু একটি সিকুন্সে লেজের সংখ্যার উপর স্ট্যান্ডার্ড বিচ্যুতিটি প্রায় 100 হয় all সর্বাধিক সম্ভাব্য নির্দিষ্ট ক্রম সত্ত্বেও সমস্ত মাথাগুলির সম্ভাবনা নগণ্য।

সাধারণ সেটটি এই ধারণাটির তাত্ত্বিকভাবে সংজ্ঞায়িত সংস্করণ, আরও সাধারণ।


0

এই বক্তৃতাটিতে উপপাদ্য 6.৩ অনুসারে নোটগুলি গুরুত্বপূর্ণ নয় যদি আমরা সর্বাধিক সম্ভাবনার সাথে সিকোয়েন্সগুলির উপসেট গ্রহণ করি বা যারা সম্ভবত সম্ভাব্যতার সাথে থাকে2-এনএইচ(এক্স) (সাধারণ সেট থেকে) আমাদের প্রায় নিতে হবে 2এনএইচনিশ্চিত হয়ে নিন যে নির্বাচিত সাবসেটটিতে উচ্চ সম্ভাবনার সাথে এলোমেলো ক্রম রয়েছে। আমরা সাধারণত সাধারণত সেট উপাদানগুলি গ্রহণ করি, কারণ আমরা এর আকার আরও সহজেই বেঁধে রাখতে পারি।


1
আপনি কীভাবে ব্যাখ্যা করতে পারেন যে এটি কীভাবে "সাধারণ সেটের স্বজ্ঞাত সংজ্ঞা" র জন্য অনুরোধটিকে সম্বোধন করে?
শুক্র

আমি নিশ্চিত নই, তবে এর অর্থ সম্বোধন করার অর্থ "তবে, আমি এটি পড়েছি, সাধারণত, সর্বাধিক সম্ভাব্য ক্রমটি আদর্শ সেটটির সাথে সম্পর্কিত নয় This এটি আমাকে বড় সময় বিভ্রান্ত করেছিল" " প্রশ্নের অংশ :)
tomwesolowski
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.