অ্যালগরিদমিক তথ্য তত্ত্বের "তথ্য" এবং "দরকারী তথ্য" এর মধ্যে পার্থক্য


16

উইকিপিডিয়া অনুসারে :

অনানুষ্ঠানিকভাবে, অ্যালগরিদমিক তথ্য তত্ত্বের দৃষ্টিকোণ থেকে, একটি স্ট্রিংয়ের তথ্য বিষয়বস্তু সেই স্ট্রিংয়ের সংক্ষিপ্ততম স্ব-অন্তর্ভুক্ত প্রতিনিধিত্বের দৈর্ঘ্যের সমান।

"দরকারী তথ্য" এর আনুষাঙ্গিক অনানুষ্ঠানিক কঠোর সংজ্ঞাটি কী? "দরকারী তথ্য" কেন আরও প্রাকৃতিক বা বেশি মৌলিক ধারণা হিসাবে নেওয়া হয় না; নির্লজ্জভাবে মনে হয় সংজ্ঞা অনুসারে এটি একটি সম্পূর্ণরূপে এলোমেলো স্ট্রিংয়ে শূন্য তথ্য থাকতে পারে, তাই আমি আমার মাথাটি এমনভাবে গড়তে চাইছি যে এটি স্ট্যান্ডার্ড সংজ্ঞা দ্বারা সর্বাধিক তথ্য রয়েছে বলে মনে করা হয়।


2
স্বাগত! দয়া করে মনে রাখবেন যে আপনি যখন নিয়মিত দর্শনার্থী হয়ে উঠেন তখন লোকেরা আপনাকে চিনতে পারে এমন কিছুতে আপনি আপনার ব্যবহারকারীর নামটি পরিবর্তন করতে পারেন।
রাফায়েল

উত্তর:


12

এখানে কেন্দ্রীয় ধারণাটি হ'ল কোলমোগোরভ জটিলতা এবং আরও নির্দিষ্টভাবে সংকোচনের । Compressibility একটি স্বজ্ঞামূলক অনুভূতি পেতে, দুটি স্ট্রিং বিবেচনা এবং , যেখানে । দিন B BB = { 0 , 1 }ABBBB={0,1}

1010 1010 1010A=1010 1010 1010 1010 , এবং

0110 0111 1001B=1011 0110 0111 1001

নোট করুন । বা কতটা তথ্য রয়েছে তা আমরা কীভাবে প্রমাণ করতে পারি ? আমরা যদি শাস্ত্রীয় তথ্য তত্ত্ব সম্পর্কে ভাবি, সাধারণভাবে, দৈর্ঘ্যের এর একটি স্ট্রিং প্রেরণ করতে গড়ে বিট লাগে । তবে আমরা বলতে পারি না কতগুলি বিট আমরা একটি প্রেরণ করতে প্রয়োজন নির্দিষ্ট দৈর্ঘ্যের স্ট্রিং ।বি এন এন এন|A|=|B|=16ABnnn

কেন এলোমেলো স্ট্রিংয়ের তথ্য সামগ্রী শূন্য নয়?

কাছাকাছি চেহারাতে, আমরা দেখতে পারি বাস্তবে । যাইহোক, এটা অনেক বেশি কঠিন যদি বলতে হয় এর পরিকাঠামো যে কোন সুস্পষ্ট নিদর্শন আছে, অন্তত এটা মনে হয় এবং মতানুযায়ী চেয়ে বেশি র্যান্ডম । যেহেতু আমরা একটি প্যাটার্ন খুঁজে পেতে পারেন , আমরা সহজেই কম্প্রেস করতে পারেন এবং কম সঙ্গে এটি প্রতিনিধিত্ব বিট। তেমনি, যেহেতু কোনও নিদর্শন সনাক্ত করা সহজ নয় , তাই আমরা এটিকে এতটা সংকোচ করতে পারি না। সুতরাং আমরা বলতে পারি যে কাছে চেয়ে বেশি তথ্য রয়েছে । তদুপরি, দৈর্ঘ্যের একটি এলোমেলো স্ট্রিং বি 16 বি বি এন এনA=108BAAA16BBAnসর্বাধিক তথ্য রয়েছে যেহেতু কোনও উপায় নেই যে আমরা এটি সংকোচন করতে পারি, এবং তাই এটি কম বিট দিয়ে উপস্থাপন করে ।n

তাহলে দরকারী তথ্য কি?

জন্য দরকারী তথ্য , হ্যাঁ, একটা টুরিং মেশিন ব্যবহার করে একটি সংজ্ঞা নেই । দরকারী তথ্য হয়x বিTxB

minT { l(T)+C(x|T):T{T0,T1,...}},

যেখানে একটি টুরিং মেশিন জন্য স্ব-সীমাবদ্ধ এনকোডিংয়ের দৈর্ঘ্য বোঝায় । স্বরলিপিটি সাধারণত এমন হয় যে এবং কোলমোগোরভ জটিলতা বোঝায় প্রদত্ত এর শর্তসাপেক্ষে কোলমোগোরভ জটিলতা ।l(T)TC(x)xC(x|y)xy

এখানে মধ্যে থাকা দরকারী তথ্যের পরিমাণকে মূর্ত করে । আমরা যা চাইতে পারি তা হ'ল প্রয়োজনীয়তাকে সন্তুষ্টকারীদের মধ্যে এই জাতীয় নির্বাচন করা। সমস্যাটি হ'ল একটি সংক্ষিপ্ততম প্রোগ্রাম অংশগুলিতে st আলাদা করে একটি উপযুক্ত । এটি আসলে খুব ধারণা যা ন্যূনতম বিবরণ দৈর্ঘ্য (এমডিএল) তৈরি করেছিলTxTxx=pqpT


4

এটি হতে পারে কারণ "দরকারী" সংজ্ঞা দেওয়া শক্ত। আমরা একটি অত্যন্ত কাঠামোবদ্ধ, তথ্য সমৃদ্ধ বার্তা আছে বলুন একটি গুণক দ্বারা সর্বাধিক সংকুচিত করা যেতে পারে α বার্তার Y । স্বজ্ঞাতভাবে, x এবং y তে একই পরিমাণে দরকারী দরকারী তথ্য রয়েছে; প্রকৃতপক্ষে, তারা সাধারণ সংজ্ঞা অনুযায়ী একই পরিমাণে তথ্য ধারণ করে। এখন একটি উপসর্গ কল্পনা z- র এর এক্স হিসাবে একই দৈর্ঘ্যের Y ; এতে x এর চেয়ে বেশি দরকারী তথ্য থাকা উচিত নয় , তাই y এর চেয়ে বেশি নয় । যাইহোক, Y আরো "র্যান্ডম" চেয়ে z- র , যেহেতু z- রxαyxyzxyxyyzzসংকুচিত করা যেতে পারে এবং করতে পারেন না। সুতরাং আমরা যদি "দরকারী" তথ্যকে সংকোচনের সাথে সংযুক্ত করার চেষ্টা করি, তবে আমরা নিম্নলিখিত প্যারাডক্সে চলে যেতে পারি: একটি বার্তার উপসর্গটিতে পুরো বার্তার চেয়ে উচ্চতর "দরকারী" তথ্য থাকতে পারে, আপাতদৃষ্টিতে একটি বৈপরীত্য বলে মনে হয়।y


এটি সংজ্ঞায়িত করা শক্ত হতে পারে এবং এটি এমনও হতে পারে যে "তথ্য" যেভাবে সংকোচনের উপর তুচ্ছভাবে নির্ভর করতে পারে না, তবে এটি আরও গুরুত্বপূর্ণ সংজ্ঞা বলে মনে হয়! যেমনটি দাঁড়িয়েছে, "তথ্য" হ'ল "কোলমোগোরভ জটিলতা" এর একটি উপন্যাস বলে মনে হয়, বরং সাধারণ অর্থে তথ্য সংজ্ঞায়নের গুরুতর প্রয়াসের চেয়ে, যা অন্যান্য প্রসঙ্গে, সংজ্ঞা অনুসারে, কার্যকর হতে হবে! এটি কি গবেষণার একটি সক্রিয় ক্ষেত্র? কোন প্রস্তাবিত সংজ্ঞা আছে?
ব্যবহারকারী 1247

@ ব্যবহারকারী 1247 কেন আপনি কোলমোগোরভ জটিলতা গুরুতর হিসাবে দেখছেন না ?
জুহো

@ এমআরএম আমি এটিকে একটি অত্যন্ত গুরুতর এবং আকর্ষণীয় ধারণা হিসাবে দেখছি তবে আমি এই ধারণাটিকে "তথ্য" বলে অস্বস্তি করছি। সম্পূর্ণ র্যান্ডম স্ট্রিংয়ের তথ্য অন্তর্ভুক্ত করার অর্থ কী? উদাহরণস্বরূপ, তথ্য প্রেরণ বা প্রাপ্ত হওয়ার বিষয়ে দার্শনিক বা কোয়ান্টাম যান্ত্রিক আলোচনায় বাস্তব বিশ্বে তথ্য (যেখানে "দরকারী" অন্তর্নিহিত) আলোচনা করার ক্ষেত্রে "দরকারী তথ্য" আরও প্রয়োগযোগ্য এবং আকর্ষণীয় বলে মনে হয়।
ব্যবহারকারী 1247

1
@ ব্যবহারকারী 1247 আমার উত্তরটি ব্যাখ্যা করার একটি আকর্ষণীয় উপায় হ'ল: এটি কীভাবে ব্যাখ্যা করা হয় তার ভিত্তিতে তথ্য কেবল দরকারী বা অকেজো। একটি নির্দিষ্ট ব্যাখ্যার জন্য, একটি বার্তায় অন্যের চেয়ে কম বা বেশি দরকারী তথ্য থাকতে পারে। দরকারী তথ্যের যে কোনও তত্ত্ব, আমার মতে, এই জাতীয় ব্যাখ্যার বিষয়টি বিবেচনায় নেওয়ার প্রয়োজন হবে (এনট্রপির মতো নিয়মিত ব্যবস্থাও এগুলি করে, নিখুঁতভাবে হলেও)।
প্যাট্রিক 87

@ প্যাট্রিক 87 I আমি সম্পূর্ণরূপে একমত যে "দরকারী তথ্য" এর যে কোনও ভাল তত্ত্ব ডিক্রিপশন প্রক্রিয়াটি বিবেচনায় নেওয়া উচিত। এটাই এটিকে আকর্ষণীয় সমস্যা করে তোলে! আপনি যদি আমাকে কিছুটা স্ট্রিং প্রেরণ করেন এবং নীতিগতভাবে আমি এটি ডিক্রিপ্ট করতে পারি না, তবে কোনও কার্যকর তথ্য না থাকার জন্য এটি সংজ্ঞায়িত করা উচিত।
ব্যবহারকারী 1247

4

কিছুটা আনুষ্ঠানিক দৃষ্টিকোণ থেকে, আমি মনে করি আপনি যদি "এলোমেলো" শব্দটি থেকে নিজেকে আলাদা করেন তবে আপনি এটি সঠিক হতে পারেন যেহেতু আপনি ঠিক বলেছেন যে সত্যিকারের এলোমেলো বিটের একটি সেট ব্যবহারিক অর্থে কোনও তথ্য সংরক্ষণ করে না। (যদি আমি নামের একটি সেট এনক্রিপ্ট করে এবং আপনার কাছে এনক্রিপ্ট করা মানগুলি প্রেরণ করি তবে তাদের মধ্যে খুব উচ্চতর কলমোগোরভ জটিলতা থাকতে পারে তবে এটি আপনাকে নামগুলি বের করতে সহায়তা করবে না)।

তবে এটি সম্পর্কে এইভাবে চিন্তা করুন। আপনি যদি কোনও বিদেশী ভাষায় কোনও ওয়েবসাইট দেখতে পান (সুইডিশ বলুন, ধরে নিচ্ছেন যে আপনি এটি বলছেন না) এটি কম-বেশি এলোমেলো দেখাচ্ছে। শব্দের কিছু অর্ডার থাকবে তবে খুব বেশি নয়। তবে, আপনি যদি এমন কোনও ওয়েবপৃষ্ঠায় টেক্সট সহ দেখতে পান যা: 123456123456123456123456 ... এবং এর মতো হয় তবে আপনি এটি আরও দ্রুত বুঝতে সক্ষম হবেন। আপনি যদি সুইডিশ না বলতে পারেন তবে আপনি সম্ভবত এটি থেকে আরও অনেক কিছু অর্জন করতে সক্ষম হবেন, এমনকি সুইডিশ ওয়েবপৃষ্ঠাটি "প্রথম ছয় সংখ্যার ধারাবাহিকভাবে পুনরাবৃত্তি" সমতুল্য বলে থাকলেও। ওয়েবসাইটগুলিতে একই তথ্য রয়েছে তবে একটি আপনাকে এলোমেলো দেখায়। এবং জায়গার পরিমাণের জন্য, আপনি যেটি বোঝেন সেটি হ'ল সুইডিশ ওয়েবপৃষ্ঠার চেয়ে কম দক্ষ, যদিও এটি একই তথ্য সঞ্চয় করে। আপনি এই তথ্যটি "দরকারী" হিসাবে খুঁজে পাবেন না কারণ এটি '

"তথ্য" ধারণার অর্থ সর্বজনীন হতে পারে, সুতরাং যা এলোমেলো দেখাচ্ছে - এবং তাই অকেজো - আপনার কাছে বিটগুলি অন্য কারও কাছে প্রচুর পরিমাণে তথ্য সঞ্চয় করতে পারে। তথ্যের পরিমাপ স্ট্রিংয়ের অভ্যন্তরীণ সম্পত্তি হিসাবে লক্ষ্য করা যায়, এবং এটি আপনাকে বোঝায় না এবং কী বোঝায় না এবং আপনি কী ব্যাখ্যা করতে পারবেন এবং কী করতে পারবেন না তার উপর নির্ভর করতে পারে না।

আরেকটি (আরও প্রযুক্তিগত) পয়েন্ট যা আপনাকে সাহায্য করতে পারে তা হ'ল আমি এখানে কিছুটা স্বচ্ছ হতে চলেছি। Juho দেখায় যে তথ্য নেইকে এটি ব্যাখ্যা করছে তার তুলনায় সংজ্ঞায়িত। আপনি তথ্যের বাহন হিসাবে সুইডিশ ওয়েবপৃষ্ঠাকে সম্পূর্ণ অকেজো বলে মনে করতে পারেন, তবে যে কেউ সুইডিশ ভাষায় কথা বলতে পারেন তার কাছে প্রচুর পরিমাণে তথ্য থাকতে পারে। সংজ্ঞা এটি প্রতিফলিত করে। তবে, গণিত থেকে আমরা শিখতে পারি যে এই ওয়েবসাইটটি আপনার কাছে যোগাযোগ করার জন্য সংক্ষিপ্ততম (স্থানের জন্য সর্বাধিক তথ্যপূর্ণ) ওয়েবপৃষ্ঠার মধ্যে পার্থক্য এবং যে সুইডিশ ভাষায় কথা বলে এমন ব্যক্তির সাথে যোগাযোগ করতে পারে এমন সংক্ষিপ্ততম ওয়েবপৃষ্ঠা কেবল একটি সংযোজক ধ্রুবক দ্বারা পৃথক হতে পারে। কেন? কারণ আপনার জন্য, অ-সুইডিশ স্পিকার হিসাবে, পৃষ্ঠাটি যে আপনি বুঝতে পারবেন তা সংরক্ষণ করার সবচেয়ে সংক্ষিপ্ততম উপায়টি হল "প্রথম ছয়টি পূর্ণসংখ্যার ধারাবাহিকভাবে পুনরাবৃত্তি করা।" এটি সুইডিশদের চেয়ে বেশ খানিকটা দীর্ঘ হতে পারে।

(Most efficient representation of information in English)(Most efficient representation in Swedish)+(Length of Swedish-English dictionary)
। এটি আপনার আসল প্রশ্নটি থেকে কিছুটা অফ-টপিক পাচ্ছে, তবে আমি যে বিষয়টি তৈরি করার চেষ্টা করছি তা হ'ল তথ্যটি কী পড়ছে তা খুব বেশি গুরুত্ব দেয় না। এলোমেলো চেহারার সুইডিশ ওয়েবপৃষ্ঠাটি আপনার পক্ষে "দরকারী" ছিল না, তবে এটি অন্য কারও কাছে "দরকারী" এবং আপনি নিজেই এটি ব্যবহার করতে সক্ষম হতে অবিচ্ছিন্ন তথ্যই দূরে রাখছেন।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.