2 ডি বাইনারি ম্যাট্রিক্সের এনট্রপি / তথ্য / নিদর্শনগুলি পরিমাপ


53

আমি দ্বি-মাত্রিক বাইনারি ম্যাট্রিক্সের এনট্রপি / তথ্য ঘনত্ব / প্যাটার্ন-অনুরূপ পরিমাপ করতে চাই। স্পষ্টতার জন্য আমাকে কিছু ছবি দেখাতে দাও:

এই প্রদর্শন একটি বরং উচ্চ এনট্রপি থাকতে হবে:

ক)

এখানে চিত্র বর্ণনা লিখুন

এর মাঝারি এনট্রপি থাকা উচিত:

B ইংরেজী বর্ণমালার দ্বিতীয় অক্ষর)

এখানে চিত্র বর্ণনা লিখুন

এই ছবিগুলি, শেষ অবধি, সকলের কাছে শূন্য-এনট্রপি থাকা উচিত:

সি)

এখানে চিত্র বর্ণনা লিখুন

ডি)

এখানে চিত্র বর্ণনা লিখুন

ই)

এখানে চিত্র বর্ণনা লিখুন

এমন কিছু সূচক রয়েছে যা এন্ট্রপি, রেসটিকে ক্যাপচার করে। এই প্রদর্শনগুলির "প্যাটার্ন-সদৃশতা"?

অবশ্যই, প্রতিটি অ্যালগরিদম (যেমন, সংক্ষেপণ অ্যালগরিদম; বা ttnphns দ্বারা প্রস্তাবিত ঘূর্ণন অ্যালগরিদম ) ডিসপ্লেটির অন্যান্য বৈশিষ্ট্যগুলির সংবেদনশীল। আমি একটি অ্যালগরিদম খুঁজছি যা নিম্নলিখিত বৈশিষ্ট্যগুলি ক্যাপচার করার চেষ্টা করে:

  • ঘূর্ণমান এবং অক্ষীয় প্রতিসাম্য
  • ক্লাস্টারিংয়ের পরিমাণ
  • repetitions

আরও জটিল হতে পারে, অ্যালগরিদটি মনস্তাত্ত্বিক " গেস্টাল্ট নীতি " এর বৈশিষ্ট্যগুলির প্রতি সংবেদনশীল হতে পারে , বিশেষত:

  • নৈকট্য আইন: নৈকট্য আইন
  • প্রতিসমের আইন: প্রতিসম চিত্রগুলি সম্মিলিতভাবে বোঝা যায় এমনকি দূরত্ব সত্ত্বেও:প্রতিসাম্য

এই বৈশিষ্ট্যগুলির সাথে প্রদর্শনগুলির জন্য "লো এনট্রপি মান" অর্পণ করা উচিত; বরং এলোমেলো / অব্যাহত বিন্দু সহ প্রদর্শনগুলি একটি "উচ্চ এনট্রপি মান" অর্পণ করা উচিত।

আমি সচেতন যে সম্ভবত কোনও একক অ্যালগরিদম এই সমস্ত বৈশিষ্ট্য ক্যাপচার করবে না; সুতরাং শুধুমাত্র কিছু বা এমনকি একটি একক বৈশিষ্ট্য সম্বোধনকারী অ্যালগরিদমের জন্য পরামর্শগুলিও অত্যন্ত স্বাগত।

বিশেষত, আমি কংক্রিট, বিদ্যমান অ্যালগরিদম বা নির্দিষ্ট, বাস্তবায়িত ধারণার জন্য খুঁজছি (এবং আমি এই মানদণ্ড অনুসারে অনুগ্রহ প্রদান করব)।


কুল প্রশ্ন! যদিও আমি জিজ্ঞাসা করতে পারি, কোন একক পরিমাপের জন্য কী প্রেরণা দেয়? আপনার মুখের তিনটি বৈশিষ্ট্য (প্রতিসাম্য, গুচ্ছকর এবং পুনরাবৃত্তি) পৃথক ব্যবস্থা গ্রহণের জন্য যথেষ্ট স্বাধীন বলে মনে হচ্ছে।
অ্যান্ডি ডাব্লু

এখনও অবধি আমি কিছুটা সিষ্টিক যে আপনি একটি সর্বজনীন আলগো খুঁজে পেতে পারেন যা জিস্টাল নীতি প্রয়োগ করে। পরেরটি মূলত পূর্ব-বিদ্যমান প্রোটোটাইপগুলির স্বীকৃতির উপর ভিত্তি করে। আপনার মনের এগুলি থাকতে পারে তবে আপনার কম্পিউটারে তা নাও থাকতে পারে।
ttnphns

আমি আপনার উভয়ের সাথে একমত আসলে আমি কোনও একক অ্যালগরিদম খুঁজছিলাম না - যদিও আমার পূর্ববর্তী শব্দাবলীর দ্বারা এটি সত্যিই প্রস্তাবিত হয়েছিল। একক বৈশিষ্ট্যের জন্য স্পষ্টভাবে অ্যালগরিদমগুলিকে অনুমতি দেওয়ার জন্য আমি প্রশ্নটি আপডেট করেছি। একাধিক অ্যালগোসের আউটপুট একত্রিত করার বিষয়েও কারও ধারনা রয়েছে (উদাহরণস্বরূপ, "সর্বদা সর্বনিম্ন আলগোসের সেটটির মান নিবেন")
ফেলিক্স এস

1
অনুগ্রহ শেষ । সমস্ত অবদানকারী এবং চমৎকার ধারণা ধন্যবাদ! এই অনুগ্রহটি আকর্ষণীয় পদ্ধতির একটি গোছা তৈরি করেছে। বেশ কয়েকটি উত্তরে মস্তিষ্কের প্রচুর পরিমাণে কাজ থাকে এবং কখনও কখনও এটি একটি মমতা হয় যে অনুদানগুলি বিভাজন করা যায় না। অবশেষে, আমি @Whuber কে এই অনুদান প্রদান করার সিদ্ধান্ত নিয়েছিলাম, কারণ তার সমাধানটি হল আলগোরিদম যা আমার কাছে এটির বৈশিষ্ট্যগুলি সম্পর্কে সবচেয়ে বেশি বিস্তৃত বলে মনে হয়েছিল এবং এটি কার্যকর করা সহজ। আমি এটি প্রশংসা করি যে এটি আমার দৃ was় উদাহরণগুলিতে প্রয়োগ হয়েছিল। আমার "স্বজ্ঞাত র‌্যাঙ্কিং" এর সঠিক ক্রমে সংখ্যা নির্ধারণের দক্ষতাটি সবচেয়ে চিত্তাকর্ষক। ধন্যবাদ, এফ
ফেলিক্স এস

উত্তর:


35

মনস্তাত্ত্বিক এবং জ্যামিতিক উপাদানগুলি সহ সমস্ত অন্তর্দৃষ্টি ক্যাপচার করে এমন একটি সহজ পদ্ধতি রয়েছে। এটি স্থানিক সান্নিধ্য ব্যবহারের উপর নির্ভর করে যা আমাদের উপলব্ধির ভিত্তি এবং যা কেবলমাত্র অসম্পূর্ণভাবে প্রতিসাম্য দ্বারা পরিমাপ করা হয় তা ক্যাপচার করার জন্য একটি অভ্যন্তরীণ উপায় সরবরাহ করে।

এটি করার জন্য, আমাদের স্থানীয় স্কেলের বিভিন্ন ক্ষেত্রে এই অ্যারেগুলির "জটিলতা" পরিমাপ করতে হবে। যদিও আমরা সেই স্কেলগুলি বেছে নেওয়ার এবং যে অর্থে আমরা "নৈকট্য" পরিমাপ করি তা চয়ন করার জন্য আমাদের অনেকটা নমনীয়তা রয়েছে তবে ছোট বর্গাকার পাড়া ব্যবহার করার জন্য এবং এগুলির মধ্যে গড় (বা সমতুল্য, অঙ্কগুলি) দেখার পক্ষে এটি যথেষ্ট সহজ এবং কার্যকর। এই শেষ, অ্যারে একটি ক্রম কোন থেকে আহরিত হতে পারে দ্বারা অ্যারে ব্যবহার চলমান আশপাশ অঙ্কের বিরচন দ্বারা দ্বারা এলাকাগুলোর, তারপর দ্বারা ,, ইত্যাদি পর্যন্ত দ্বারা (যদিও ততক্ষণে নির্ভরযোগ্য কিছু সরবরাহের জন্য খুব কম মান থাকে)।mnk=2233min(n,m)min(n,m)

এটি কীভাবে কাজ করে তা দেখতে, আসুন প্রশ্নের মধ্যে অ্যারেগুলির জন্য গণনাগুলি করি, যা আমি মাধ্যমে উপরে থেকে নীচে কল করব । এখানে ( আসল অ্যারে অবশ্যই) এর জন্য অঙ্কের প্লটগুলি রয়েছে প্রয়োগ করা হয়েছে ।a1a5k=1,2,3,4k=1a1

চিত্র 1

উপরের বাম দিক থেকে ক্লকওয়াইজ, সমান , , এবং । অ্যারে হয় দ্বারা , তারপর দ্বারা , দ্বারা এবং দ্বারা যথাক্রমে। এঁদের সবাই দেখতে এলোমেলো "এলোমেলো"। আসুন তাদের বেস -২ এন্ট্রপি দিয়ে এলোমেলোতা পরিমাপ করি। জন্য , এই entropies এর ক্রম । আসুন এটিকে এর "প্রোফাইল" বলুন ।k124355442233a1(0.97,0.99,0.92,1.5)a1

বিপরীতে, এখানে চলমান :a4

চিত্র ২

জন্য সামান্য প্রকরণ, কম এনট্রপি কোথা হয়। প্রোফাইলটি । এর মানগুলি এর মানগুলির তুলনায় ধারাবাহিকভাবে কম , এটি স্বজ্ঞাত জ্ঞানকে নিশ্চিত করে যে মধ্যে একটি শক্তিশালী "প্যাটার্ন" রয়েছে ।k=2,3,4(1.00,0,0.99,0)a1a4

এই প্রোফাইলগুলি ব্যাখ্যা করার জন্য আমাদের রেফারেন্সের একটি ফ্রেম দরকার। বাইনারি মূল্যবোধের পুরোপুরি র্যান্ডম অ্যারের প্রায় অর্ধেক তার মান সমান হবে এবং বাকী অর্ধেক সমান একজন এনট্রপি জন্য, । মধ্যে চলন্ত অঙ্কের দ্বারা এলাকাগুলোর তাদের আন্দাজের entropies দান (অন্তত বৃহৎ অ্যারে জন্য) যে আনুমানিক করা যেতে পারে, দ্বিপদ ডিস্ট্রিবিউশন আছে সাহায্য করে :011kk1+log2(k)

এন্ট্রপি প্লট

এই ফলাফলগুলি পর্যন্ত অ্যারে সহ সিমুলেশন দ্বারা বহন করা হয় । তবে প্রতিবেশী উইন্ডোজগুলির মধ্যে পারস্পরিক সম্পর্কের কারণে (একবার উইন্ডোর আকার অ্যারের প্রায় অর্ধ মাত্রা হয়ে থাকে) এবং অল্প পরিমাণে ডেটার কারণে তারা ছোট অ্যারেগুলিতে বিভক্ত হয় (যেমন এখানে দ্বারা অ্যারে)। এখানে কিছু বাস্তব প্রোফাইলের প্লট সহ সিমুলেশন দ্বারা উত্পাদিত এলোমেলো বাই অ্যারের রেফারেন্স প্রোফাইল রয়েছে :m=n=1005555

প্রোফাইল প্লট

এই প্লটে রেফারেন্স প্রোফাইলটি বেশ নীল। অ্যারে প্রোফাইলগুলি : লাল, : স্বর্ণ, : সবুজ, : হালকা নীল। ( অন্তর্ভুক্ত করে ছবিটি অস্পষ্ট করবে কারণ এটি এর প্রোফাইলের নিকটবর্তী )) সামগ্রিক প্রোফাইলগুলি প্রশ্নের সাথে সামঞ্জস্য করে: আপাত ক্রমবর্ধমান ক্রম বৃদ্ধি পাওয়ার সাথে সাথে তারা সর্বাধিক মানকে কমিয়ে দেয়। ব্যতিক্রমটি : শেষ অবধি, , তার চলমান পরিমাণগুলি সর্বনিম্ন এনট্রোপিসের মধ্যে থাকে। এটি একটি আশ্চর্যজনক নিয়মিততা প্রকাশ করে: প্রতি বাই প্রতিবেশীa1a2a3a4a5a4ka1k=422a1 এর ঠিক বা কালো স্কোয়ার রয়েছে, কখনও কখনও কম বা কম হয় না। এটি কেউ মনে করতে পারে তার চেয়ে অনেক কম "এলোমেলো"। (এটি আংশিকভাবে প্রতিটি প্রতিবেশীর মান সংশ্লেষের সাথে সম্পর্কিত তথ্য ক্ষতির কারণে, এমন একটি পদ্ধতি যা সম্ভাব্য প্রতিবেশী কনফিগারেশনগুলিকে কেবল বিভিন্ন সম্ভাব্য পরিমাণে কনডেন্স করে। যদি আমরা সুনির্দিষ্টভাবে অ্যাকাউন্ট করতে চাই ক্লাস্টারিং এবং স্থিতিবিন্যাস প্রতিটি পাড়া মধ্যে, তারপর পরিবর্তে চলমান অঙ্কের ব্যবহারের আমরা concatenations চলন্ত ব্যবহার করেন। যে, প্রতিটি দ্বারা আশপাশ হয়েছে122k2k2+1kk2k2সম্ভাব্য বিভিন্ন কনফিগারেশন; তাদের সকলকে আলাদা করে, আমরা এনট্রপির আরও সূক্ষ্ম পরিমাপ পেতে পারি। আমি সন্দেহ করি যে অন্যান্য চিত্রের তুলনায় এ জাতীয় পদক্ষেপটি এর প্রোফাইলকে উন্নত করবে ))a1

চলমান পাড়া-মহল্লার মধ্যে মানগুলি সংশ্লেষ করে (বা সংযুক্ত করে বা অন্যথায় সংমিশ্রণ করে) আঁশির একটি নিয়ন্ত্রিত পরিসরে এনট্রপিজের প্রোফাইল তৈরির এই কৌশলটি চিত্র বিশ্লেষণে ব্যবহৃত হয়েছে। এটি প্রথমে অক্ষরের একটি সিরিজ হিসাবে পাঠ্য বিশ্লেষণের সুপরিচিত ধারণাটির দ্বি-মাত্রিক জেনারালাইজেশন, তারপরে ডিজিট্রাফ (দ্বি-বর্ণের অনুক্রম) এর ধারাবাহিকতা হিসাবে, তারপর ট্রাইগ্রাফ ইত্যাদির মতোও এর কিছু স্পষ্ট সম্পর্ক রয়েছে ract বিশ্লেষণ (যা সূক্ষ্ম এবং সূক্ষ্ম স্কেলে চিত্রের বৈশিষ্ট্যগুলি অনুসন্ধান করে)। যদি আমরা কোনও ব্লক মুভিং যোগ বা ব্লক কনটেনটেশন (যাতে উইন্ডোর মধ্যে কোনও ওভারল্যাপ থাকে না) ব্যবহার করার জন্য কিছুটা যত্ন নিই তবে একের পর এক এনট্রপিগুলির মধ্যে সহজ গাণিতিক সম্পর্ক অর্জন করা যায়; যাহোক,

বিভিন্ন এক্সটেনশন সম্ভব। উদাহরণস্বরূপ, আবর্তিতভাবে আক্রমণকারী প্রোফাইলের জন্য, বর্গাকারগুলির চেয়ে বৃত্তাকার আশেপাশের অঞ্চলগুলি ব্যবহার করুন। অবশ্যই বাইনারি অ্যারে ছাড়িয়ে সবকিছু জেনারালাইজ করে। পর্যাপ্ত পরিমাণে অ্যারে-সহ স্থিরত্ব সনাক্তকরণের জন্য স্থানীয়ভাবে পৃথক পৃথক এনট্রপি প্রোফাইলগুলিও গণনা করা যায়।

যদি কোনও একক সংখ্যাটি সম্পূর্ণ প্রোফাইলের পরিবর্তে পছন্দসই হয়, তবে সেই স্কেলটি চয়ন করুন যেখানে স্থানিক র্যান্ডম (বা এর অভাব) আগ্রহী। এই উদাহরণগুলিতে, সেই স্কেলটি দ্বারা বা দ্বারা চলন্ত প্রতিবেশীর সাথে সবচেয়ে উপযুক্ত হবে, কারণ তাদের নকশার জন্য তারা সকলেই তিন থেকে পাঁচটি কোষ বিস্তৃত গ্রুপগুলিতে নির্ভর করে (এবং দ্বারা প্রতিবেশী সমস্ত গড়কে পৃথক করে গড়ে গড়ে তোলে অ্যারে এবং তাই অকেজো)। পরের স্কেলে, এর মাধ্যমে , , , , এবং334455a1a51.500.81000 ; এই স্কেলটিতে প্রত্যাশিত এনট্রপি (একরকম এলোমেলো অ্যারের জন্য) হ'ল । এটি এই ন্যায়সঙ্গত করে যে "এর পরিবর্তে উচ্চতর এনট্রপি থাকা উচিত।" এই এন্ট্রপির সাথে আবদ্ধ , এবং পার্থক্য করার জন্য , পরবর্তী সূক্ষ্ম রেজোলিউশনটি দেখুন ( দ্বারা প্রতিবেশী): তাদের এনট্রপগুলি যথাক্রমে , , (যেখানে একটি এলোমেলো গ্রিড আশা করা হচ্ছে মান রয়েছে )) এই ব্যবস্থাগুলি দ্বারা, আসল প্রশ্নটি অ্যারেগুলি ঠিক সঠিক ক্রমে রাখে।1.34a1a3a4a50331.390.990.921.77


আমি দুঃখিত, আপনি কীভাবে আপনার চলমান অঙ্কের প্লট তৈরি করেছিলেন তা আমি বুঝতে পারি না। অনুগ্রহ করে, চলমান সমষ্টিটি কীভাবে গণনা করা যায় তার আরও বিশদে ব্যাখ্যা করুন।
ttnphns

1
@ttnphns এখানে বিষয়ে একটি জনপ্রিয় সচিত্র সাহায্যের পাতা।
হোবার

4
আমি পাইথনের নুমপি এবং ম্যাটপ্ল্লিটিব ব্যবহার করে @ শুভর দ্বারা এই দুর্দান্ত উত্তরের ফলাফলগুলি পুনরুত্পাদন করেছি, এখানে উপলব্ধ: github.com/cosmoharrigan/matrix-entropy
কস্মো হ্যারিগান

(+1 টি) এখানে একটি খুব সাধারণ নীতি আছে: কোনো multiset , সেখানে multiplicities দ্বারা নির্ধারিত সম্ভাব্যতা বিতরণের স্বাভাবিকভাবেই যুক্ত এনট্রপি তার স্বতন্ত্র উপাদানের , যথা , যেখানে এর পৃথক উপাদানগুলির সেট । উদাহরণগুলি বিভিন্ন মাত্রার বিভিন্ন আকারের আকার- পাড়া দ্বারা গঠিত মাল্টিসেটগুলি । (আমি শুধু পোস্ট length- করার জন্য একটি 1D আবেদন সাবস্ট্রিং ।)Mμ(e)ep(e):=μ(e)eSμ(e)  (eS)SMkk
মাঝামাঝি

@ শুভ চমৎকার উত্তর। যদিও এটি স্বজ্ঞাত জ্ঞান তৈরি করে, এমন কোনও নিবন্ধ বা পাঠ্যপুস্তিকা কি এর মূল উত্সের জন্য উদ্ধৃতি দিতে পারে (আমি ধরে নিচ্ছি যে এটি যদি আপনার মূল কাজ হয় তবে আপনি এটি কোনও জার্নালে আনুষ্ঠানিকভাবে প্রকাশ করেছেন)?
subhacom

10

প্রথমত, আমার পরামর্শটি নিখুঁত স্বজ্ঞাত: আমি প্যাটার্ন স্বীকৃতি ক্ষেত্রে কিছুই জানি না। দ্বিতীয়ত, আমার মতো বিকল্প কয়েক ডজন পরামর্শ দেওয়া যেতে পারে।

আমি এই ধারণাটি দিয়ে শুরু করি যে একটি নিয়মিত কনফিগারেশন (এটি হ'ল লো এনট্রপি সহ) কোনওভাবেই প্রতিসাম্যিক, এই বা এর ট্রান্সফরম্যান্টগুলির প্রতিসাম্যযুক্ত হওয়া উচিত। উদাহরণস্বরূপ, আবর্তনগুলিতে।

আসলটির সাথে কনফিগারেশনটি একত্রে না হওয়া পর্যন্ত আপনি আপনার ম্যাট্রিক্সকে (১৮০ ডিগ্রি ইত্যাদির চেয়ে বেশি 90 ডিগ্রি ফ্লিপ করতে পারেন) ঘোরান । এটি সর্বদা 4 টি ঘূর্ণনের (360 ডিগ্রি) উপর একমত হবে, তবে কখনও কখনও এটি পূর্ববর্তী হতে পারে (ছবিতে ম্যাট্রিক্স ই এর মতো)।

প্রতিটি ঘোরার সময়, আসল কনফিগারেশন এবং ঘোরানো একটির মধ্যে অভিন্ন মানযুক্ত কক্ষগুলির সংখ্যা গণনা করুন। উদাহরণস্বরূপ, আপনি যদি ম্যাট্রিক্স এর 90-ডিগ্রি রোটেশনের সাথে তুলনা করেন তবে আপনি 10 টি কোষ আবিষ্কার করতে পারবেন যেখানে একটি ম্যাট্রিক্সে স্পট এবং অন্য ম্যাট্রিক্সে ফাঁকা রয়েছে। তারপরে মূল ম্যাট্রিক্সকে তার 180-ডিগ্রি ঘূর্ণনের সাথে তুলনা করুন: এই জাতীয় 11 টি ঘর পাওয়া যাবে। 10 টি কোষ হ'ল মূল ম্যাট্রিক্স এবং এর 270-ডিগ্রি ঘূর্ণনের মধ্যে পার্থক্য । 10 + 11 + 10 = 31 হ'ল ম্যাট্রিক্স এ এর সামগ্রিক "এনট্রপি" ।

ম্যাট্রিক্স জন্য বি "এনট্রপি" 20, এবং ম্যাট্রিক্স জন্য এটা শুধুমাত্র 12. ম্যাট্রিক্স জন্য হয় সি এবং ডি "এনট্রপি" হয় 0 কারণ ঘুর্ণন 90 ডিগ্রী পর বন্ধ: isomorphism ইতিমধ্যে সাধিত।

এখানে চিত্র বর্ণনা লিখুন


আপনার পরামর্শের জন্য ধন্যবাদ! যদিও আমি বেশ কয়েকটি "সহজ" প্রদর্শনগুলির কথা ভাবতে পারি যা কোনও ঘূর্ণন রূপান্তরের রূপান্তর নয়, এটি একটি দুর্দান্ত এবং সহজ (এবং প্রসারণযোগ্য!) পদ্ধতির। আমি ভাবতে হবে যে আমি কোন ধরণের রূপান্তর করতে চাই। এবং আমি প্রতিটি রূপান্তর আপনার পয়েন্ট গণনা পদ্ধতির পছন্দ।
ফেলিক্স এস

প্রশংসা করার জন্য আপনাকে ধন্যবাদ। তবে পদ্ধতিটি কেবল একটি প্রাথমিক স্টাব, একটি সাধারণ ধারণা এবং আপনি সঠিকভাবে বলছেন এটি প্রসারণযোগ্য।
ttnphns

আমি আপনার পদ্ধতির পছন্দ। পরিচয়, 3 ঘুর্ণন এবং 4 প্রতিচ্ছবি (অর্থাত - তবে, একটি সাধারণ উত্তর একটু বড় প্রতিসাম্য গ্রুপ নেওয়া মূল্য হতে পারে পেতে , en.wikipedia.org/wiki/Dihedral_group )। তারপরে সমস্ত জোড়ার মধ্যে পার্থক্য ( ) গণনা করুন (অর্থাত্ ) এবং এলোমেলোতার পরিমাপ হিসাবে where , যেখানে হল কালো পাথরের সংখ্যা। বিশুদ্ধরূপে এলোমেলো আকারের জন্য উচিত , যখন খুব প্রতিসাম্য । ভাল জিনিসটি হ'ল এর সূত্রটি বোর্ডে বিভিন্ন সংখ্যক পাথর ধারণ করে এবং এতে বিডব্লিউ প্রতিসাম্য রয়েছে। D4d87r=k187252n(25n))nr1r0r
পিয়টর মিগডাল

Overcomplicating জন্য দুঃখিত। মূল নিদর্শনগুলির সাথে এটির পরিচয় থেকে পৃথক প্রতিসাম্য তুলনা করা যথেষ্ট । তারপর নিয়মমাফিককরণ ফ্যাক্টর রয়েছে পরিবর্তে । 7778
পাইওটর মিগডাল

5

তথ্যটি সাধারণত হিসাবে সংজ্ঞায়িত করা হয় । কিছু সুন্দর তত্ত্ব ব্যাখ্যা করে যে ব্যবহার করে আপনাকে কোড করতে হবে সেই পরিমাণ বিট । আপনি যদি গাণিতিক কোডিংয়ের বিষয়ে এই বিষয়ে আরও জানতে চান তবে ।h(x)=logp(x)log2p(x)xp

তাহলে কীভাবে এটি আপনার সমস্যার সমাধান করতে পারে? সহজ। এমন কিছু যা আপনার ডেটা উপস্থাপন করে এবং ব্যবহার করে যেখানে একটি নতুন নমুনা হিসাবে এটির মুখোমুখি হওয়ার বিস্ময় বা তথ্যের পরিমাপ।plogp(x)x

হার্ড জিনিসটি হল জন্য কিছু মডেল সন্ধান করা এবং আপনার ডেটা উত্পন্ন করা। সম্ভবত আপনি এমন একটি অ্যালগরিদম নিয়ে আসতে পারেন যা ম্যাট্রিকগুলি উত্পন্ন করে যা আপনি 'সম্ভাব্য' বলে মনে করেন।p

ফিটিং জন্য কিছু ধারণা ।p

  1. আপনি যদি কেবল 5x5 ম্যাট্রিক্সের দিকে তাকিয়ে থাকেন তবে সমস্ত সম্ভাব্য ম্যাট্রিক্স সংরক্ষণ করার জন্য আপনার কেবল বিট প্রয়োজন, যাতে আপনি কেবল সেগুলি সবগুলি গণনা করতে পারেন এবং প্রতিটিটির জন্য একটি নির্দিষ্ট সম্ভাবনা নির্ধারণ করতে পারেন।225
  2. আপনার ডেটা ফিট করার জন্য একটি সীমাবদ্ধ বল্টজম্যান মেশিন ব্যবহার করুন (তারপরে আপনাকে তথ্যের বিকল্প হিসাবে নিখরচায় শক্তি ব্যবহার করতে হবে, তবে এটি ঠিক আছে),
  3. বিকল্প হিসাবে জিপ ব্যবহার করুন এবং উপরে থেকে পুরো সম্ভাবনার গল্পটির যত্ন নেবেন না। এটি এমনকি আনুষ্ঠানিকভাবে ঠিক আছে, কারণ আপনি কলমোগোরভ জটিলতার সান্নিধ্য হিসাবে জিপ ব্যবহার করেন এবং এটি তথ্য তাত্ত্বিকদের দ্বারা সম্পন্ন করা হয়েছে এবং স্বাভাবিক সংকোচনের দূরত্বের দিকে পরিচালিত করে ,logp(x)
  4. স্থানিক পূর্বের বিশ্বাসগুলি অন্তর্ভুক্ত করতে এবং স্থানীয়ভাবে বের্নোল্লি ভেরিয়েবলগুলি ব্যবহার করতে কোনও গ্রাফিক্যাল মডেল ব্যবহার করুন।
  5. অনুবাদমূলক আক্রমণটিকে এনকোড করতে, আপনি একটি কনভোলশনাল নেটওয়ার্ক ব্যবহার করে একটি শক্তি ভিত্তিক মডেল ব্যবহার করতে পারেন ।

উপরের কিছু ধারণাগুলি বেশ ভারী এবং মেশিন লার্নিং থেকে এসেছে। আপনি যদি আরও পরামর্শ নিতে চান তবে কেবল মন্তব্যগুলি ব্যবহার করুন।


স্পষ্টতই, দার্শনিক দিক থেকে কলমোগোরভ এন্ট্রপি হ'ল সর্বোত্তম পন্থা, যদি আপনি "বিমূর্ত প্যাটার্ন সরলতা" মনে করেন এবং আপনি এটি অনুমান করার চেষ্টা করছেন না যে এটি মানুষের মনের পরিণতিতে কতটা সহজ হবে। এটি এন্ট্রপিকে কেবল "সংক্ষিপ্ততম প্রোগ্রামের দৈর্ঘ্য হিসাবে বর্ণনা করে যা সেই ধরণটি তৈরি করতে পারে"। অবশ্যই, আপনাকে এখনও কম্পিউটারের ভাষা নির্দিষ্ট করতে হবে তবে কৌশলটি খেলতে আপনি এখনও একটি বিমূর্ত টিউরিং মেশিনের উপর নির্ভর করতে পারেন।
জাভিয়ের রদ্রিগেজ লেগুনা

প্রোগ্রামিং ভাষা আসলে গুরুত্বপূর্ণ নয়। ভাষা এ থেকে ভাষা বিতে সংকলনের প্রোগ্রামের একটি অতিরিক্ত অংশ একটি ধ্রুবক বিট বাড়িয়ে তুলবে (সংকলক) এবং সুতরাং উপেক্ষিত হতে পারে।
বায়ারজ

4

আমার নিম্নলিখিত প্রস্তাবটি ছাড়ের চেয়ে অন্তর্দৃষ্টিযুক্ত, তাই আমি এটি প্রমাণ করতে পারি না, তবে কমপক্ষে কিছু যুক্তি দিতে পারি। দাগগুলির কনফিগারেশনের "এন্ট্রপি" মূল্যায়নের পদ্ধতিতে অন্তর্ভুক্ত রয়েছে:

  1. দাগগুলি ডিজিটালাইজ করুন।
  2. অরথোগোনাল প্রোক্রাস্টেস বিশ্লেষণ দ্বারা অনেক সময় নিজের দ্বারা অনুমোদিত কনফিগারেশনের তুলনা সম্পাদন করুন ।
  3. তুলনা (পরিচয় সহগ) এর প্লট ফলাফল এবং প্লটের জাগ্রততা মূল্যায়ন করুন।

স্পটগুলি ডিজিটাইজ করুন , অর্থাৎ তাদের স্থানাঙ্ক নিন। উদাহরণস্বরূপ, নীচে সংখ্যাযুক্ত দাগগুলি (সংখ্যার ক্রম নির্বিচারে হতে পারে) এবং তাদের স্থানাঙ্কগুলির সাথে আপনার কনফিগারেশন ডি নীচে রয়েছে। এখানে চিত্র বর্ণনা লিখুন

spot x   y
1   1   1
2   3   1
3   5   1
4   2   2
5   4   2
6   1   3
7   3   3
8   5   3
9   2   4
10  4   4
11  1   5
12  3   5
13  5   5

ক্রমায়ন করুন এবং প্রোক্রাস্টেস বিশ্লেষণ করুন। এলোমেলোভাবে দাগগুলি (ডেটাগুলির সারিগুলি) প্রমুট করুন এবং অনুমতিপ্রাপ্তটির সাথে মূল (অনুমোদিত নয়) ডেটার সাথে প্রোক্রাস্টেস তুলনা করুন; সনাক্তকরণের সহগ রেকর্ড করুন (দুটি কনফিগারেশনের মিলের পরিমাপ, বিশ্লেষণ দ্বারা আউটপুট)। পুনরাবৃত্ত ক্রম - ক্রোক্রেটস - গুণাগুণটি অনেক বার সঞ্চয় করা (যেমন 1000 বার বা তার বেশি)।

নিয়মিত কাঠামোর উপরের ক্রিয়াকলাপের পরে আমরা সনাক্তকরণ সহগ (আইডিসি) থেকে কী অপেক্ষা করতে পারি ?উদাহরণস্বরূপ উপরের কনফিগারেশন D. বিবেচনা করুন যদি আমরা নিজের সাথে সেট করা মূল স্থানাঙ্কগুলি তুলনা করি তবে অবশ্যই আমরা আইডিসি = 1 পাব। তবে যদি আমরা মূল সেট এবং পারমিটেডের মধ্যে আইডিসির কিছু স্পটকে অনুমতি দিই তবে নীচের কিছুটা মান হবে। আসুন উদাহরণস্বরূপ, 1 এবং 4 লেবেলযুক্ত দাগগুলির এক জোড়া, আইডিসি = .964। এখন, পরিবর্তে, 3 এবং 5 স্পটগুলিকে অনুমতি দিন Interest আকর্ষণীয়ভাবে, আইডিসি আবার .964 হবে। একই মান, কেন? স্পট 3 এবং 5 টি 1 এবং 4 টির প্রতিসম হয়, যাতে 90 ডিগ্রিতে ঘোরানো তাদেরকে সুপারপোজ করে। প্রোক্রাস্টেস তুলনা ঘূর্ণন বা প্রতিবিম্বের প্রতি সংবেদনশীল নয় এবং এর ফলে জোড়ার মধ্যে 1-4 এর মধ্যে অনুচ্ছেদটি 5-5-এর মধ্যে জোয়ারের মধ্যে "একই" হয়। আরও উদাহরণ যুক্ত করতে, আপনি যদি মাত্র 4 এবং 7 দাগগুলিকে অনুমতি দেন তবে আইডিসি আবার হবে! এটি প্রদর্শিত হয়েছে যে প্রোক্রাস্টেসের জন্য, 4-7 জোড়ার মধ্যে অনুচ্ছেদটি "একই" উপরোক্ত দুটি হিসাবে এই অর্থে যে এটি একই ডিগ্রি দেয় (আইডিসি দ্বারা পরিমাপ করা হয়)। স্পষ্টতই, এটি সমস্ত কারণ কনফিগারেশন ডি নিয়মিত।একটি নিয়মিত কনফিগারেশনের জন্য আমরা আমাদের অনুচ্ছেদ / তুলনা পরীক্ষায় আইডিসির পরিবর্তে পৃথক পৃথক মানগুলি অর্জন করতে আশা করি; অনিয়মিত কনফিগারেশনের জন্য আমরা প্রত্যাশা করি যে মানগুলি অবিচ্ছিন্ন থাকবে।

রেকর্ডড আইডিসি মানগুলি প্লট করুন। উদাহরণস্বরূপ, মানগুলি বাছাই করুন এবং লাইন প্লট করুন। আমি আপনার প্রতিটি কনফিগারেশন এ, বি (উভয়ই যথেষ্ট অনিয়মিত), ডি, ই (নিয়মিত) এবং এখানে লাইন-প্লটটি দিয়ে 5000 টি অনুমতি দেওয়া - পরীক্ষাটি করেছি:

এখানে চিত্র বর্ণনা লিখুন

লাইন ডি এবং ই (ডি বিশেষত) কত বেশি জেগেছে তা লক্ষ্য করুন। এটি মূল্যবোধের বিচক্ষণতার কারণে। এ এবং বি এর মানগুলি অনেক বেশি ক্রমাগত। আপনি নিজেকে এমন এক ধরণের পরিসংখ্যান চয়ন করতে পারেন যা ষড়যন্ত্রের পরিবর্তে স্বতন্ত্রতা / ধারাবাহিকতার ডিগ্রি অনুমান করে। এ বি এর চেয়ে বেশি ধ্রুবক বলে মনে হয় না (আপনার জন্য, কনফিগারেশন এ কিছুটা কম নিয়মিত, তবে আমার লাইন-প্লট এটি দেখায় না বলে মনে হয়) অথবা, যদি না হয়, তবে আইডিসি মানগুলির কিছুটা অন্য প্যাটার্ন দেখায়। আর কি ধরণের ? এটি আমার উত্তরের ক্ষেত্রের বাইরে। আসলেই বি এর তুলনায় এ আসলেই কম নিয়মিত কিনা তা বড় প্রশ্ন: এটি আপনার চোখের জন্য হতে পারে তবে প্রোক্রাস্টেস বিশ্লেষণ বা অন্য কোনও ব্যক্তির চোখের জন্য প্রয়োজন।

যাইহোক, পুরো ক্রমশক্তি / প্রোক্রেটিস পরীক্ষাটি আমি খুব দ্রুত করেছিলাম did আমি এসপিএসএসের জন্য আমার নিজস্ব প্রোক্রাস্টেস বিশ্লেষণ ম্যাক্রো ব্যবহার করেছি (আমার ওয়েব পৃষ্ঠায় পাওয়া গেছে) এবং অনুমতি দেওয়ার জন্য কোডের কয়েকটি লাইন যুক্ত করেছি।


3

পারস্পরিক তথ্য, প্রতিটি মাত্রা একটি এলোমেলো পরিবর্তনশীল হিসাবে বিবেচনা করে, এইভাবে প্রতিটি ম্যাট্রিক্স সংখ্যার জোড়া সংখ্যার সেট হিসাবে বিবেচনা করা উচিত, সি বাদে সমস্ত ক্ষেত্রে সহায়তা করা উচিত, যেখানে আমি ফলাফল সম্পর্কে নিশ্চিত নই।

টিএমভিএ ম্যানুয়ালটিতে রিগ্রেশন পারফরম্যান্স বিশ্লেষণ বা সম্পর্কিত আর্কসিভ এন্ট্রি সম্পর্কিত চিত্র 8 (পি 24 এ শুরু) এর চারপাশে আলোচনা দেখুন ।

বিভিন্ন বিতরণের জন্য আলাদা মেট্রিক


লিঙ্কযুক্ত নথিটি খোলার ক্ষেত্রে আমার সমস্যা আছে have
ttnphns

একটি বিকল্প লিঙ্ক যুক্ত করা হয়েছে। তবে প্রথমটি আমার পক্ষে কাজ করে (কেবলমাত্র পরীক্ষিত)।
এডাভিড অ্যাডভিড

3

প্যাটার্নের (প্রতিসামগ্রীগুলির মতো) বৈশ্বিক বৈশিষ্ট্যগুলি দেখার পরিবর্তে, কেউ স্থানীয় প্রতিদ্বন্দ্বীদের দিকে নজর দিতে পারে, যেমন প্রতিটি পাথরের (= কালো বৃত্ত) প্রতিবেশীর সংখ্যা। আসুন দ্বারা মোট পাথরের সংখ্যা ।s

যদি পাথরগুলি এলোমেলোভাবে ছুঁড়ে দেওয়া হয় তবে প্রতিবেশীদের ডিস্ট্রিবিউশন হ'ল যেখানে হল পাথরের ঘনত্ব। কোনও পাথরটি অভ্যন্তরে ( ), প্রান্তে ( ) অথবা কোণে থাকে তবে জায়গাগুলির সংখ্যা নির্ভর করে ।

Prand,p(k neighbors|n places)=(nk)pk(1p)nk,
p=s/25nn=8n=5(n=3)

এটি স্পষ্টভাবে দৃশ্যমান, সি) , ডি) এবং ই) এর প্রতিবেশীদের বিতরণ এলোমেলোভাবে অনেক দূরে। উদাহরণস্বরূপ, ডি এর জন্য ) সমস্ত অভ্যন্তর পাথরের ঠিক প্রতিবেশী (এলোমেলো বিতরণের বিরোধিতা করে, যা ফলন করে পরিবর্তিত পরিমাপের পরিবর্তে )।4(0%,2%,9%,20%,27%,24%,13%,4%,0%)(0%,0%,0%,0%,100%,0%,0%,0%,0%)

সুতরাং কোনও প্যাটার্নটি এলোমেলো হলে তা প্রমাণ করতে আপনার প্রতিবেশী এর বিতরণকে তুলনা করতে হবে এবং এটিকে একটি এলোমেলো সাথে তুলনা করতে হবে । উদাহরণস্বরূপ আপনি তাদের উপায় এবং প্রকরণের তুলনা করতে পারেন।Pmeasured(k|n)Prand,p(k|n)

বিকল্পভাবে, কেউ ফাংশন স্পেসে তাদের দূরত্বগুলি পরিমাপ করতে পারে, যেমন: যেখানে সঙ্গে পয়েন্ট পরিমিত অনুপাত সংলগ্ন স্পেস এবং একটি র্যান্ডম প্যাটার্ন, অর্থাত জন্য পূর্বাভাস দেওয়া যায় , এবং ।

n={3,5,8}k=0n[Pmeasured(k|n)Pmeasured(n)Prand,p(k|n)Prand,p(n)]2,
Pmeasured(n)nPrand,p(n)Prand,p(3)=4/25Prand,p(5)=12/25Prand,p(8)=9/25

2

কোনও পাঠ্য স্ট্রিংয়ের কমপক্ষে অপ্রয়োজনীয় উপস্থাপনা খুঁজে পাওয়ার সম্ভাবনাগুলি এবং ট্রানজিশনের সম্ভাবনাগুলি ব্যবহার করে শ্যাননের (স্বীকৃতভাবে একটি মাত্রিক) ধারণাটিতে ফিরে আসা তথ্যের সামগ্রীটিকে ধারণ করার সত্যই সহজ উপায় রয়েছে। কোনও চিত্রের জন্য (এই নির্দিষ্ট ক্ষেত্রে বর্গক্ষেত্রের ম্যাট্রিক্সে বাইনারি চিত্র সংজ্ঞায়িত) আমরা এক্স এবং ওয়াই ডেরিভেটিভস (-1,0, + 1) এর জ্ঞান থেকে স্বতন্ত্রভাবে পুনর্গঠন করতে পারি। আমরা একটি 3x3 স্থানান্তর সম্ভাবনা এবং একটি গ্লোবাল সম্ভাব্যতা ঘনত্ব ফাংশনও 3x3 সংজ্ঞায়িত করতে পারি। শ্যানন তথ্যটি 3x3-র উপরে প্রয়োগ করা ক্লাসিক লোগারিদমিক সামিট ফর্মুলা থেকে প্রাপ্ত হয়। এটি শ্যানন তথ্য পরিমাপের একটি দ্বিতীয় আদেশ এবং সুন্দরভাবে 3x3 পিডিএফ মধ্যে স্থানিক কাঠামো ক্যাপচার করে।

2 টি (বাইনারি) স্তরের বেশি গ্রেস্কেল চিত্রগুলিতে প্রয়োগ করার সময় এই পদ্ধতিটি আরও স্বজ্ঞাত, আরও তথ্যের জন্য https://arxiv.org/abs/1609.01117 দেখুন।


1

এটি পড়তে গিয়ে দুটি বিষয় মাথায় আসে। প্রথমটি হ'ল প্রচুর ভূসম্পত্তি সম্পর্কিত সম্পত্তি পূর্বাভাস দেওয়া বেশ চ্যালেঞ্জিং, এবং পিএইচডি স্তরের অনেক কাজ কীভাবে গ্রুপিং হয় তার মডেলগুলি বের করার চেষ্টা করে। আমার প্রবৃত্তি হ'ল সবচেয়ে সহজ নিয়ম যা আপনি ভাবতে পারেন তা পাল্টা উদাহরণ দিয়ে শেষ হবে।

যদি আপনি আপাতত জাস্টাল গ্রুপিংয়ের বিবরণটি আলাদা করে রাখতে পারেন তবে আমি মনে করি যে একটি সহায়ক বিমূর্ততা আপনার ইনপুটটিকে একটি চিত্রের বিশেষ কেস হিসাবে মনে করে। কম্পিউটার ভিশনে প্রচুর অ্যালগরিদম রয়েছে যা স্কেল ইনভেআরেন্ট এবং ফিচার অদলীয় বৈশিষ্ট্যগুলির একটি সেটের উপর ভিত্তি করে কোনও চিত্রকে একটি স্বাক্ষর নির্ধারণ করে। আমি মনে করি সর্বাধিক সুপরিচিত হ'ল সিফটি বৈশিষ্ট্যগুলি:

http://en.wikipedia.org/wiki/Scale-invariant_feature_transform

মূলত আপনার আউটপুট একটি নতুন ভেক্টর হবে যা এই বৈশিষ্ট্যগুলির জন্য ওজন দেয়। আপনি এই ভেক্টরটি ব্যবহার করতে পারেন এবং হয় এটিতে একটি হিউরিস্টিক প্রয়োগ করতে পারেন (সম্ভবত আদর্শটি সন্ধান করুন) এবং আশা করুন যে এটি আপনি যা খুঁজছেন তা বর্ণনা করে। বিকল্পভাবে, আপনি কোনও শ্রেণিবদ্ধকারীকে বৈশিষ্ট্য ভেক্টরকে ইনপুট হিসাবে নিতে প্রশিক্ষণ দিতে পারেন এবং কেবলমাত্র এটি বলতে পারেন যে এটির 'এনট্রপি' সম্পর্কে আপনার ধারণা কী। এর বিপরীত দিকটি হ'ল এটি উপযুক্ত এসআইএফটি বৈশিষ্ট্যগুলি (যা অবশ্যই আপনার সমস্যার জন্য ওভারকিল) ব্যবহার করবে এবং এমন কিছু ম্যাপিং তৈরি করবে যা খুব উপযুক্ত হতে পারে। খারাপ দিকটি হ'ল আপনাকে সেই লেবেলিং নিজেকে অনেক কিছু করতে হবে এবং আপনি যে শ্রেণিবদ্ধ ব্যবহার করছেন তার উপর নির্ভর করে আপনি যা ব্যাখ্যা করতে পারেন তা আরও কঠিন হতে পারে।

আমি আশা করি এই সহায়ক! প্রচুর প্রচলিত কম্পিউটার ভিশন অ্যালগরিদমগুলিও এখানে আপনার জন্য উপযুক্ত হতে পারে - সেই পোর্টালে উইকিপিডিয়া মাধ্যমে একটি দ্রুত ব্রাউজ আপনাকে কিছু অতিরিক্ত অন্তর্দৃষ্টি দিতে পারে।


0

আপনার উদাহরণগুলি আমাকে বুলিয়ান বীজগণিত এবং ডিজিটাল সার্কিটের সত্য সারণীগুলির স্মরণ করিয়ে দেয়। এই রাজ্যে, কর্নোখের মানচিত্রগুলি (http://en.wikedia.org/wiki/Karnaugh_map) পুরো গ্রিডটি প্রকাশ করার জন্য ন্যূনতম বুলিয়ান ফাংশন সরবরাহ করতে একটি সরঞ্জাম হিসাবে ব্যবহার করা যেতে পারে। বিকল্পভাবে, বুলিয়ান বীজগণিত পরিচয় ব্যবহার ফাংশনটিকে তার ন্যূনতম আকারে হ্রাস করতে সহায়তা করতে পারে। ন্যূনতম বুলিয়ান ফাংশনে পদগুলির সংখ্যা গণনা করা আপনার এন্ট্রপি পরিমাপ হিসাবে ব্যবহার করা যেতে পারে। এটি আপনাকে সংলগ্ন প্রতিবেশীদের সংকুচিত করার সাথে উল্লম্ব এবং অনুভূমিক প্রতিসাম্যতা দেয় তবে তির্যক প্রতিসাম্যের অভাব রয়েছে।

বুলিয়ান বীজগণিত ব্যবহার করে, উভয় অক্ষকে উপরের বাম কোণে শুরু করে এই থেকে লেবেলযুক্ত। এই পদ্ধতিতে, উদাহরণস্বরূপ বুলিয়ান ফাংশনটিতে মানচিত্র দেওয়া হবে (! এ এবং! ই)। অন্যান্য উদাহরণগুলির জন্য, অক্ষগুলি পৃথকভাবে লেবেল করা প্রয়োজন (যেমন এই, এফজে)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.