একটি বিচ্ছিন্ন কোসাইন ট্রান্সফর্মের বৈশিষ্ট্যগুলি ব্যবহার করে কোনও চিত্রের জমিনকে শ্রেণিবদ্ধ করা কতটা কার্যকরী হবে? গুগলিং "টেক্সচার শ্রেণিবদ্ধকরণ ডিসিটি" স্নায়বিক নেটওয়ার্ক ব্যবহার করে কেবল এই বিষয়ে একটি একাডেমিক কাগজ সন্ধান করে।
আমার অ্যাপ্লিকেশনটির জন্য, আমার কাছে লেবেলযুক্ত চিত্রগুলির একটি বৃহত কর্পস রয়েছে, যাতে পুরো চিত্রটি একটি সামঞ্জস্যপূর্ণ টেক্সচার (যেমন কম্বল, গাছের বাকল, ঘাসের ক্ষেত ইত্যাদি) এর ক্লোজ-আপ শট।
পূর্ববর্তী প্রশ্নের প্রতিক্রিয়া দ্বারা অনুপ্রাণিত হয়ে আমি নিম্নলিখিত পদ্ধতির বিষয়টি বিবেচনা করছি:
- প্রতিটি চিত্রকে পিক্সেলের এনএক্সএন ব্লকে বিভক্ত করুন
- প্রতিটি ব্লকের ডিসিটি নিন
- প্রতিটি ডিসিটি 1xM অ্যারে সমতল করুন এবং কে-মিনস ক্লাস্টারিং অ্যালগরিদমকে এটি খাওয়ান এবং প্রতিটি ডিসিটির জন্য ক্লাস্টারের লেবেল পান
- # 3 থেকে প্রতি চিত্রের প্রতিটি লেবেল গণনা করে প্রতিটি চিত্রের জন্য ক্লাস্টারিং লেবেলের একটি হিস্টোগ্রাম গণনা করুন
- [(হিস্টোগ্রাম, চিত্রের লেবেল)] এর সেট সেট করে কোনও এসভিএম শ্রেণিবদ্ধকে প্রশিক্ষণ দিন
এই কাজ কিভাবে ভাল হবে? আমি SIFT / SURF অ্যালগরিদমের মাধ্যমে নিষ্ক্রিয় বৈশিষ্ট্যগুলি ব্যবহার করে একটি অনুরূপ সিস্টেম প্রয়োগ করেছি, তবে আমি কেবল প্রায় 60% নির্ভুলতা পেতে সক্ষম হয়েছি।
টেক্সচারকে শ্রেণিবদ্ধ করার জন্য আমি আর কোন উপায়ে ডিসিটি ব্যবহার করতে পারি?