"অনুরূপ" উত্স কোডগুলির ক্লাস্টারগুলি সনাক্ত করা


10

ধরুন আমার 400 জন শিক্ষার্থী রয়েছে (এটি একটি বড় বিশ্ববিদ্যালয়ে) কম্পিউটার বিজ্ঞান প্রকল্প করতে হবে এবং তাদের একা কাজ করতে হবে (ছাত্রদের কোনও দল নেই)। প্রকল্পের একটি উদাহরণ হতে পারে "ফরটারনে একটি দ্রুত ফুরিয়ার রূপান্তর অ্যালগরিদম বাস্তবায়ন করা" (আমি জানি, এটি সেক্সি লাগছে না তবে এটি আমার প্রশ্নকে সহজ করে তোলে)। আমি সংশোধনকারী এবং আমি শিক্ষার্থীদের এমন কিছু গ্রুপ রয়েছে যেগুলি বাস্তবায়নের প্রস্তাব দিয়েছে যা "সত্যিকার অর্থে স্বতন্ত্রভাবে লিখিত হওয়ার অনুরূপ" আছে কিনা তা পরীক্ষা করে রুটিনগুলি প্রেরণ করতে চাই।

এটি ক্লাস্টারগুলির জন্য অকার্যকর অনুসন্ধান। আমি মনে করি প্রশ্নটি কোন ক্লাস্টারিং অ্যালগরিদম ব্যবহার না করে কোন বৈশিষ্ট্যটি ব্যবহার করতে হবে সে সম্পর্কে আরও। আমি প্রথমে হস্তোগ্রামের দ্বারা চিঠিটি করব। আদর্শভাবে, যেহেতু প্রতারকরা এর চেয়ে স্মার্ট, তাই অবশেষে আমি চিঠিগুলির হস্টোগ্রামের (ক্রমশ্রয় সহ) একটি ভাল মিল আছে কিনা তা দেখার জন্য চিঠিগুলির এলোমেলোভাবে নির্ধারিত অনুমতিগুলি চেষ্টা করব। এছাড়াও যেগুলি কোডের কাঠামোটি অন্বেষণ করে না, কেবলমাত্র বর্ণের প্রান্তিক বিতরণ ... আপনার কী সমাধান আছে? সমস্যা আছে কি উত্সর্গীকৃত বিদ্যমান সফ্টওয়্যার বা প্যাকেজ আছে? (আসলে আমার পুরানো দিনের কম্পিউটার বিজ্ঞানের শিক্ষকরা দাবি করেছিলেন যে তাদের কাছে সেই ধরণের সরঞ্জাম ছিল তবে আমি এখন সন্দেহ করি যে তাদের খুব সাধারণ কিছু ছিল)

আমার ধারণা, সফ্টওয়্যার বিকাশ থেকে আইনজীবিদেরও সেই ধরণের সমস্যা রয়েছে (1000 শিক্ষার্থীর সাথে নয়, তবে 2 টি বড় কোড রয়েছে ... যা বিষয়টিকে আরও শক্ত করে তোলে)?

উত্তর:


4

প্রকৃত প্রাক প্রক্রিয়াজাতকরণ পদক্ষেপটি হ'ল প্রকৃতরূপে অভিন্ন ফাইলগুলি মার্জ করা।

এর পরে কীটি নরমালাইজেশন হয় । কিছু পর্যায়ে, শিক্ষার্থীরা কোডটি পুনরায় চালু করা, ভেরিয়েবলগুলির নামকরণ এবং এ জাতীয় পরিবর্তন শুরু করবে। অথবা মন্তব্যগুলিতে শব্দাবদ্ধ করুন। একটি চিঠি হিস্টোগ্রাম এটি দ্বারা খুব বেশি প্রভাবিত হয় (প্লাস এটি ভাষার বৈশিষ্ট্যগুলির অনেকগুলি ক্যাপচার করবে)।

একটি সাধারণ কৌশল হ'ল একটি ভাষা-নির্দিষ্ট পার্সার ব্যবহার এবং উত্স কোডটিকে একটি বিমূর্ত বাক্য গঠনতে রূপান্তরিত করা। তারপরে এটি থেকে বৈশিষ্ট্যগুলি বের করুন। এবং সম্ভবত সমান্তরালভাবে মন্তব্যগুলি পৃথকভাবে বিশ্লেষণ করুন।

তারপরে লাইন-ভিত্তিক "দীর্ঘতম সাধারণ অনুচ্ছেদ" পদ্ধতি রয়েছে। যদি আপনার একক লাইনে যুক্তিসঙ্গতভাবে ভাল মিল থাকে তবে আপনি যে কোনও দুটি ফাইলের দীর্ঘতম সাধারণ অনুচ্ছেদটি অনুসন্ধান করতে পারেন। এটিও বেশ কয়েকটি ম্যাচ উপার্জন করবে।


কেবল যুক্ত করতে চেয়েছিলেন যে দীর্ঘতম সাধারণ অনুচ্ছেদটি প্রত্যয় গাছ বা প্রত্যয় অ্যারে ব্যবহার করে দক্ষতার সাথে পাওয়া যেতে পারে ।
18-28 এ sebp

ধন্যবাদ অ্যানি, আমি সত্যিই আপনার উত্তরটির চেতনা পছন্দ করি (এবং এটি উত্সাহিত)। এটি "ডেটা ট্র্যাসফর্মেশন" সহ সত্য উচ্চতর মাত্রিক পরিসংখ্যান এবং চরম নিদর্শনগুলির জন্য অনুসন্ধান বলে মনে হচ্ছে। এই গাছগুলিতে আপনি কোন ধরণের দূরত্ব রাখবেন?
রবিন গিরার্ড

আমি এএসটি উপস্থাপনার মিলের জন্য বিশেষজ্ঞ নই। আমি বিশ্বাস করি যে একটি গাছ অন্য গাছের একটি বিশেষ ধরণের সাবট্রি হিসাবে এই অর্থে "সিমুলেশন" ধারণাটি রয়েছে। এএসটিগুলির তুলনা করার জন্য, আপনাকে সেগুলি প্রান্তিককরণ এবং আপেক্ষিক পার্থক্য গণনা করতে হবে বলে আমার ধারণা। হতে পারে শাখাগুলির ক্রম বিবেচনায় না নেওয়ার কারণে তুচ্ছ কোডের পুনরায় ক্রমানুসারে ফলাফল পরিবর্তন হয় না। সচেতন থাকুন যে আপনি যে জায়গায় ভুল মিথ্যা ইতিবাচক বিষয়গুলি পেতে পারেন সেহেতু সমস্যাটি দক্ষতার সাথে সমাধান করার জন্য কেবলমাত্র উপায় রয়েছে এবং সঠিক সমাধান খুঁজে পাওয়ার কারণে আপনি মিথ্যা ইতিবাচক
বিষয়গুলি পেয়েছেন

0

বিরোধী চৌর্যবৃত্তি বিরোধী জগত থেকে, আমি এর আগে "গ্রাফ আইসোমরফিজম" ধারণাটি পেরিয়ে এসেছি। আপনি এটিও একবার দেখতে পারেন।

এলসিএস - দীর্ঘতম সাধারণ সাবসেক্সেন্সও সম্ভব। তবে এই সমস্ত সমাধানগুলির তুলনা করার চেষ্টা করুন এবং দেখুন সেরা কি :)


এই সাইটে আপনাকে স্বাগতম! উপরোক্ত কাজের বিষয়ে আপনি কি কিছু রেফারেন্স দিতে পারেন, এবং আরও বিশদ থাকতে পারে যাতে পাঠকরা গ্রাফ আইসোমর্ফিিজম বা এলসিএস কীভাবে সমস্যাটি সমাধান করতে পারে সে সম্পর্কে আরও ভাল ধারণা পেতে পারে?
chl
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.