আমি নিবন্ধ বা ফোরাম পোস্টটি ডাটাবেসের মধ্যে একটি সদৃশ এন্ট্রি কিনা তা সনাক্ত করার চেষ্টা করছি। আমি এই সিদ্ধান্তটি নিয়েছি, এই সিদ্ধান্তে পৌঁছেছি যে, যে কেউ নকল প্রতিলিপি তিনটি এর মধ্যে একটির (যেমন সনাক্তকরণে অসুবিধা অবলম্বনে) ব্যবহার করে তা করবেন:
- সরল অনুলিপিটি পুরো টেক্সটটি পেস্ট করুন
- পাঠ্যের কিছু অংশ তাদের নিজস্ব দিয়ে মার্জ করে কপি এবং পেস্ট করুন
- একটি বাহ্যিক সাইট থেকে একটি নিবন্ধ অনুলিপি করুন এবং তাদের নিজের হিসাবে মুখোশ
বিশ্লেষণের জন্য প্রিপিং পাঠ্য
মূলত যে কোনও অসঙ্গতি; লক্ষ্যটি পাঠ্যটিকে যতটা সম্ভব "খাঁটি" হিসাবে তৈরি করা make আরও সঠিক ফলাফলের জন্য, পাঠ্যটি "মানকৃত" দ্বারা:
- সদৃশ সাদা স্থান ফাঁকা এবং ছাঁটাই নেতৃস্থানীয় এবং পিছনে।
- নিউলাইনগুলি \ n এ মানিক করা হয়েছে।
- এইচটিএমএল ট্যাগগুলি সরানো হয়েছে।
- সাহসী ফায়ারবল ইউআরএলগুলি নামক একটি রেজিএক্স ব্যবহার করে ফেলা হয়।
- আমি আমার অ্যাপ্লিকেশনটিতে বিবি কোড ব্যবহার করি যাতে এটি যায়।
- (ä) সেনসেন্ট এবং বিদেশী (এনলগিশ ছাড়াও) তাদের অ বিদেশী রূপে রূপান্তরিত হয়।
আমি প্রতিটি নিবন্ধ (1) পরিসংখ্যান সারণীতে এবং (2) কীওয়ার্ড সারণীতে তথ্য সঞ্চয় করি।
(1) পরিসংখ্যান সারণী নিম্নলিখিত পরিসংখ্যান পাঠ্য সামগ্রী সম্পর্কে সংরক্ষণ করা হয় (অনেকটা এই পোস্টের মত)
- পাঠ্য দৈর্ঘ্য
- চিঠি গণনা
- শব্দ গণনা
- বাক্য গণনা
- প্রতি বাক্য গড় শব্দ
- স্বয়ংক্রিয় পাঠযোগ্যতা সূচক
- বন্দুক কুয়াশা স্কোর
ইউরোপীয় ভাষার জন্য কোলম্যান-লিয়াউ এবং অটোমেটেড রিডাবিলিটি ইনডেক্স ব্যবহার করা উচিত কারণ তারা উচ্চারণযোগ্য গণনা ব্যবহার করে না, সুতরাং যুক্তিসঙ্গতভাবে সঠিক স্কোর তৈরি করা উচিত।
(২) কীওয়ার্ড সারণী
কীওয়ার্ডগুলি স্টপ শব্দের (প্রচলিত শব্দ) বিশাল তালিকা বাদ দিয়ে তৈরি করা হয়, যেমন, '' ',' এ ',' এর ',' থেকে ', ইত্যাদি ইত্যাদি etc.
নমুনা তথ্য
- পাঠ্য দৈর্ঘ্য, 3963
- চিঠি_কাউন্ট, 3052
- শব্দ_কাউন্ট, 684
- বাক্য_কাউন্ট, 33
- শব্দ_পরিচয়_ 21, 21
- বন্দুক_ফোগ, ১১.৫
- অটো_ড্রেড_ইন্ডেক্স, 9.9
- কীওয়ার্ড 1, নিহত
- কীওয়ার্ড 2, অফিসার
- কীওয়ার্ড 3, পুলিশ
এটি লক্ষ করা উচিত যে একবার কোনও নিবন্ধ আপডেট হয়ে গেলে উপরের সমস্ত পরিসংখ্যান পুনরায় জেনারেট হয় এবং এটি সম্পূর্ণ আলাদা মান হতে পারে।
প্রথমবারের মতো প্রকাশিত নিবন্ধটি ইতিমধ্যে ডাটাবেসের মধ্যে উপস্থিত রয়েছে কিনা তা সনাক্ত করতে আমি কীভাবে উপরের তথ্যটি ব্যবহার করতে পারি?
আমি জানি যে আমি যে কোনও ডিজাইন করব তা নিখুঁত হবে না, সবচেয়ে বড় ঝুঁকি হচ্ছে (১) যে নকলটি নয় এমন সামগ্রীগুলি সদৃশ হিসাবে চিহ্নিত করা হবে (২) সিস্টেমটি সদৃশ সামগ্রীকে নকল করার অনুমতি দেয়।
সুতরাং অ্যালগরিদম 0 থেকে একটি ঝুঁকি মূল্যায়ন নম্বর উত্পন্ন করা উচিত নয় নকল ঝুঁকি 5 সম্ভাব্য সদৃশ এবং 10 নকল হচ্ছে। 5 এর উপরে যে কোনও কিছু আছে তবে সামগ্রীর সদৃশ হওয়ার খুব ভাল সম্ভাবনা রয়েছে। এক্ষেত্রে বিষয়বস্তুটিকে ফ্ল্যাগ করা যায় এবং নিবন্ধটির সাথে লিঙ্কযুক্ত হতে পারে এমন সম্ভাব্য নকলগুলি এবং কোনও মানুষ মুছে ফেলা বা অনুমতি দেওয়ার সিদ্ধান্ত নিতে পারে।
আমি পুরো নিবন্ধটির জন্য কীওয়ার্ডগুলি সংরক্ষণ করার আগে বলেছিলাম, তবে আমি ভাবছি যে অনুচ্ছেদের ভিত্তিতে আমিও এটি করতে পারি কিনা; এর অর্থ হ'ল ডিবিতে আমার ডেটা পৃথক করা হবে তবে এটি আমার প্রাথমিক পোস্টে (2) সনাক্তকরণ আরও সহজ করে তুলবে।
আমি পরিসংখ্যানগুলির মধ্যে ওজন গড়ের বিষয়ে চিন্তা করছি, তবে কোন ক্রমে এবং ফলাফলগুলি কী হবে ...