মিলিয়নেরও বেশি নথির কর্পাস রয়েছে
প্রদত্ত নথির জন্য ভেক্টর স্পেস মডেলের মতো কোসাইন ব্যবহার করে অনুরূপ নথির সন্ধান করতে চান
এই টিএফ-আইডিএফ-এর মতো দীর্ঘতর নথির প্রতি পক্ষপাতিত্ব রোধ করতে, সমস্ত টিএফকে বাড়ানো ফ্রিকোয়েন্সি ব্যবহার করে স্বাভাবিক করা হয়েছে :
সমস্ত প্রাক গণনা করেছেন
প্রাক নির্ণিত হর মান আছে
একটি প্রদত্ত জন্য তাই প্রয়োজন 1 মিলিয়ন স্কোর
আদল জন্য 0.6 কোসাইন একটি থ্রেশহোল্ড আছে
আমি এটি প্রদত্ত জন্য পর্যবেক্ষণ করতে পারি মোটামুটি সংকীর্ণ পরিসর রয়েছে কোসাইন 0.6 এর
জন্য উদাহরণস্বরূপ 0.6 এবং একটি অনুরূপ অনুসন্ধানে7.7631 এর পরে7.0867 থেকে 8.8339 অবধি
যেখানে কোসিনের প্রান্তিকের বাইরে 0.60.7223 থেকে 89.3395 অবধি
এটি স্ট্যান্ডার্ড টিএফ ডকুমেন্টের নরমালাইজেশন সহ ছিল
এটি| | d 2 | | ≥ ≥ | | d 1 | | | | d 2 | | | | d 2 | | | | d 2 | |
এতে কোসাইন ০..6 ম্যাচ হওয়ার সুযোগ নেই
শেষ পর্যন্ত প্রশ্ন:
একটি দানের জন্য এবং> = 0.6 এর কোসাইন কীভাবে | এর ব্যাপ্তি নির্ধারণ করতে পারে | d 2 | | একটি সুযোগ আছে?
যা | | d 2 | |
আমি কি নিরাপদে নির্মূল করতে পারি?
আমি এবং d 2 তে পদগুলির সংখ্যাও জানি যদি পদ সংখ্যা গণনার সীমা থাকে তবে ।
পরীক্ষার মাধ্যমে
এবং | | d 2 | | < | | d 1 | | / .8
নিরাপদ বলে মনে হচ্ছে তবে আশা করি এমন কিছু পরিসীমা রয়েছে যা নিরাপদ বলে প্রমাণিত
খুব কিছু অনন্য শর্তাদি দিয়ে কিছু পরীক্ষার কেস তৈরি করেছে, কিছুটি এতটা অনন্য নয়, কিছু সাধারণ। নিশ্চিত যে আপনি সবচেয়ে অনন্য পদটি নিতে পারেন এবং তুলনায় সেই ফ্রিকোয়েন্সিটি বাড়িয়ে তুলতে পারেন। অঙ্কটি (বিন্দু পণ্য) উপরে যাবে এবং তাই হবে || তুলনা || এবং 1 এর খুব কাছাকাছি একটি কোসাইন পাবেন।
সম্পর্কিত সম্পর্কিত এবং প্রশ্ন নয়।
আমি দলিল নথিগুলি দলে দলে tf-idf ব্যবহার করছি। আমি যে গ্রাহক বেসটি বিক্রি করছি তা কাছাকাছি ডুপ গ্রুপগুলির অভ্যস্ত। সেখানে আমি একটি সম্পর্কিত দৃষ্টিভঙ্গি নিচ্ছি যা আমি ক্ষুদ্রতম টার্ম গণনা হিসাবে দেখি এবং এটি 3x অবধি শর্ত গণনার বিপরীতে মূল্যায়ন করি। সুতরাং 10 এর একটি পদ গণনা 10 থেকে 30 এর দিকে দেখায় (4-9 ইতিমধ্যে তাদের শট 10 এ এসেছিল)। এখানে আমি এটি মিস করার সামর্থ্য রাখি যাতে এটি অন্যটিতে নিয়ে যায়। আমি 10% হয়ে গেছি এবং বৃহত্তম অনুপাত 1.8।
দয়া করে এই বিশ্লেষণের ত্রুটিগুলি চিহ্নিত করুন
যেমন এএন 6 ইউ 5 দ্বারা নির্দেশিত হিসাবে এই বিশ্লেষণে একটি ত্রুটি রয়েছে
তবে নথিটি
ভারীকরণের উপর নরমাল করা হলে ম্যাথিউয়ের দ্বারা নির্দেশিত হিসাবে D1⋅d2≤d1⋅d1 সিদ্ধান্ত নিতে
পারব না এখনও আমাকে কিছু শক্ত করার জন্য আশা করছি কিন্তু এই জিনিসগুলি দেখে মনে হচ্ছে এমন লোকেরা আমাকে বলেছে যে
আমি প্রশ্নটি পরিবর্তন করতে চাই না তাই কেবল এটিকে উপেক্ষা করুন
আমি কিছু বিশ্লেষণ করব এবং সম্ভবত নথি স্বাভাবিককরণের
জন্য একটি পৃথক প্রশ্ন পোস্ট করব এই প্রশ্নের উদ্দেশ্য ধরে
নিয়েছি নথিটি কাঁচা টিএফ-এ স্বাভাবিক করা হয়েছে দুঃখিত, তবে সমীকরণগুলি তৈরি করতে যা কখনও মার্কআপ ব্যবহার করা হয় তার সাথে আমি ঠিক তেমন ভাল নই
তাই আমার স্বীকৃতিতে
|| d1 || = বর্গক্ষেত্র (যোগফল (ডাব্লু 1 এক্স ডাব্লু 1))
d1 ডট ডি 2 = যোগফল (ডাব্লু 1 এক্স ডাব্লু 2)
হয় || ডি 2 || কোস দ্বারা আবদ্ধ না?
ধরুন ডি 1 হ'ল সংক্ষিপ্ত দলিল
খুব ভাল ডি 1 ডট ডি 2 যা অর্জন করা যায় তা হ'ল ডি 1 ডট ডি 1
যদি ডি 1 হয় 100 পল 20
এবং
ডি 2 বিয়ে হয় 100 পল 20 পিটার 1
সাধারন
ডি 1 হ'ল 1 পল 1/5 ডি 2
বিবাহ 1 পল 1/5 পিটার 1/100
স্পষ্টতই বিবাহ করুন এবং পাওল উভয় নথিতে একই আইডিএফ রয়েছে
সেরা সম্ভাব্য ডি 1 ডট ডি 2 হ'ল ডি 1 ডট ডি 1 ডি 1
এর সর্বোচ্চ সম্ভাব্য ম্যাচটি ডি 1
কোস = ডি 1 ডট ডি 1 / || ডি 1 || || D2 ||
উভয় পক্ষের বর্গাকার
কোস এক্স কোস = (ডি 1 ডট ডি 1) এক্স (ডি 1 ডট ডি 1) / ((ডি 1 ডট ডি 1) এক্স (ডি 2 ডট ডি 2)) কোস এক্স কোস = (ডি 1 ডট ডি 1) / (ডি 2 ডট ডি 2)
বর্গক্ষেত্রটি গ্রহণ করুন উভয় পক্ষের গোড়া
= || ডি 1 || / || ডি 2 ||
আমি যদি শুধু ব্যবহার করি || d2 || > = কোস || ডি 1 || এবং || ডি 2 || <= || ডি 1 || / কোস আমি আমার প্রয়োজনীয় গণনার গতি পাই