আমি এই পার্টিতে দেরি করেছি, তবে আমি টিসি-আইডিএফ ধারণার সাথে খেলছিলাম (আমি 'ধারণা' শব্দের উপর জোর দিতে চাই কারণ প্রকৃত গণনার জন্য আমি কোনও বই অনুসরণ করি নি; তাই এগুলি কিছুটা বন্ধ হয়ে থাকতে পারে এবং অবশ্যই আরও সহজেই যেমন প্যাকেজগুলি {tm: Text Mining Package}যেমন উল্লেখ করা হয়েছে) দিয়ে চালানো হয়েছে এবং আমি মনে করি যে আমি যা পেয়েছি তা এই প্রশ্নের সাথে সম্পর্কিত হতে পারে বা কোনও ঘটনায় এটি পোস্ট করার জন্য এটি ভাল জায়গা হতে পারে।
সেট-আপ: আমি একটি আছে কর্পাস এর 5দীর্ঘ মুদ্রিত মিডিয়া, থেকে নেওয়া অনুচ্ছেদ text 1মাধ্যমে 5যেমন নিউ ইয়র্ক টাইমস । কথিত, এটি খুব ছোট একটি "দেহ", একটি ক্ষুদ্র গ্রন্থাগার, সুতরাং কথা বলার জন্য, তবে এই "ডিজিটাল" লাইব্রেরিতে এন্ট্রিগুলি এলোমেলো নয়: প্রথম এবং পঞ্চম এন্ট্রিগুলি ফুটবলের সাথে মোকাবেলা করে (বা 'সামাজিক ক্লাব' এর জন্য 'সকার') (?) এখানে প্রায়) এবং আরও বিশেষভাবে আজকের সেরা দল সম্পর্কে। সুতরাং, উদাহরণস্বরূপ, text 1হিসাবে শুরু হয় ...
"গত নয় বছরে মেসি এফসি বার্সেলোনাকে জাতীয় ও আন্তর্জাতিক খেতাব অর্জন করেছেন এবং এমনভাবে ব্যক্তিগত রেকর্ড ভেঙেছেন যা অন্যরকমভাবে মনে হচ্ছে ..."
খুব সুন্দর! অন্যদিকে আপনি অবশ্যই অবশ্যই তিনটি এন্ট্রির মধ্যবর্তী বিষয়গুলি এড়িয়ে যেতে চাইবেন। এখানে একটি উদাহরণ (text 2 ):
"টেক্সাসের কয়েক ঘন্টার ব্যবধানে, মিঃ রুবিও পরামর্শ দিয়েছিলেন যে মিঃ ট্রাম্প তার ট্রাউজারগুলিতে প্রস্রাব করেছিলেন এবং অবৈধ অভিবাসীদের তার অবিরত টুইটার বার্তাগুলি সরিয়ে দেওয়ার জন্য ..."
তাই কি সব খরচ থেকে "সার্ফিং" এ এড়াতে করতে text 1করতে text 2, যখন অব্যাহত মধ্যে সর্বশক্তিমান বার্সেলোনা এফসি সম্পর্কে সাহিত্যে আনন্দের text 5?
টিসি-আইডিএফ: আমি প্রত্যেকটি শব্দকে textদীর্ঘ ভেক্টরগুলিতে বিচ্ছিন্ন করে দিয়েছি । তারপরে প্রতিটি শব্দের ফ্রিকোয়েন্সি গণনা করে, পাঁচটি ভেক্টর তৈরি করে (প্রত্যেকটির জন্য একটি text) যার সাথে কেবলমাত্র সংশ্লিষ্ট বর্ণিত শব্দগুলি textগণনা করা হত - অন্য সমস্ত শব্দগুলির সাথে সম্পর্কিত সমস্ত শব্দগুলি textশূন্যের মূল্যবান হয়। প্রথম স্নিপেটেtext 1উদাহরণস্বরূপ, , এর ভেক্টরটির "মেসি" শব্দের জন্য 1 গণনা থাকবে, যখন "ট্রাম্প" 0 থাকবে। এটি ছিল টিসি অংশ।
আইডিএফ অংশ প্রতিটি জন্য আলাদাভাবে হিসাব ছিল text, এবং 5 "ভেক্টর" ফলে (আমার ধারণা আমি তাদের ডেটা ফ্রেম হিসাবে গণ্য), শুধু শূন্য থেকে থেকে পাঁচ দস্তাবেজ (দুঃখিতভাবে এর গন্য এর লগারিদমিক রূপান্তরের সম্বলিত, আমাদের ছোট গ্রন্থাগার দেওয়া ) প্রদত্ত শব্দটি এতে রয়েছে যেমন:
লগ( নং নথি1+ +নং দস্তাবেজগুলিতে একটি শব্দ রয়েছে)text01text
tc × idftext
COMPARISONS: এখন এই "শব্দটির গুরুত্বের ভেক্টর "গুলির মধ্যে ডট পণ্যগুলি সম্পাদন করার বিষয় ছিল।
স্বভাবিকভাবেই এই প্রভাবের এর ডট পণ্যের text 1সঙ্গে text 5ছিল 13.42645, যখন text 1বনাম। text2শুধুমাত্র ছিল 2.511799।
ক্লানকি আর কোড (অনুকরণ করার মতো কিছুই) এখানে নেই ।
আবার এটি খুব প্রাথমিক সিমুলেশন, তবে আমি মনে করি এটি খুব গ্রাফিক।