আমি এই পার্টিতে দেরি করেছি, তবে আমি টিসি-আইডিএফ ধারণার সাথে খেলছিলাম (আমি 'ধারণা' শব্দের উপর জোর দিতে চাই কারণ প্রকৃত গণনার জন্য আমি কোনও বই অনুসরণ করি নি; তাই এগুলি কিছুটা বন্ধ হয়ে থাকতে পারে এবং অবশ্যই আরও সহজেই যেমন প্যাকেজগুলি {tm: Text Mining Package}
যেমন উল্লেখ করা হয়েছে) দিয়ে চালানো হয়েছে এবং আমি মনে করি যে আমি যা পেয়েছি তা এই প্রশ্নের সাথে সম্পর্কিত হতে পারে বা কোনও ঘটনায় এটি পোস্ট করার জন্য এটি ভাল জায়গা হতে পারে।
সেট-আপ: আমি একটি আছে কর্পাস এর 5
দীর্ঘ মুদ্রিত মিডিয়া, থেকে নেওয়া অনুচ্ছেদ text 1
মাধ্যমে 5
যেমন নিউ ইয়র্ক টাইমস । কথিত, এটি খুব ছোট একটি "দেহ", একটি ক্ষুদ্র গ্রন্থাগার, সুতরাং কথা বলার জন্য, তবে এই "ডিজিটাল" লাইব্রেরিতে এন্ট্রিগুলি এলোমেলো নয়: প্রথম এবং পঞ্চম এন্ট্রিগুলি ফুটবলের সাথে মোকাবেলা করে (বা 'সামাজিক ক্লাব' এর জন্য 'সকার') (?) এখানে প্রায়) এবং আরও বিশেষভাবে আজকের সেরা দল সম্পর্কে। সুতরাং, উদাহরণস্বরূপ, text 1
হিসাবে শুরু হয় ...
"গত নয় বছরে মেসি এফসি বার্সেলোনাকে জাতীয় ও আন্তর্জাতিক খেতাব অর্জন করেছেন এবং এমনভাবে ব্যক্তিগত রেকর্ড ভেঙেছেন যা অন্যরকমভাবে মনে হচ্ছে ..."
খুব সুন্দর! অন্যদিকে আপনি অবশ্যই অবশ্যই তিনটি এন্ট্রির মধ্যবর্তী বিষয়গুলি এড়িয়ে যেতে চাইবেন। এখানে একটি উদাহরণ (text 2
):
"টেক্সাসের কয়েক ঘন্টার ব্যবধানে, মিঃ রুবিও পরামর্শ দিয়েছিলেন যে মিঃ ট্রাম্প তার ট্রাউজারগুলিতে প্রস্রাব করেছিলেন এবং অবৈধ অভিবাসীদের তার অবিরত টুইটার বার্তাগুলি সরিয়ে দেওয়ার জন্য ..."
তাই কি সব খরচ থেকে "সার্ফিং" এ এড়াতে করতে text 1
করতে text 2
, যখন অব্যাহত মধ্যে সর্বশক্তিমান বার্সেলোনা এফসি সম্পর্কে সাহিত্যে আনন্দের text 5
?
টিসি-আইডিএফ: আমি প্রত্যেকটি শব্দকে text
দীর্ঘ ভেক্টরগুলিতে বিচ্ছিন্ন করে দিয়েছি । তারপরে প্রতিটি শব্দের ফ্রিকোয়েন্সি গণনা করে, পাঁচটি ভেক্টর তৈরি করে (প্রত্যেকটির জন্য একটি text
) যার সাথে কেবলমাত্র সংশ্লিষ্ট বর্ণিত শব্দগুলি text
গণনা করা হত - অন্য সমস্ত শব্দগুলির সাথে সম্পর্কিত সমস্ত শব্দগুলি text
শূন্যের মূল্যবান হয়। প্রথম স্নিপেটেtext 1
উদাহরণস্বরূপ, , এর ভেক্টরটির "মেসি" শব্দের জন্য 1 গণনা থাকবে, যখন "ট্রাম্প" 0 থাকবে। এটি ছিল টিসি অংশ।
আইডিএফ অংশ প্রতিটি জন্য আলাদাভাবে হিসাব ছিল text
, এবং 5 "ভেক্টর" ফলে (আমার ধারণা আমি তাদের ডেটা ফ্রেম হিসাবে গণ্য), শুধু শূন্য থেকে থেকে পাঁচ দস্তাবেজ (দুঃখিতভাবে এর গন্য এর লগারিদমিক রূপান্তরের সম্বলিত, আমাদের ছোট গ্রন্থাগার দেওয়া ) প্রদত্ত শব্দটি এতে রয়েছে যেমন:
লগ( নং নথি1+ +নং দস্তাবেজগুলিতে একটি শব্দ রয়েছে)text
01text
tc × idftext
COMPARISONS: এখন এই "শব্দটির গুরুত্বের ভেক্টর "গুলির মধ্যে ডট পণ্যগুলি সম্পাদন করার বিষয় ছিল।
স্বভাবিকভাবেই এই প্রভাবের এর ডট পণ্যের text 1
সঙ্গে text 5
ছিল 13.42645
, যখন text 1
বনাম। text2
শুধুমাত্র ছিল 2.511799
।
ক্লানকি আর কোড (অনুকরণ করার মতো কিছুই) এখানে নেই ।
আবার এটি খুব প্রাথমিক সিমুলেশন, তবে আমি মনে করি এটি খুব গ্রাফিক।