আমি তিন দিনের সাথে tm
এক বন্ধুর একটি খসড়া কাগজ পড়ার সাথে সাথে কাটালাম যেখানে তিনি ইউসিআইএনইটি দিয়ে একটি টেক্সট কর্পাস অন্বেষণ করেছিলেন, যেখানে টেক্সট ক্লাউড, টু-মোড নেটওয়ার্ক গ্রাফ এবং একক মান পচন (স্টাটা ব্যবহার করে গ্রাফিক্স সহ) দেখিয়েছিলেন। আমি প্রচুর সমস্যার মুখোমুখি হয়েছি: ম্যাক ওএস এক্সে, স্নোবল (স্টেমিং) বা আরগ্রাভিজ (গ্রাফ) এর মতো লাইব্রেরির পিছনে জাভা নিয়ে কিছু সমস্যা রয়েছে।
কেউ বিন্দু আউট গেল না প্যাকেজ - আমি দিকে তাকিয়ে আছে tm
, wordfish
এবং wordscores
, এবং NLTK সম্পর্কে জানতে - কিন্তু গবেষণা, কোড সহ যদি সম্ভব হয়, পাঠগত ডেটার উপর সফল যে ব্যবহারগুলি tm
বা অন্য কিছু সংসদীয় বিতর্ক বা বিধানিক নথি মত ডেটা বিশ্লেষণের? আমি ইস্যুতে খুব বেশি কিছু খুঁজে পেতে এবং এর থেকে আরও কম কোড শিখতে পারি না।
আমার নিজস্ব প্রকল্পটি একটি দুই মাসের সংসদীয় বিতর্ক, এই পরিবর্তনগুলি একটি সিএসভি ফাইলে জানানো হয়েছে: সংসদীয় অধিবেশন, স্পিকার, সংসদীয় গ্রুপ, মৌখিক হস্তক্ষেপের পাঠ্য। আমি স্পিকারের মধ্যে এবং বিশেষত বিরল এবং কম বিরল পদ ব্যবহারের ক্ষেত্রে সংসদীয় দলের মধ্যে বিভেদ খুঁজছি, যেমন "নাগরিক স্বাধীনতা" আলাপের বিরুদ্ধে "সুরক্ষা আলাপ"।