আমি তিন দিনের সাথে tmএক বন্ধুর একটি খসড়া কাগজ পড়ার সাথে সাথে কাটালাম যেখানে তিনি ইউসিআইএনইটি দিয়ে একটি টেক্সট কর্পাস অন্বেষণ করেছিলেন, যেখানে টেক্সট ক্লাউড, টু-মোড নেটওয়ার্ক গ্রাফ এবং একক মান পচন (স্টাটা ব্যবহার করে গ্রাফিক্স সহ) দেখিয়েছিলেন। আমি প্রচুর সমস্যার মুখোমুখি হয়েছি: ম্যাক ওএস এক্সে, স্নোবল (স্টেমিং) বা আরগ্রাভিজ (গ্রাফ) এর মতো লাইব্রেরির পিছনে জাভা নিয়ে কিছু সমস্যা রয়েছে।
কেউ বিন্দু আউট গেল না প্যাকেজ - আমি দিকে তাকিয়ে আছে tm, wordfishএবং wordscores, এবং NLTK সম্পর্কে জানতে - কিন্তু গবেষণা, কোড সহ যদি সম্ভব হয়, পাঠগত ডেটার উপর সফল যে ব্যবহারগুলি tmবা অন্য কিছু সংসদীয় বিতর্ক বা বিধানিক নথি মত ডেটা বিশ্লেষণের? আমি ইস্যুতে খুব বেশি কিছু খুঁজে পেতে এবং এর থেকে আরও কম কোড শিখতে পারি না।
আমার নিজস্ব প্রকল্পটি একটি দুই মাসের সংসদীয় বিতর্ক, এই পরিবর্তনগুলি একটি সিএসভি ফাইলে জানানো হয়েছে: সংসদীয় অধিবেশন, স্পিকার, সংসদীয় গ্রুপ, মৌখিক হস্তক্ষেপের পাঠ্য। আমি স্পিকারের মধ্যে এবং বিশেষত বিরল এবং কম বিরল পদ ব্যবহারের ক্ষেত্রে সংসদীয় দলের মধ্যে বিভেদ খুঁজছি, যেমন "নাগরিক স্বাধীনতা" আলাপের বিরুদ্ধে "সুরক্ষা আলাপ"।