আমার এই পাশের প্রকল্প রয়েছে যেখানে আমি আমার দেশের স্থানীয় সংবাদ ওয়েবসাইটগুলি ক্রল করি এবং একটি অপরাধ সূচক এবং রাজনৈতিক অস্থিরতা সূচক তৈরি করতে চাই। আমি ইতিমধ্যে প্রকল্পের তথ্য পুনরুদ্ধার অংশ কভার করেছি। আমার পরিকল্পনাটি হ'ল:
- নিরীক্ষণযোগ্য বিষয় নিষ্কাশন।
- সদৃশ সনাক্তকরণের কাছাকাছি।
- তত্ত্বাবধানে শ্রেণিবদ্ধকরণ এবং ঘটনার স্তর (অপরাধ / রাজনৈতিক - উচ্চ / মাঝারি / নিম্ন)।
আমি পাইথন এবং স্ক্লার্ন ব্যবহার করব এবং ইতিমধ্যে আমি সেই কার্যগুলির জন্য যে অ্যালগরিদমগুলি ব্যবহার করতে পারি তা নিয়ে গবেষণা করেছি। আমার মনে হয় ২. আমাকে একটি গল্পের একটি প্রাসঙ্গিক উপাদান দিতে পারে: কোনও গল্প বা বিষয় সম্পর্কে আরও বেশি সংবাদপত্র প্রকাশিত হয় সেই দিনের জন্য আরও প্রাসঙ্গিক।
আমার পরবর্তী পদক্ষেপটি আমার যে বৈশিষ্ট্যগুলি রয়েছে তার উপর ভিত্তি করে মাসিক, সাপ্তাহিক এবং দৈনিক সূচক (দেশভিত্তিক এবং প্রতি শহরগুলি) তৈরি করা এবং "অস্থিরতা সংবেদনশীলতা" সময় বাড়তে পারে বলে আমি এখানে কিছুটা হারিয়েছি। মানে, গত বছরের বড় অস্থিরতার ঘটনা সূচকটি এই বছরের সূচকের চেয়ে কম হতে পারে। এছাড়াও যদি নির্দিষ্ট স্কেল 0-100 ব্যবহার করা হয় বা না হয়।
পরে আমি এর ভিত্তিতে ঘটনার পূর্বাভাস দিতে সক্ষম হতে চাই, উদাহরণস্বরূপ, গত সপ্তাহগুলিতে ঘটনার ধারাবাহিকতা কোনও বড় ঘটনা ঘটাচ্ছে কিনা। তবে আপাতত শ্রেণিবদ্ধকরণ কাজ করে এবং সূচকের মডেলটি তৈরি করে আমি খুশি হব।
আমি কোনও কাগজ, প্রাসঙ্গিক পড়া বা চিন্তাভাবনা সম্পর্কে কোনও পয়েন্টারকে প্রশংসা করব। ধন্যবাদ।
পিডি: দুঃখিত যদি প্রশ্নটি এখানে না থাকে।
আপডেট : আমি এখনও "এটি তৈরি" করি নি, তবে সম্প্রতি একদল বিজ্ঞানী যে একটি সিস্টেমে নিউজ আর্কাইভ ব্যবহার করে ঘটনাগুলির পূর্বাভাস দেওয়ার জন্য কাজ করছে এবং ভবিষ্যতে ঘটনাগুলি পূর্বাভাসের জন্য ওয়েবে মাইনিং সম্পর্কিত একটি প্রবন্ধ প্রকাশ করেছে (পিডিএফ) প্রকাশিত হয়েছিল )।