আমি সংবাদ সংবাদের ভিত্তিতে ক্রাইম সূচক এবং রাজনৈতিক অস্থিরতা সূচক তৈরি করতে চাই


17

আমার এই পাশের প্রকল্প রয়েছে যেখানে আমি আমার দেশের স্থানীয় সংবাদ ওয়েবসাইটগুলি ক্রল করি এবং একটি অপরাধ সূচক এবং রাজনৈতিক অস্থিরতা সূচক তৈরি করতে চাই। আমি ইতিমধ্যে প্রকল্পের তথ্য পুনরুদ্ধার অংশ কভার করেছি। আমার পরিকল্পনাটি হ'ল:

  • নিরীক্ষণযোগ্য বিষয় নিষ্কাশন।
  • সদৃশ সনাক্তকরণের কাছাকাছি।
  • তত্ত্বাবধানে শ্রেণিবদ্ধকরণ এবং ঘটনার স্তর (অপরাধ / রাজনৈতিক - উচ্চ / মাঝারি / নিম্ন)।

আমি পাইথন এবং স্ক্লার্ন ব্যবহার করব এবং ইতিমধ্যে আমি সেই কার্যগুলির জন্য যে অ্যালগরিদমগুলি ব্যবহার করতে পারি তা নিয়ে গবেষণা করেছি। আমার মনে হয় ২. আমাকে একটি গল্পের একটি প্রাসঙ্গিক উপাদান দিতে পারে: কোনও গল্প বা বিষয় সম্পর্কে আরও বেশি সংবাদপত্র প্রকাশিত হয় সেই দিনের জন্য আরও প্রাসঙ্গিক।

আমার পরবর্তী পদক্ষেপটি আমার যে বৈশিষ্ট্যগুলি রয়েছে তার উপর ভিত্তি করে মাসিক, সাপ্তাহিক এবং দৈনিক সূচক (দেশভিত্তিক এবং প্রতি শহরগুলি) তৈরি করা এবং "অস্থিরতা সংবেদনশীলতা" সময় বাড়তে পারে বলে আমি এখানে কিছুটা হারিয়েছি। মানে, গত বছরের বড় অস্থিরতার ঘটনা সূচকটি এই বছরের সূচকের চেয়ে কম হতে পারে। এছাড়াও যদি নির্দিষ্ট স্কেল 0-100 ব্যবহার করা হয় বা না হয়।

পরে আমি এর ভিত্তিতে ঘটনার পূর্বাভাস দিতে সক্ষম হতে চাই, উদাহরণস্বরূপ, গত সপ্তাহগুলিতে ঘটনার ধারাবাহিকতা কোনও বড় ঘটনা ঘটাচ্ছে কিনা। তবে আপাতত শ্রেণিবদ্ধকরণ কাজ করে এবং সূচকের মডেলটি তৈরি করে আমি খুশি হব।

আমি কোনও কাগজ, প্রাসঙ্গিক পড়া বা চিন্তাভাবনা সম্পর্কে কোনও পয়েন্টারকে প্রশংসা করব। ধন্যবাদ।

পিডি: দুঃখিত যদি প্রশ্নটি এখানে না থাকে।

আপডেট : আমি এখনও "এটি তৈরি" করি নি, তবে সম্প্রতি একদল বিজ্ঞানী যে একটি সিস্টেমে নিউজ আর্কাইভ ব্যবহার করে ঘটনাগুলির পূর্বাভাস দেওয়ার জন্য কাজ করছে এবং ভবিষ্যতে ঘটনাগুলি পূর্বাভাসের জন্য ওয়েবে মাইনিং সম্পর্কিত একটি প্রবন্ধ প্রকাশ করেছে (পিডিএফ) প্রকাশিত হয়েছিল )।


প্রযুক্তিগত অংশের জন্য (সরঞ্জামগুলি) আমি ও'রেলি উভয়ই ভাল স্টারিং পয়েন্ট হিসাবে দুটি বইয়ের সুপারিশ করব: কালেক্টিভ ইন্টেলিজেন্স (পাইথন কোড সহ), মেশিন লার্নিং (আর কোড সহ) ... আপনার সাথে সম্পর্কিত বিষয়গুলি ক্যাপচার করুন। পরবর্তী পদক্ষেপটি ওয়েবসাইট পরিচালনা করা হতে পারে ... পদ্ধতিগত অংশের জন্য আমি লিঙ্কডইনে সেমেন্টিক ওয়েব গোষ্ঠীর প্রস্তাব দেব।
রাদু মারিয়াস ফ্লোরিন

এই প্রশ্নটি খুব ভাল। আমাদের তথ্য দিতে থেকো!!
এন্টার

উত্তর:


1

জিনি স্কোরের বিভিন্নতা বিবেচনা করুন।

এটি স্বাভাবিক করা হয় এবং এর আউটপুট 0 থেকে 1 পর্যন্ত থাকে।

সম্পাদনা করুন:

জিআইএনআই কেন "শান্ত" বা কমপক্ষে সম্ভাব্য উপযুক্ত:

এটি বৈষম্য বা বৈষম্যের একটি পরিমাপ। এটি অসীম এবং এলোমেলো নেটওয়ার্কগুলি সহ স্কেল-মুক্ত নেটওয়ার্কগুলির ভিন্নতার বৈশিষ্ট্য হিসাবে স্কেল মুক্ত পরিমাপ হিসাবে ব্যবহৃত হয়। এটি কার্ট গাছ তৈরিতে কার্যকর কারণ এটি কোনও নির্দিষ্ট ডেটা-বিভক্তির বিভাজন শক্তির পরিমাপ।

এর ব্যাপ্তির কারণে:

  • রাউন্ডঅফের ত্রুটি কম রয়েছে। 1.0 থেকে অনেক দূরে পরিসীমা সংখ্যাসূচক সমস্যায় ভুগতে থাকে।
  • এটি মানব পাঠযোগ্য এবং আরও বেশি মানুষের অ্যাক্সেসযোগ্য। মানুষের কোটি কোটি টাকার তুলনায় বস্তুগুলির আরও দৃ concrete় উপলব্ধি রয়েছে।

কারণ এটি স্বাভাবিক করা হয়েছে:

  • স্কোরের তুলনাগুলি অর্থবহ, কোনও দেশে 0.9 এর অর্থ অন্য কোনও দেশে 0.9 এর মতো আপেক্ষিক অ-অভিন্নতার একই স্তরের।
  • নিখুঁত অভিন্নতার জন্য এটি লোরেন্জ বক্ররেখার বিরুদ্ধে স্বাভাবিক করা হয় তাই মানগুলি লরেঞ্জ বক্ররেখার স্বার্থের মূল্য বন্টনের সম্পর্কের প্রাসঙ্গিক সূচক হয়।

তথ্যসূত্র:


4
@ ইংজারস্টুডেন্ট সাইটে আপনাকে স্বাগতম। আপনি জিনি সহগ সম্পর্কে আরও কিছু বলতে চাইবেন, এবং কেন এটি এখানে সঠিক উত্তর? যেহেতু আপনি এখানে নতুন এবং অবদান শুরু করছেন, আপনি আমাদের প্রায়শই জিজ্ঞাসিত প্রশ্নটি পড়তে চাইতে পারেন , যার মধ্যে সাইট সম্পর্কে প্রচুর তথ্য রয়েছে।
গং - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.