পরিসংখ্যান এমএসসি থিসিসের জন্য ডেটা সায়েন্স ওরিয়েন্টেড ডেটাসেট / গবেষণা প্রশ্ন


11

আমি 'তথ্য বিজ্ঞান' অন্বেষণ করতে চাই। শব্দটি আমার কাছে কিছুটা অস্পষ্ট বলে মনে হয় তবে আমি এটিটি প্রত্যাশা করি:

  1. মেশিন লার্নিং (প্রথাগত পরিসংখ্যানের চেয়ে);
  2. আপনাকে ক্লাস্টারে বিশ্লেষণ চালাতে হবে এমন একটি যথেষ্ট পরিমাণে ডেটাসেট।

কিছু প্রোগ্রামিং ব্যাকগ্রাউন্ড সহ কোনও পরিসংখ্যানবিদদের অ্যাক্সেসযোগ্য কিছু ভাল ডেটাসেট এবং সমস্যাগুলি কী কী, যা আমি ডেটা বিজ্ঞানের ক্ষেত্রটি অন্বেষণ করতে ব্যবহার করতে পারি?

এটি যতটা সম্ভব সংকীর্ণ রাখতে, আমি আদর্শভাবে লিঙ্কগুলি খুলতে চাই, ভাল ব্যবহৃত ডেটাসেট এবং উদাহরণস্বরূপ সমস্যাগুলি চাই।

উত্তর:


8

স্রেফ kaggle.com যাও; এটি আপনাকে দীর্ঘ সময়ের জন্য ব্যস্ত রাখবে। উন্মুক্ত তথ্যের জন্য ইউসি ইরভিন মেশিন লার্নিং রিপোজিটরি রয়েছে । আসলে, এটির জন্য নিবেদিত একটি পুরো স্ট্যাকেক্সচেঞ্জ সাইট রয়েছে ; ও দিক দেখ.


5

সূর্যালোক ফাউন্ডেশন একটি প্রতিষ্ঠানের যে খুলুন এবং সরকার ডেটার নির্দলীয় বিশ্লেষণ উত্সাহিত উপর দৃষ্টি নিবদ্ধ করা হয়।

বুনোয় সেখানে এক টন বিশ্লেষণ আছে যা তুলনা এবং বিভিন্ন ধরণের বিষয়ের জন্য ব্যবহার করা যেতে পারে।

তারা ডেটা অ্যাক্সেসের জন্য সরঞ্জাম এবং এপিআই সরবরাহ করে এবং ডেটা . gov এর মতো জায়গাগুলিতে ডেটা উপলভ্য করতে পুশকে সহায়তা করেছে

একটি আকর্ষণীয় প্রকল্প হ'ল ইনফ্লুয়েন্স এক্সপ্লোরার । আপনি উত্স ডেটা পাশাপাশি রিয়েল টাইম ডেটা অ্যাক্সেস পেতে পারেন ।

আপনি আমাদের আরও জনপ্রিয় প্রশ্নগুলির মধ্যে একবারে নজর দিতে চাইতে পারেন:

সর্বজনীনভাবে উপলব্ধ ডেটাসেটগুলি


5

কম্পিউটার বিজ্ঞানে আপনার মাস্টার্স কি? পরিসংখ্যান?

'তথ্য বিজ্ঞান' কি আপনার থিসিসের কেন্দ্রে থাকবে? না কোনও পাশের বিষয়?

আমি আপনার পরিসংখ্যানগুলিতে অনুমান করব এবং আপনি আপনার থিসিসটি একটি 'ডেটা সায়েন্স' সমস্যার দিকে ফোকাস করতে চান। যদি তা হয় তবে আমি শস্যের বিরুদ্ধে যাচ্ছি এবং পরামর্শ দিচ্ছি যে আপনার কোনও ডেটা সেট বা এমএল পদ্ধতি দিয়ে শুরু করা উচিত নয় । পরিবর্তে, আপনার এমন একটি আকর্ষণীয় গবেষণা সমস্যা সন্ধান করা উচিত যা দুর্বলভাবে বোঝা গেছে বা যেখানে এমএল পদ্ধতিগুলি এখনও সফলভাবে প্রমাণিত হয়নি, বা যেখানে অনেকগুলি প্রতিযোগী এমএল পদ্ধতি রয়েছে তবে এটি অন্যের চেয়ে ভাল বলে মনে হয় না।

এই ডেটা উত্সটি বিবেচনা করুন: স্ট্যানফোর্ড লার্জ নেটওয়ার্ক ডেটাসেট সংগ্রহ । আপনি যখন পারে , এই ডেটা সেট এক বাছাই করার সময় একটি সমস্যা বিবৃতি আপ করতে, এবং তারপর এমএল পদ্ধতির কিছু তালিকা চলাচল করে, যাতে পদ্ধতির সত্যিই আপনাকে অনেক সম্পর্কে কি বলুন না ডেটা বিজ্ঞান সম্পর্কে সব হয়, এবং আমার মতে না একটি খুব ভাল মাস্টার্স থিসিস নেতৃত্বে।

পরিবর্তে, আপনি এটি করতে পারেন: নির্দিষ্ট গবেষণা বিভাগে এমএল ব্যবহার করা সমস্ত গবেষণা কাগজ সন্ধান করুন - যেমন সহযোগী নেটওয়ার্ক (ওরফে সহ-লেখক)। আপনি প্রতিটি কাগজ পড়তে হিসাবে, যা তারা খুঁজে বের করতে চেষ্টা ছিল প্রতিটি এমএল পদ্ধতি এবং তারা কি ঠিকানায় সক্ষম ছিল না সঙ্গে সম্পন্ন করার জন্য সক্ষম। বিশেষ করে "ভবিষ্যতের গবেষণা" করার জন্য তাদের পরামর্শগুলি সন্ধান করুন।

সম্ভবত তারা সবাই একই পদ্ধতি ব্যবহার করে তবে কখনও এমএল পদ্ধতিতে প্রতিযোগিতা করার চেষ্টা করেনি। অথবা হতে পারে তারা যথাযথভাবে তাদের ফলাফলগুলি বৈধতা দেয় না, বা সম্ভবত সেখানে ডেটা সেটগুলি ছোট, বা তাদের গবেষণামূলক প্রশ্ন এবং অনুমানটি সরল বা সীমিত ছিল।

সর্বাধিক গুরুত্বপূর্ণ: অনুসন্ধানের এই লাইনটি কোথায় চলেছে তা জানার চেষ্টা করুন। তারা কেন এটি করতে বিরক্ত করছে? এটি সম্পর্কে কি তাৎপর্যপূর্ণ? তারা কোথায় এবং কেন সমস্যার মুখোমুখি হচ্ছে?


এটি একটি দুর্দান্ত ধারণা। মাস্টার্স পরিসংখ্যান হয়।
ব্যবহারকারী 3279453
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.