সর্বজনীনভাবে উপলব্ধ ডেটাসেটগুলি


167

ডেটা সায়েন্সের সাধারণ সমস্যাগুলির মধ্যে একটি হ'ল কোনওভাবে পরিষ্কার (অর্ধ-কাঠামোগত) ফর্ম্যাটে বিভিন্ন উত্স থেকে ডেটা সংগ্রহ করা এবং একটি উচ্চ স্তরের বিশ্লেষণ করার জন্য বিভিন্ন উত্স থেকে মেট্রিকের সংমিশ্রণ করা। অন্যান্য ব্যক্তির প্রচেষ্টা, বিশেষত এই সাইটের অন্যান্য প্রশ্নগুলির দিকে তাকালে মনে হয় যে এই ক্ষেত্রের অনেক লোক কিছুটা পুনরাবৃত্তিমূলক কাজ করছেন। উদাহরণস্বরূপ টুইটগুলি, ফেসবুক পোস্টগুলি, উইকিপিডিয়া নিবন্ধগুলি বিশ্লেষণ করা অনেক বড় ডেটা সমস্যার একটি অংশ।

এর মধ্যে কয়েকটি ডেটা সেট সরবরাহকারীর সাইটের সরবরাহিত পাবলিক এপিআই ব্যবহার করে অ্যাক্সেসযোগ্য হয় তবে সাধারণত, কিছু এপিআইগুলি থেকে মূল্যবান তথ্য বা মেট্রিকগুলি অনুপস্থিত থাকে এবং প্রত্যেককে একই বারবার একই বিশ্লেষণ করতে হয়। উদাহরণস্বরূপ, যদিও ক্লাস্টারিং ব্যবহারকারীরা বিভিন্ন ব্যবহারের ক্ষেত্রে এবং বৈশিষ্ট্যগুলির নির্বাচনের উপর নির্ভর করতে পারেন তবে টুইটার / ফেসবুক ব্যবহারকারীদের একটি বেস ক্লাস্টারিং অনেকগুলি বিগ ডেটা অ্যাপ্লিকেশনগুলিতে কার্যকর হতে পারে, যা এপিআই দ্বারা সরবরাহ করা হয় না বা স্বাধীন ডেটা সেটগুলিতে প্রকাশ্যে উপলব্ধ হয় না ।

মূল্যবান ডেটা সেট সহ এমন কোনও সূচক বা প্রকাশ্যে উপলভ্য ডেটা সেট হোস্টিং সাইট রয়েছে যা অন্যান্য বড় ডেটা সমস্যা সমাধানে পুনরায় ব্যবহার করা যেতে পারে? ডেটা সায়েন্সের জন্য আমি গিটহাব (বা সাইটগুলি / পাবলিক ডেটাসেটের একটি গ্রুপ বা কমপক্ষে একটি বিস্তৃত তালিকা) এর মতো কিছু বলতে চাইছি। যদি তা না হয় তবে ডেটা সায়েন্সের জন্য এ জাতীয় প্ল্যাটফর্ম না থাকার কারণ কী? ডেটার বাণিজ্যিক মূল্য, ঘন ঘন ডেটা সেট আপডেট করা দরকার, ...? আমাদের কি ডেটা বিজ্ঞানীদের জন্য তৈরি ডেটা সেট ভাগ করে নেওয়ার জন্য ওপেন সোর্স মডেল থাকতে পারে না?


18
উত্সর্গীকৃত ওপেনডেটা.এসইতে এই প্রশ্নটি আরও উপযুক্ত হতে পারে । এটি বলেছিল, আমি ডাটের জন্য আমার আঙ্গুলগুলি অতিক্রম করেছি , যা "ডেটার জন্য গিট" হয়ে উঠতে আগ্রহী।
ওজডো

2
@ ইউজডো ধন্যবাদ, আমি ওপেনডাটার কথা কখনও শুনিনি। এসই, আমি এই আকর্ষণীয় (এবং খুব অনুরূপ) প্রশ্নটিও সেখানে পেয়েছি ।
আমির আলী আকবরী


টিপিকাল বিজনেস ইন্টেলিজেন্স অ্যাপ্লিকেশনগুলির জন্য ভাল কোনও ভাল বিস্তৃত ডেটাসেট আমি খুঁজে পাইনি। অফিসিয়াল Microsoft থেকে খুচরা ইন্ডাস্ট্রি জন্য Microsoft Contoso দ্বি ডেমো ডেটা সেটটি ডাউনলোড সেন্টার ডাউনলোড কিছু Microsoft পণ্যগুলির (দেখুন সঙ্গে কাজ করে SharePoint এবং অন্যান্য ব্যবসায়িক সফটওয়্যার উপর AndyGett ), কিন্তু আমি কোনো প্লেইন SQL বা এর CSV ডাম্প, কিংবা কোনো লাইসেন্স তথ্য দেখতে না ।
নীলামকবি

1
আপনি কি ওপেন ডেটা স্ট্যাক এক্সচেঞ্জে যোগ দিয়েছেন? opendata.stackexchange.com
sss4r

উত্তর:


87

প্রকৃতপক্ষে, বিভিন্ন উদ্যোগ / উত্স দ্বারা সমর্থিত সর্বজনীনভাবে উপলব্ধ ডেটাসেটগুলির একটি খুব যুক্তিসঙ্গত তালিকা রয়েছে।

তাদের কয়েকটি নীচে রয়েছে:

এখন, আপনার প্রশ্নে দুটি বিবেচনা। প্রথমটি, ডাটাবেস ভাগ করে নেওয়ার নীতি সম্পর্কিত। ব্যক্তিগত অভিজ্ঞতা থেকে, এমন কিছু ডাটাবেস রয়েছে যা গোপনীয়তা প্রতিরোধের জন্য জড়িত (কিছু সামাজিক নেটওয়ার্কের তথ্য হিসাবে) বা সরকারী তথ্য সম্পর্কিত (স্বাস্থ্য সিস্টেমের ডাটাবেসগুলির জন্য) প্রকাশ্যে উপলব্ধ করা যায় না।

আর একটি বিষয় ডেটাসেটের ব্যবহার / প্রয়োগ সম্পর্কিত। যদিও অ্যাপ্লিকেশনগুলির প্রয়োজন অনুসারে কিছু ঘাঁটি পুনরায় সংশোধন করা যেতে পারে তবে উদ্দেশ্য করে ডেটাসেটগুলির কয়েকটি সুন্দর সংগঠন রাখা ভাল হবে । বর্গীকরণ সূত্র সামাজিক গ্রাফ বিশ্লেষণ, itemset খনন, শ্রেণীবিন্যাস, এবং অন্যান্য গবেষণা এলাকায় হতে পারে প্রচুর জড়িত করা উচিত নয়।


64

হালনাগাদ:

আধুনিক ডেটা সায়েন্স ও মেশিন লার্নিং উত্সাহীদের একটি বাড়ি কাগল ডট কম , এটি নিজস্ব ডেটা সেটগুলির নিজস্ব ভান্ডার খোলে ।


তালিকাভুক্ত উত্স ছাড়াও।

কিছু সামাজিক নেটওয়ার্কের ডেটা সেট:

পরিসংখ্যান এসই তে প্রচুর উত্স তালিকাভুক্ত রয়েছে:


37

অনেকগুলি প্রকাশ্যে উপলভ্য ডেটা সেট রয়েছে, একাধিক লোক প্রায়শই উপেক্ষা করে থাকে ডেটা . gov । পূর্বে উল্লিখিত ফ্রিবেস দুর্দান্ত, তাই @ রুবেন্স পোস্ট করেছেন সমস্ত উদাহরণ by


35

ফ্রিবেস একটি নিখরচায় কমিউনিটি চালিত ডাটাবেস যা অনেক আকর্ষণীয় বিষয় ছড়িয়ে দেয় এবং মেশিন রিডেবল ফর্ম্যাটে প্রায় 2,5 বিলিয়ন তথ্য ধারণ করে। ডেটা ক্যোয়ারী সম্পাদন করার জন্য এটিরও ভাল API রয়েছে।

এখানে ওপেন ডেটা সেটগুলির আরও একটি সংকলিত তালিকা রয়েছে: http://www.datapure.co/open-data-sets


ফ্রিবেস বন্ধ হয়ে যাচ্ছে এবং এর ডেটাবেস শীঘ্রই উইকিডেটাতে স্থানান্তরিত হবে ।
সিন্ডডল


25

বিশেষত সময় সিরিজের ডেটাগুলির জন্য, কোয়ান্ডল একটি দুর্দান্ত সম্পদ - (বেশিরভাগ) পরিষ্কার সময় সিরিজের একটি সহজে ব্রাউজযোগ্য ডিরেক্টরি।

তাদের দুর্দান্ত বৈশিষ্ট্যগুলির মধ্যে একটি হ'ল ওপেন-ডেটা স্টকের দাম - অর্থাত্ আর্থিক ডেটা যা উইকি স্টাইলে সম্পাদনা করা যেতে পারে, এবং লাইসেন্স দিয়ে জড়িত নয়।


20

এনিগমা হল সর্বজনীন উপলভ্য ডেটাসেটের একটি ভাণ্ডার। এটির নিখরচায় মাসে 10k API কল সহ সর্বজনীন ডেটা অনুসন্ধানের প্রস্তাব দেওয়া হয়। সমস্ত পাবলিক ডাটাবেস তালিকাভুক্ত নয়, তবে সাধারণ ক্ষেত্রে তালিকাটি যথেষ্ট।

আমি এটি একাডেমিক গবেষণার জন্য ব্যবহার করেছি এবং এটি আমার অনেক সময় সাশ্রয় করেছে।


ডেটাগুলির আরেকটি আকর্ষণীয় উত্স হ'ল ইউনাইটেড স্টেটস প্রকল্প , যা মার্কিন যুক্তরাষ্ট্র সম্পর্কে (কংগ্রেসের সদস্য, ভৌগলিক আকার…) সম্পর্কিত তথ্য এবং সরঞ্জামগুলি সংগ্রহ করে।


18

আমি ওপেন ডেটা শুমারিতে ইঙ্গিত করতে চাই । এটি ওপেন নলেজ ফাউন্ডেশনের একটি উদ্যোগ যা সারা বিশ্বে ওপেন ডেটা অ্যাডভোকেট এবং বিশেষজ্ঞদের অবদানের ভিত্তিতে।

ওপেন ডেটা জনগণনা মান চালিত খোলা, কমিউনিটি, এবং সংগ্রহ ও দেশের উপর বিশ্বব্যাপী খোলা ডেটাসেট ডাটাবেস আপডেট এবং কিছু ক্ষেত্রে, এর নিয়মানুগ প্রচেষ্টা আমেরিকার মত, শহর স্তরের উপর

এছাড়াও, এটি আগ্রহী বাছাইয়ের ক্ষেত্রে বিভিন্ন দেশ এবং শহরগুলির তুলনা করার একটি সুযোগ উপস্থাপন করে।


18

দ্য গার্ডিয়ান, ব্রিটিশ ডেইলি তাদের ওয়েবসাইটে সরবরাহ করেছে এমন আরও একটি সংস্থান রয়েছে। গার্ডিয়ান ডেটাব্লগ দ্বারা প্রকাশিত ডেটাসেটগুলি সমস্ত হোস্ট করা হয়। ফুটবল প্রিমিয়ার লিগ ক্লাবগুলির অ্যাকাউন্ট, মুদ্রাস্ফীতি এবং যুক্তরাজ্যের জিডিপির বিবরণ, গ্র্যামি পুরষ্কারের ডেটা ইত্যাদির সাথে সম্পর্কিত ডেটাসেটস

আরও কিছু সংস্থান। কিছু ডেটাসেটগুলি আর ফর্ম্যাটে রয়েছে বা আর কমডের উপস্থিত রয়েছে সরাসরি আরে ডেটা আমদানির জন্য exist


17

কাস্টম গুগল অনুসন্ধান

আপনি ডেটাসেটের জন্য কাস্টম গুগল অনুসন্ধান ব্যবহার করতে পারেন:

গুগল কাস্টম অনুসন্ধান: ডেটাসেটস

এটিতে এই প্রশ্নে উল্লিখিত সমস্ত সহ ২৩০ টি উত্স এবং ডেটাসেটের মেটা-উত্স রয়েছে। দয়া করে অনুসন্ধান লাইনে "-.gov" বা "-Site.com" যুক্ত করে .gov এবং অন্য কোনও ওয়েবসাইটকে ফলাফল থেকে বাদ দিতে নির্দ্বিধায় হন। অন্যান্য গুগল অনুসন্ধান অপারেটর কাজ করে।

কোন ওয়েবসাইটগুলি যুক্ত করতে হবে আপনার যদি ধারণা থাকে তবে আমার সাথে যোগাযোগ করতে দ্বিধা করবেন না।

IOGDS

নিম্নলিখিত পরিষেবাটি এক হাজারেরও বেশি পাবলিক ডেটাসেটকে শ্রেণিবদ্ধ করেছে:

আইওজিডিএস: আন্তর্জাতিক ওপেন গভর্নমেন্ট ডেটাসেট অনুসন্ধান


আপনার প্রদত্ত কাস্টম অনুসন্ধান লিঙ্কটির পরামিতিগুলি কী কী? এটি ওয়েবসাইট, কীওয়ার্ড ইত্যাদির তালিকায় অনুসন্ধান করে?
আমির আলী আকবরী

@ আমিরআলিআকবাড়ি এটি ডেটা.gov, কোয়ান্ডাল এবং অন্যান্য বড় ডেটা গুদামের মতো উত্সগুলির সন্ধান করে।
আন্তন তারাসেনকো

16

দেরীতে উত্তর, তবে এখানে 100+ আকর্ষণীয় ডেটা সেটের একটি সারগ্রাহী তালিকা রয়েছে

ব্লগ পোস্টটি মজাদার এবং এর মাধ্যমে পড়তে সহজ (আমার কোনও সম্পর্ক নেই)। এটি স্ক্যান করার জন্য, এবং শীর্ষ থেকে কয়েকটি স্ক্র্যাপ করার জন্য এটি মূল্যবান:

  • প্রতিটি টেক্সাসের বন্দীদের শেষ কথা 1984 সাল থেকে মৃত্যুদন্ড কার্যকর করা হয়েছিল

  • বিড়ালগুলির 10,000 টি টিকাযুক্ত চিত্র

  • ২.২ মিলিয়ন দাবা ম্যাচ



15

আপনি কি পুমা বেঞ্চমার্ক এবং ডেটাসেট ডাউনলোডগুলি সম্পর্কে জানতেন? https://sites.google.com/site/farazahmad/pumadatasets

এটিতে নিম্নলিখিতগুলি অন্তর্ভুক্ত রয়েছে:

  1. TeraSort
  2. উইকিপিডিয়া
  3. তালিকাবদ্ধ
  4. স্বয়ং-যোগ
  5. অন্তিক-তালিকা
  6. সিনেমা-ডাটাবেসের
  7. তম স্থান-ইনভার্টেড-সূচক

15

যুক্তরাজ্য সরকার সরকারী বিভাগগুলিতে সংগৃহীত অ-ব্যক্তিগত তথ্যগুলির একটি দুর্দান্ত উত্স সরবরাহ করে: http://data.gov.uk


14

এই ফোরামে আমি নতুন. এই প্রশ্নে দেরিতে চিমিং। আমি সর্বজনীনভাবে উপলব্ধ ডেটা পোর্টালগুলির একটি ক্যাটালগ বজায় রেখেছি (আমি এর সহ-প্রতিষ্ঠাতা)। বিশ্বজুড়ে আন্তর্জাতিক, ফেডারেল, রাজ্য, পৌরসভা এবং একাডেমিক পর্যায়ে এখন 1000 এরও বেশি তালিকাভুক্ত এবং কভার পোর্টাল রয়েছে।

http://www.opengeocode.org/opendata/


14

আমি আশ্চর্য হয়েছি কেউ এটি উল্লেখ করেনি, কারণ এটি মোটামুটি সুস্পষ্ট বলে মনে হয়: http://www.kaggle.com ধারাবাহিকভাবে নতুন এবং খুব আকর্ষণীয় ডেটাসেট রয়েছে। তথ্য একটি সম্পদ হিসাবে বিবেচিত হয়, তাই প্রায়শই সংস্থাগুলি সেই ডেটা (অতিরিক্ত গোপনীয়তার উদ্বেগ) প্রকাশ করতে চায় না। Kaggle আপনাকে ডেটা দেয় এবং তারা আশা করে আপনি এর বিনিময়ে ব্যবসায়ের সমস্যাগুলি সমাধান করেছেন।


14

ডেটা সেট

অসাধারণ-ডেটাসায়েন্স থেকে ডেটা সেট


1
আপনি দয়া করে উভয় ডেটাসেট / লিঙ্কগুলিতে কিছু তথ্য সরবরাহ করতে পারেন? এটি প্রকৃতপক্ষে ডেটা সেটের নির্দিষ্ট ধরণের সন্ধানকারীদের বোঝাটি সহজ করবে। আপনার উল্লেখগুলি কী ধরণের তথ্য অনুপস্থিত রয়েছে তা দেখতে অন্যান্য পোস্টগুলিতে একবার দেখুন।
রুবেন্স

11

যেমন আপনি উল্লেখ করেছেন, এপিআই হ'ল হার্ড অংশ, ডেটা নয়। কোয়ান্ডল এক সহজ, আরএসএফুল এপিআই এর অধীনে 10 মিলিয়নেরও বেশি প্রকাশ্যে উপলভ্য ডেটা সেট সরবরাহ করে এই সমস্যার সমাধান করছে বলে মনে হচ্ছে। প্রোগ্রামিং যদি আপনার শক্তিশালী মামলা না হয় তবে এক্সেলের মাধ্যমে ডেটা লোডিং করার জন্য একটি বিনামূল্যে সরঞ্জাম রয়েছে। উপরন্তু, যদি আপনি কি করতে প্রোগ্রামিং ভোগ, সেখানে বিভিন্ন দেশীয় লাইব্রেরি হয় আর, পাইথন, জাভা এবং আরো



11

এই সংগ্রহটি আমি গিথুব জুড়ে এসেছি। সংগ্রহটি পাশাপাশি শ্রেণীবদ্ধ করা হয়েছে।

https://github.com/caesar0301/awesome-public-datasets

এবং অংশ সম্পর্কে

ডেটা বিজ্ঞানীদের জন্য তৈরি ডেটা সেট ভাগ করে নেওয়ার জন্য কোনও ওপেন সোর্স মডেল কি না?

আপনি ডেটা ভাগ করে নেওয়ার জন্য লিক গ্রুপের গাইড উল্লেখ করতে পারেন



9

অন্য একটি ডেটা উত্স যা আমি তালিকাবদ্ধ দেখতে পাইনি তা হ'ল জিডিএলটি প্রকল্প । সাইট থেকে:

জিডিএলটিটি প্রকল্প বিশ্বের প্রায় প্রতিটি কোণ থেকে 100 টিরও বেশি ভাষায় বিশ্বের সম্প্রচার, প্রিন্ট এবং ওয়েব নিউজ পর্যবেক্ষণ করে এবং আমাদের বিশ্ব সমাজকে প্রতিদিনের দ্বিতীয় সেকেন্ডে চালিত মানুষ, অবস্থান, সংস্থা, গণনা, থিম, উত্স এবং ইভেন্টগুলি সনাক্ত করে, গোটা বিশ্বে কম্পিউটারের জন্য একটি মুক্ত উন্মুক্ত প্ল্যাটফর্ম তৈরি করা।


8

এই সাব্রেডডিটটি প্রচুর পরিচিত ডেটাসেটগুলি তালিকাভুক্ত করে

রেডডিট ডেটাসেটস

সেই সাবরেডিটে অনেকগুলি ডেটাসেট অনুরোধ রয়েছে, যার বেশ কয়েকটি উত্তর দেওয়া হয়েছে।


6

আমি এর জন্য একটি গিথুব রেপো তৈরি করেছি। ডেটাসেটগুলি বড় নয়, তবে ভবিষ্যদ্বাণীপূর্ণ-মডেলিং কৌশলগুলি অনুশীলন এবং অন্বেষণ করার উদ্দেশ্যে তৈরি ন্যূনতম উদাহরণ যা পরে বড় ডেটাসেটগুলিতে প্রসারিত হতে পারে।

মেশিন লার্নিং সমস্যা বাইবেল (এমএলপিবি)

এই রেপো সম্পর্কে দুর্দান্ত / অনন্য জিনিসটি হ'ল প্রতিটি সমস্যাটিকে [বহু-শ্রেণীর], [ভারসাম্যহীন-ডেটা], [রিগ্রেশন] ইত্যাদির মতো ট্যাগ দিয়ে ট্যাগ করা হয় এবং নির্দিষ্ট ধরণের সমস্যা / ডেটাসেটগুলি সন্ধান করা সহজ করে তোলে।



6

এই সমস্ত ডেটাসেট ছাড়াও, যদি আপনি ভারতের সম্পর্কিত ডেটাতে আগ্রহী হন। ভারত সরকারের পাবলিক অফিসিয়াল সাইট হ'ল

এটি ভারত সরকারের বিভিন্ন বিভাগের ডেটাসেট সরবরাহ করে যা বিগ ডেটা বিশ্লেষণ ও মেশিন লার্নিংয়ের জন্য ভালভাবে ব্যবহার করা যেতে পারে।



4

কেবলমাত্র আমরা এমএসএস প্যাকেজ লোড করি আর আমরা একাধিক ডেটা ফ্রেম বা ডেটা সেট অ্যাক্সেস করি।

ইনস্টল.প্যাকেজ ("MASS") প্রয়োজন ("MASS")


3

থেকে 3 ডেটাসেট Https://www.jc-bingo.com/about

  • ভিজিটর-হিট.সিএসভি একত্রীকৃত দর্শকদের আগ্রহ 1 সপ্তাহের ওয়েব অ্যাক্সেস লগের উপর ভিত্তি করে সংকলিত। ভিজিটর আইপি ঠিকানা, ব্যবহারকারী-এজেন্ট স্ট্রিং, দর্শনার্থীর দেশ, অ্যাক্সেস করা পৃষ্ঠা ভাষা এবং বিষয় অন্তর্ভুক্ত করে। 19,926 রেকর্ডস, 2.9 এমবি।
  • ব্যবহারকারীর এজেন্টস। সিএসভি প্রকৃত দর্শক ব্যবহারকারী এজেন্টরা জনপ্রিয়তার দ্বারা আদেশ করেছেন। 4,826 রেকর্ড, 716 কেবি।
  • bots.csv রোবটের আইপি ঠিকানা এবং ব্যবহারকারী-এজেন্ট স্ট্রিংগুলি ওয়েব অ্যাক্সেস লগগুলি থেকে নেওয়া। 1,293 রেকর্ড, 122 কেবি।

3

স্পষ্টতই, এখানে প্রচুর পাবলিক ডাটাবেস রয়েছে।

এখনও উল্লেখ করা হয়নি, একজন এফএও থেকে এসেছেন ( খাদ্য ও কৃষি সংস্থা) থেকে প্রাপ্ত, এখানে প্রবেশযোগ্য:

http://www.fao.org/faostat/

এতে বিশ্বব্যাপী দেশগুলির খাদ্য উত্পাদন সম্পর্কিত তথ্য রয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.