একটি বৃহত টেক্সট কর্পাস কোথায় পাবেন? [বন্ধ]


16

আমি ডাউনলোড করতে বৃহত (> 1000) পাঠ্য কর্পাস খুঁজছি। বাঞ্ছনীয় সঙ্গে বিশ্ব সংবাদ বা কোন ধরণের রিপোর্ট । আমি কেবল পেটেন্ট সহ একটি পেয়েছি। কোনও পরামর্শ?


এই থ্রেডটি বিষয়বহুল বলে মনে হচ্ছে। মেটা.স্ট্যাটস.স্ট্যাকেক্সেঞ্জাওয়েশনস / সেকশনস ১০.০৩৩/২ দেখুন ।
whuber

এই প্রশ্নটি বিষয়বস্তু হিসাবে উপস্থিত বলে মনে হচ্ছে কারণ এটি পরিসংখ্যান বিশ্লেষণ না করে কোনও ডেটা সেট সন্ধান করার বিষয়ে
পিটার ফ্লুম - মনিকা পুনরায়

2
ওয়েল এটি বিশ্রী, কারণ এই প্রশ্নোত্তর সত্যিই দরকারী।
সিডিশো বব

@ গুয়াকা, দয়া করে এই ধরনের ছোটখাটো সম্পাদনাগুলির জন্য পুরানো পোস্টগুলিকে ঘৃণা করবেন না, বিশেষত এমন একটি পোস্ট যা বন্ধ রয়েছে। এটি সত্য যে আমাদের শৈলীর পছন্দটি "ধন্যবাদ" না হওয়া নয়, তবে এই ছোটখাটো কিছু করার জন্য আমরা কেবল এটি ছেড়ে যেতে চাই।
গুং - মনিকা পুনরায়

উত্তর:



6

উইকিনিউজের কী হবে ? আমি যে সর্বশেষ ডাটাবেস ডাম্পটি পেতে পারি তা এখানে: http://dumps.wikimedia.org/enwikinews/20111120/

আপনি সম্ভবত "সমস্ত পৃষ্ঠা, কেবলমাত্র বর্তমান সংস্করণ" চান - সংস্করণ।


এটি আর কাজ করে না।
vy32

ডাম্প লিঙ্ক আর কাজ করে না। অঞ্চল অনুসারে ডেটাসেটটি ছোট এবং পুরানো
হ্যাপি কোডিং

6

রয়টার্সের পাঠ্য কর্পাসটি ক্ষেত্রের একটি সর্বোত্তম এবং এটি এখানে পাওয়া যাবে


এটি সবচেয়ে আকর্ষণীয় (বা বিচিত্র) কর্পাস নয়। লাইসেন্সটি উইকিলিকস (পাবলিক ডোমেন মার্কিন নথি) বা উইকিনিউজের সাথে সম্পর্কিতও সীমাবদ্ধ।
শুক্রবার

@ আরিডেল আমি সম্মত, তবে এটি সাধারণত পরিচিতি এনএলপি উদাহরণগুলিতে ব্যবহৃত হয়, এবং এটির শেখার ক্ষেত্রে এটি যথেষ্ট পরিমাণে কার্যকর তবে একটি ভাল ল্যাপটপে বিশ্লেষণ করার মতো যথেষ্ট ছোট।
richiemorrisroe


1

যদি উদ্দীপনা কোনও সমস্যা না হয় তবে আপনি চেষ্টা করতে পারেন

http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version

এবং আপনার বাজেটের উপর নির্ভর করে ইনফোকিম্পে আরও অনেক অনুরূপ ডেটাসেট রয়েছে।

শুভেচ্ছা, অ্যান্ডি।


এটি আর কাজ করে না
vy32

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.