আমি কোনও সফ্টওয়্যার প্রকল্পে ব্যবহারের জন্য ইংরেজী ভাষায় ব্যবহৃত চরিত্র বা শব্দের ক্রমগুলির পরিসংখ্যান সংগ্রহ করার চেষ্টা করছি।
বিবিধ বিষয়ের বিভিন্ন বিষয়বস্তু জুড়ে ইংরেজী সরল-পাঠ্যের একটি বৃহত পরিমাণ (বেশিরভাগ জিবি চমৎকার হবে) কোথায় পাব?
আমি কোনও সফ্টওয়্যার প্রকল্পে ব্যবহারের জন্য ইংরেজী ভাষায় ব্যবহৃত চরিত্র বা শব্দের ক্রমগুলির পরিসংখ্যান সংগ্রহ করার চেষ্টা করছি।
বিবিধ বিষয়ের বিভিন্ন বিষয়বস্তু জুড়ে ইংরেজী সরল-পাঠ্যের একটি বৃহত পরিমাণ (বেশিরভাগ জিবি চমৎকার হবে) কোথায় পাব?
উত্তর:
আপনি উইকিপিডিয়ায় ডেটা ডাম্প ব্যবহার করতে পারেন । জন্য ইংরেজি উইকিপিডিয়া এক্সএমএল তথ্য ডাম্প যা বর্তমান পুনর্বিবেচনা অন্তর্ভুক্ত শুধুমাত্র 31 গিগাবাইট সম্পর্কে, তাই আমি বলতে চাই এটি আপনার গবেষণার জন্য একটি ভালো শুরু হবে। ডেটা ডাম্পটি বেশ বড়, সুতরাং আপনাকে একটি স্যাক্স পার্সার দিয়ে এক্সএমএল থেকে পাঠ্যগুলি বের করার বিষয়ে বিবেচনা করা উচিত। উইকিপিএমএলজে উইকিপিডিয়ায় সুরযুক্ত একটি জাভা এপিআই।
এবং তারপরে অবশ্যই স্ট্যাক এক্সচেঞ্জের ডেটা ডাম্প থাকে । সর্বশেষ এক সেপ্টেম্বর 2011 পর্যন্ত কিন্তু, তাই সম্ভবত যেমন সাধারণ হিসাবে আপনি চান চাই সব পাবলিক অ বিটা স্ট্যাক এক্সচেঞ্জ সাইট ও সংশ্লিষ্ট মেটা সাইট আপ অন্তর্ভুক্ত স্বাভাবিকভাবেই স্ট্যাক এক্সচেঞ্জ পোস্ট প্রতিটি সাইটের পরিধি উপর ঘনীভূত হয়। মেটা পোস্টগুলি যদিও কিছুটা সাধারণ, তাই আপনি উইকিপিডিয়া ছাড়াও সেগুলি বিবেচনা করতে পারেন।
আমি মনে করি না আপনি আরও ভাল কিছু পাবেন, বিশেষত সরল পাঠ্যে। ডেটা হাবের মাধ্যমে বেশ কয়েকটি ওপেন ডেটা সেট পাওয়া যায় , তবে আমি মনে করি যে ইংরেজি উইকিপিডিয়া ডেটা ডাম্প আপনি যা খুঁজছেন তার খুব কাছাকাছি।
গুগলের ডেটা সেটগুলির সংগ্রহ রয়েছে যা তারা এন-গ্রাম সম্ভাব্যতা নির্ধারণ করতে ব্যবহার করে। তাদের বিগ্রাম (2-গ্রাম) ডেটাসেটগুলি পরীক্ষা করা আপনাকে একটি ভাল ছবি দেবে। সেখানে আরও অনেক সংস্থা রয়েছে যার জন্য এই বিশ্লেষণগুলি ইতিমধ্যে করা হয়ে গেছে।
প্রকল্প গুটেনবার্গের ইতিমধ্যে পাঠ্য আকারে ইংরাজীতে পাঠ্যগুলির একটি বৃহত কর্পস রয়েছে।
প্রজেক্ট গুটেনবার্গ ৪২,০০০ এরও বেশি ফ্রি ইবুক অফার করে: নিখরচায় এপুব বই, বিনামূল্যে কিন্ডেল বইগুলির মধ্যে বেছে নিন, সেগুলি ডাউনলোড করুন বা অনলাইনে পড়ুন।
আমরা উচ্চ মানের ইবুক বহন করি: আমাদের সমস্ত ইবুকগুলি পূর্বে প্রকাশ্য প্রকাশক দ্বারা প্রকাশিত হয়েছিল। আমরা কয়েক হাজার স্বেচ্ছাসেবীর সহায়তায় ডিজিটালাইজড এবং অধ্যবসায়ের সাথে এগুলি প্রুফরিড করেছি ...
পরিসংখ্যানগুলির জন্য, আপনি সম্ভবত "ইংরেজী ভাষায় বিগ্রাম ফ্রিকোয়েন্সি" দেখছেন। একবার দেখুন: উইকি-বিগরম পরিসংখ্যান
একটি বড় পাঠ্য সন্ধানের জন্য, নোট করুন যে ফ্রিকোয়েন্সি পাঠ্যের ধরণের পক্ষপাতদুষ্ট হবে। উদাহরণস্বরূপ, আপনি ঠিকানাগুলি বিশ্লেষণ করলে আপনি সংবাদপত্রের গল্প বিশ্লেষণ থেকে আলাদা ফলাফল পাবেন। আপনি যদি কেবল পরীক্ষা করতে চান তবে আপনি যে কোনও বইয়ের পিডিএফ ফাইলটি ব্যবহার করতে পারেন (আরও ভাল কোনও গণিত হতে পারেন না or আপনি খবরের কাগজের ওয়েব পৃষ্ঠাগুলিকে পাঠ্যে রূপান্তর করতে এবং সেগুলিতে কাজ করতে পারেন।