আমি নমুনা পাঠ্যের বিচিত্র সেট কোথায় পেতে পারি? [বন্ধ]


14

আমি কোনও সফ্টওয়্যার প্রকল্পে ব্যবহারের জন্য ইংরেজী ভাষায় ব্যবহৃত চরিত্র বা শব্দের ক্রমগুলির পরিসংখ্যান সংগ্রহ করার চেষ্টা করছি।

বিবিধ বিষয়ের বিভিন্ন বিষয়বস্তু জুড়ে ইংরেজী সরল-পাঠ্যের একটি বৃহত পরিমাণ (বেশিরভাগ জিবি চমৎকার হবে) কোথায় পাব?


3
একরকম আমি অনুভব করি আপনি বিশেষত এই চিত্রগুলি
ইয়ানিস

@ ইয়ানিস রিজোজ এগুলি দুর্দান্ত: ডি।
জেসিরিস

@ ইয়ানিস রিজোস ওহ তারা খুব সুন্দর ...
সেভেনস্যাট

@ ইয়ানিসরিজোজ এটি কয়েক বছর আগে বন্ধ ছিল। অবশেষে আমি প্রশ্নটি সম্পাদনা করেছিলাম যাতে এটি QA বিন্যাসের জন্য আরও কিছু নির্দিষ্ট এবং আরও ভাল। আমি কি এখন এটি আন-ক্লোজড পেতে পারি? (আপনি এই থ্রেডের একমাত্র ব্যক্তি যিনি এখনও একজন মডারেটর)।
জেসিদারিস

উত্তর:


19

আপনি উইকিপিডিয়ায় ডেটা ডাম্প ব্যবহার করতে পারেন । জন্য ইংরেজি উইকিপিডিয়া এক্সএমএল তথ্য ডাম্প যা বর্তমান পুনর্বিবেচনা অন্তর্ভুক্ত শুধুমাত্র 31 গিগাবাইট সম্পর্কে, তাই আমি বলতে চাই এটি আপনার গবেষণার জন্য একটি ভালো শুরু হবে। ডেটা ডাম্পটি বেশ বড়, সুতরাং আপনাকে একটি স্যাক্স পার্সার দিয়ে এক্সএমএল থেকে পাঠ্যগুলি বের করার বিষয়ে বিবেচনা করা উচিত। উইকিপিএমএলজে উইকিপিডিয়ায় সুরযুক্ত একটি জাভা এপিআই।

এবং তারপরে অবশ্যই স্ট্যাক এক্সচেঞ্জের ডেটা ডাম্প থাকেসর্বশেষ এক সেপ্টেম্বর 2011 পর্যন্ত কিন্তু, তাই সম্ভবত যেমন সাধারণ হিসাবে আপনি চান চাই সব পাবলিক অ বিটা স্ট্যাক এক্সচেঞ্জ সাইট ও সংশ্লিষ্ট মেটা সাইট আপ অন্তর্ভুক্ত স্বাভাবিকভাবেই স্ট্যাক এক্সচেঞ্জ পোস্ট প্রতিটি সাইটের পরিধি উপর ঘনীভূত হয়। মেটা পোস্টগুলি যদিও কিছুটা সাধারণ, তাই আপনি উইকিপিডিয়া ছাড়াও সেগুলি বিবেচনা করতে পারেন।

আমি মনে করি না আপনি আরও ভাল কিছু পাবেন, বিশেষত সরল পাঠ্যে। ডেটা হাবের মাধ্যমে বেশ কয়েকটি ওপেন ডেটা সেট পাওয়া যায় , তবে আমি মনে করি যে ইংরেজি উইকিপিডিয়া ডেটা ডাম্প আপনি যা খুঁজছেন তার খুব কাছাকাছি।


1
এগুলি কিছু শীতল সংস্থান।
হাঞ্জোলো

স্ট্যাকগুলি, যদিও বিস্তৃত, একটি খুব সংকীর্ণ বক্তৃতা ক্ষেত্রটি আবশ্যক (প্রয়োজন অনুসারে), সুতরাং তারা ভাল জেনারেল নাও করতে পারে।
jonsca

ওহে প্রিয় theseশ্বর, এই ফাইলগুলি বিশাল! যত তাড়াতাড়ি আমি এগুলি খোলার এবং সমস্ত এক্সএমএল ক্রেপগুলি ফিল্টার করার উপায় খুঁজে পাচ্ছি এটি দুর্দান্ত কাজ করবে। ধন্যবাদ!
জেসিদারিস

1
@ বিজোরকে খুশি আমি সহায়তা করতে পারি। আপনার হয়ে গেলে, আপনার গবেষণার একটি লিঙ্ক সহ প্রশ্নটি আপডেট করা উচিত।
yannis

5

গুগলের ডেটা সেটগুলির সংগ্রহ রয়েছে যা তারা এন-গ্রাম সম্ভাব্যতা নির্ধারণ করতে ব্যবহার করে। তাদের বিগ্রাম (2-গ্রাম) ডেটাসেটগুলি পরীক্ষা করা আপনাকে একটি ভাল ছবি দেবে। সেখানে আরও অনেক সংস্থা রয়েছে যার জন্য এই বিশ্লেষণগুলি ইতিমধ্যে করা হয়ে গেছে।


3
আমি ঠিক একই জিনিস লিখছিলাম।
jcmeloni

@ জেসমেলনি দুর্দান্ত মন!
jonsca

5

প্রকল্প গুটেনবার্গের ইতিমধ্যে পাঠ্য আকারে ইংরাজীতে পাঠ্যগুলির একটি বৃহত কর্পস রয়েছে।

প্রজেক্ট গুটেনবার্গ ৪২,০০০ এরও বেশি ফ্রি ইবুক অফার করে: নিখরচায় এপুব বই, বিনামূল্যে কিন্ডেল বইগুলির মধ্যে বেছে নিন, সেগুলি ডাউনলোড করুন বা অনলাইনে পড়ুন।

আমরা উচ্চ মানের ইবুক বহন করি: আমাদের সমস্ত ইবুকগুলি পূর্বে প্রকাশ্য প্রকাশক দ্বারা প্রকাশিত হয়েছিল। আমরা কয়েক হাজার স্বেচ্ছাসেবীর সহায়তায় ডিজিটালাইজড এবং অধ্যবসায়ের সাথে এগুলি প্রুফরিড করেছি ...


1
আমি প্রকল্প গুটেনবার্গ সম্পর্কে ভেবেছিলাম কিন্তু আমি একটি ঘন ডেটা ডাম্প খুঁজে পেল না। এবং কোনও বই অন্তর্ভুক্ত করার জন্য, এটির কপিরাইটের মেয়াদ শেষ হতে হবে এবং সাধারণত এর অর্থ এই যে বইগুলি প্রথম প্রকাশের পরে 50 থেকে 70 বছর কেটে গেছে। সুতরাং আমি মনে করি না যে ডেটা সেট হিসাবে, প্রকল্প গুটেনবার্গ বর্তমানে ব্যবহৃত ভাষার প্রতিনিধি representative
ইয়ানিস

1
আপনি যদি এমন কিছু চান যা "আজকের হিসাবে ব্যবহৃত ভাষার প্রতিনিধি", ইউটিউব মন্তব্য চেষ্টা করে দেখুন। দুঃখের হলেও সত্য.
জার্গ ডব্লু মিটাগ

@ জার্গডব্লিউমিটাগ - আউট আমাকে সত্যিই বিরক্ত করার বিষয়টি হ'ল আপনি কীভাবে ভুল নন।
মাইকেল কোহনে

@ জার্গ ডব্লু মিটাগ এটি সম্ভব, তবে তারপরে ইউটিউব সম্পর্কিত নির্দিষ্ট কিছু শব্দ খুব ঘন ঘন আসত, যেমন: আপনার ও ইউ টি টি ইউ ইউ বি, বা আরও খারাপ: এফএ এ কে কে
আন

1

পরিসংখ্যানগুলির জন্য, আপনি সম্ভবত "ইংরেজী ভাষায় বিগ্রাম ফ্রিকোয়েন্সি" দেখছেন। একবার দেখুন: উইকি-বিগরম পরিসংখ্যান

একটি বড় পাঠ্য সন্ধানের জন্য, নোট করুন যে ফ্রিকোয়েন্সি পাঠ্যের ধরণের পক্ষপাতদুষ্ট হবে। উদাহরণস্বরূপ, আপনি ঠিকানাগুলি বিশ্লেষণ করলে আপনি সংবাদপত্রের গল্প বিশ্লেষণ থেকে আলাদা ফলাফল পাবেন। আপনি যদি কেবল পরীক্ষা করতে চান তবে আপনি যে কোনও বইয়ের পিডিএফ ফাইলটি ব্যবহার করতে পারেন (আরও ভাল কোনও গণিত হতে পারেন না or আপনি খবরের কাগজের ওয়েব পৃষ্ঠাগুলিকে পাঠ্যে রূপান্তর করতে এবং সেগুলিতে কাজ করতে পারেন।


2
হ্যাঁ আমি বুঝতে পারি যে ফলাফলগুলি পক্ষপাতদুষ্ট হতে চলেছে। আমার এমন একটি সংস্থান দরকার যা যথাসম্ভব অনেক বিষয়কে কভার করে। আমি একগুচ্ছ ই-বই ডাউনলোড করার বিষয়টি বিবেচনা করেছি, মূল সমস্যাটি তাদের সমস্তকে পাঠ্যে রূপান্তর করা। তবে কিছু বিগ্রামের পরিসংখ্যান অনুসন্ধান করা ক্ষতিগ্রস্থ হবে না (আমি বুঝতে পারি নি যে এটি 2-অক্ষরের সংমিশ্রণ বলেছিল)।
জেসিদারিস

আপনার মন্তব্যের জন্য ধন্যবাদ. আপনি অ্যাডোবি পিডিএফ রিডারটিতে ফাইলটি>> সংরক্ষণ করুন পাঠ্যটি ব্যবহার করে পিডিএফটিকে পাঠ্যে রূপান্তর করতে পারেন। এই লিঙ্কটিও
সংক্ষেপণ.

@ এমদাদ কারিম ওপি কয়েক জিবি পাঠ্য চাইছে। আপনি কী গুরুত্ব সহকারে পরামর্শ দিচ্ছেন যে তিনি পিডিএফ থেকে পাঠ্য আহরণ করতে অ্যাডোব রিডার ব্যবহার করছেন?
ইয়ানিস

@ ইন্নিসরিজস, আমি লক্ষ্য করিনি যে বেশ কয়েকটি জিবি অবশ্যই বাধ্যতামূলক প্রয়োজন। যদি এটি হয় তবে আরও ভাল সরঞ্জাম রয়েছে যা এই উদ্দেশ্যে ব্যবহার করা যেতে পারে। এই বিষয়টি চিহ্নিত করার জন্য ধন্যবাদ.
NoChance
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.