কিভাবে ইংরেজি ভাষার শব্দ ডাটাবেস পাবেন? [বন্ধ]


148

আমার ইংরেজি প্রতিটি বৈধ শব্দের একটি ডাটাবেস দরকার। আমি /usr/share/dict/wordsফাইলটি চেক করেছি , এতে 100k এরও কম শব্দ রয়েছে। উইকিপিডিয়া বলছে ইংরেজিতে 475k শব্দ রয়েছে। আমি সম্পূর্ণ তালিকা (আমেরিকান বানান) কোথায় পাব?

এছাড়াও, এমন কোনও ওয়েবসাইট আছে যা এশিয়ান এবং ইউরোপীয় ভাষা সহ অন্যান্য ভাষার জন্যও শব্দ দেয়?

সম্পাদনা: যুক্ত করতে ভুলে গেছি, আমার নাম ইত্যাদির দরকার নেই, কেবল বৈধ ইংরেজি শব্দ।


9
আমার /usr/share/dict/words479829 শব্দ আছে, তাই এখানে কিছুটা ভিন্নতা থাকতে পারে (এবং অন্যদের জন্য উপযুক্ত হতে পারে)।
marshall.ward

4
wc -l /usr/share/dict/wordsম্যাক অন 235,886 শব্দ (জুলাই 2014 - ওএসএক্স ম্যাভেরিকস 10.9.4)
নেলসোনিক

2
আমি খুঁজে পেয়েছি সেরা তালিকা: Raw.githubusercontent.com/docdis/english-words/master/… । ধন্যবাদ @ সেলসোনিকের কাছে যায়।
james.garriss


1
আপনি এখানে একটি ওয়ার্কলিস্ট পেতে পারেন marcoagpinto.cidadevirtual.pt/proofingtoolgui.html .. ডানদিকে ওয়ার্ডলিস্ট লিঙ্কটি সন্ধান করুন
কোফফাস

উত্তর:


75

ওয়ার্ডনেট ডাটাবেস সহায়ক হতে পারে। আমি একবার একটি ফায়ারফক্স অ্যাড-অনে কাজ করেছি যা শব্দ এবং সমস্ত ধরণের সহজ থেকে জটিল এবং তাদের মধ্যে স্টাফের মধ্যে জটিল সংযোগ দেয়। দেখে মনে হচ্ছে ওয়ার্ডনেট আপনার পক্ষে অনেক উপকারী হবে।

এখানে এটি মাইএসকিউএল ফর্ম্যাটে রয়েছে । আর এই এক (ওয়েব-সংরক্ষণাগার লিঙ্ক) WordNet v3.0 ডেটা ব্যবহার করে, বরং পুরোনো WordNet 2.0 ডেটা থাকে।


তাদেরও কি ডাউনলোডযোগ্য তালিকা রয়েছে?

1
হ্যাঁ, তারা আপনাকে তাদের ডাটাবেসগুলি অনেকগুলি ফরমেটে - সিএসভি, মাইএসকিউএল ডেটাবেস, ইত্যাদিতে ডাউনলোড করার সুবিধা দেয় এবং এমনকি আপনি নেট।, জাভা ইত্যাদির মাধ্যমে ব্যবহার করতে পারেন এমন এপিআইও রয়েছে
ব্যবহারকারী 266803


আমি ব্যক্তিগতভাবে এটি ডাউনলোড করি নি, তবে কোডিং শুরু করার পরে এটি প্রস্তুত ছিল। তাই কোন ডাউনলোডে কোন ফাইল থাকবে তা আমি জানি না। আমি কেবল জানি যে আপনি বিভিন্ন ফর্ম্যাটে ডাউনলোড করতে পারেন। আপনি কোন ফর্ম্যাটে চান তা যদি আমাকে বলতে পারেন তবে আমি সহায়তা করতে সক্ষম হতে পারি।
user266803

সত্যিই একটি খুব আকর্ষণীয় প্রকল্প মনে হচ্ছে।
উইম হলব্র্যান্ডস

36

আপনার যা দরকার তা আপনি ইনফোচিম্পস.আর.গ্রেসে দেখতে পারেন

তাদের কাছে বিনামূল্যে ডাউনলোডের জন্য উপলব্ধ 350,000 সরল (অর্থাত্ যৌগিক নয়) শব্দের একটি তালিকা রয়েছে।

শব্দের তালিকা - 350,000+ সরল ইংরেজি শব্দ

অন্যান্য ভাষাগুলি সম্পর্কে, আপনি উইকশনারি ঘুরে দেখতে চাইতে পারেন। এখানে সমস্ত ডাটাবেস ব্যাকআপের একটি লিঙ্ক রয়েছে - তথ্যটি এতটা সম্ভবত সংগঠিত হয় না তবে তাদের যদি ভাষা থাকে তবে আপনি এসকিউএল ফর্ম্যাটে ডেটা ডাউনলোড করতে পারেন।


6
ডাউনলোড লিঙ্কটি পরিবর্তিত হয়েছে - infochimps.com/datasets/…
ক্রিস

36
বিরক্তিকরভাবে ইনফোকিম্পস ফাইলটি। Xls (6 টি ওয়ার্কশিট জুড়ে শব্দগুলির একটি এক্সেল ফাইল) ... আমি সমস্ত 354986 শব্দকে একটি টেক্সট ফাইলে বের করেছি : github.com/nelsonic/english-वर्ड
নেলসনিক

@ সিলেসোনিক অনেক ধন্যবাদ, ইনফোকিম্পস লিঙ্কটি 404

1
@ ক্রিসআরএ উভয় লিঙ্কই কাজ করছে না
গার্গ

5
মনে হচ্ছে এগুলি টেকনোলজির মতো ভুল বানান সহ শব্দগুলি অন্তর্ভুক্ত করেছে - সম্ভবত তারা ওয়েবে প্রদর্শিত সমস্ত কিছু সংগ্রহ করে বলে মনে হয়। সুতরাং এটি পাসওয়ার্ড ক্র্যাকিং / যাচাইকরণের পক্ষে ভাল তবে সত্যিকারের শব্দের প্রয়োজন (যেমন বানান চেকার ইত্যাদি) এর জন্য এমন অ্যাপ্লিকেশনগুলির পক্ষে ভাল নয়।
সর্বাধিক

13

আমি এখানে উল্লিখিত http://wordlist.sourceforge.net/ দেখতে পাচ্ছি না তবে আমি এখান থেকেই শুরু করব যদি আমি এই জাতীয় কিছু খুঁজছিলাম (এবং আমি ছিলাম, যখন আমি এই প্রশ্নটিতে হোঁচট খেয়েছি)।

আপনি যদি সেখানে যা চান তা যদি না খুঁজে পান এবং আপনি যা চান ইংরেজি শব্দগুলির একটি তালিকা, তবে আপনি সম্ভবত এটি কী চান তা কীভাবে চিনতে হবে তা বর্ণনা করার জন্য আপনার কিছুটা অতিরিক্ত সময় ব্যয় করা উচিত।


1
আমি আশাবাদী যে এই বিস্তৃত তালিকাগুলিতে "C ++" বা "C #" এর মতো বিরামচিহ্নযুক্ত শব্দ থাকবে তবে এটির কোনও সন্ধান পেল না। সুতরাং যদি আপনি শর্ট সার্কিটের পরে যা করেন তবে আপনি এটিকে এড়িয়ে যেতে পারেন (এবং অন্যান্য উত্তরের সংক্ষিপ্ত তালিকা)।
hobs

9

"সম্পূর্ণ" তালিকার মতো কোনও জিনিস নেই। বিভিন্ন ব্যক্তির মাপার বিভিন্ন উপায় রয়েছে - উদাহরণস্বরূপ, তাদের মধ্যে অপবাদ, নেওলজিজম, বহু-শব্দ বাক্যাংশ, আপত্তিকর পদ, বিদেশী শব্দ, ক্রিয়া সংযোগ ইত্যাদি অন্তর্ভুক্ত থাকতে পারে। কিছু লোক এমনকি এক মিলিয়ন শব্দও গুনেছে ! সুতরাং আপনি একটি শব্দ তালিকার মধ্যে যা চান তা সিদ্ধান্ত নিতে হবে।


3
এই লিঙ্কের জন্য ধন্যবাদ। ইংরেজী ভাষায় কতটি শব্দ রয়েছে তার একটি খুব আলোকিত পড়া এবং সেগুলির একটি নির্দিষ্ট গণনায় পৌঁছানোর চেষ্টা করার ব্যর্থতা। আরও সংক্ষিপ্ত এবং আপ-টু-ডেট পাঠের জন্য, এগুলি এখানে রয়েছে : en.oxforddorses.com/explore/language-questions/…
প্রমিথিউস

4

আপনি মোজিলা, ওপেনঅফিস, প্রচুর পরিমাণে অন্যান্য সফ্টওয়্যার দ্বারা ব্যবহৃত *spell এন-জিবি অভিধান পরীক্ষা করতে পারেন ।


মোজিলা লিঙ্কে en-gb.pyxidium.co.uk/d অভিধান/en_GB.zip বলছে সার্ভার পাওয়া গেল না, কোনও আপডেট আছে? ধন্যবাদ

@AMB ধন্যবা, আমি এ অভিধানের বিকল্প উৎস বিন্দু লিঙ্ক আপডেট extensions.openoffice.org/en/project/...
mloskot

এবং এখন নতুন লিঙ্কটি 404, @ মল্লকোট।
james.garriss

@ james.garriss আমি ভীত, পুরো এক্সটেনশনস.ওপেনফাইস.অর্গ সাইটটি ডাউন বলে মনে হচ্ছে।
mloskot

3

আপনার এই তালিকাটির জন্য কী প্রয়োজন তা আপনি বলেননি। পাসওয়ার্ড চেকগুলির জন্য ব্ল্যাকলিস্ট হিসাবে ব্যবহৃত কিছু যদি পর্যাপ্ত হয় তবে ক্র্যাকলিব আপনার পক্ষে ভাল হতে পারে। এতে 1.5M এরও বেশি শব্দ রয়েছে।


1
না, ব্ল্যাকলিস্টের জন্য নয়। আমি কিছু শব্দ শব্দ / গ্রাফ করছি।

এতে প্রচুর "আবর্জনা শব্দ" রয়েছে, তবে আমি এখনও এটির জন্য অত্যন্ত কৃতজ্ঞ যে আপনি এটি এখানে রেখেছেন - অন্য অভিধানে নেই এমন নির্দিষ্ট শব্দগুলির সন্ধান করার সময় এটি সঠিক (যেমন ফায়ারট্রাক)
কাঙালিও
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.