অ্যালগোরিদম / রুটিন পরীক্ষা করার জন্য কেউ কোথায় ভাল ডেটা সেট / পরীক্ষার সমস্যা পেতে পারে?


41

কম্পিউটেশনাল কাজের ক্ষেত্রে আপনি যে কোনও সফটওয়্যার ব্যবহার করতে চলেছেন (এটি আপনি লিখেছেন এমন কিছু হোক বা একটি ক্যানড প্যাকেজ হোক) এর মান নির্ধারণের ক্ষেত্রে, স্ট্যান্ডার্ড ডেটা সেট বা সমস্যাগুলির ক্ষেত্রে এটি কতটা ভাল কাজ করে তা প্রায়শই ভাল ধারণা। কম্পিউটেশনাল রুটিন যাচাই করার জন্য এই পরীক্ষাগুলি কোথায় পাওয়া যাবে?

(উত্তর প্রতি এক ওয়েবসাইট / বই, দয়া করে।)


আমি এটি একটি সম্প্রদায়ের উইকি পোস্ট হওয়ার উদ্দেশ্যে করেছি এবং এভাবে রূপান্তরটির জন্য এটি পতাকাঙ্কিত করেছি।
জেএম

3
এই প্রশ্নটি কি খুব বিস্তৃত নয়, অর্থাৎ এটি অ্যালগোরিদম / সমস্যার সমাধানের জন্য যা এই সফটওয়্যারটি ব্যবহার করা হয় তার উপর নির্ভর করে?
আন্দ্রে হলজনার

আমি সত্যিই চেয়েছিলাম এই প্রশ্নটি সম্প্রদায় উইকি হোক , @ আন্ড্রে (সংস্থার "বড় তালিকা" হিসাবে); আমি রূপান্তর করার জন্য এটি পতাকাঙ্কিত করেছি, তবে কেন রূপান্তর করা হয়নি তা আমি জানি না।
জেএম

@ জেএম আমি এটি রূপান্তর করেছি।
ডেভিড কেচসন

উত্তর:


15

আপনি যদি স্পার্স ম্যাট্রিক্স সম্পর্কে বিশ্লেষণ পরিচালনা করতে আগ্রহী হন তবে আমি ডেভিসের ফ্লোরিডা বিশ্ববিদ্যালয় স্পার্স ম্যাট্রিক্স সংগ্রহ এবং ম্যাট্রিক্স মার্কেটকেও বিবেচনা করব


1
এছাড়াও রয়েছে ম্যাট্রিক্স মার্কেটের ম্যাথ.নিস্ট.gov
স্টালি

13

উত্পাদিত সমাধানগুলির পদ্ধতিটি পিডিই এবং অন্যান্য সমাধানকারীদের পরীক্ষার জন্য একটি মান। বেশিরভাগ প্রতীকী বীজগণিত সিস্টেমগুলিতে কোড উত্পন্ন করার সুবিধা রয়েছে, এটি উত্পাদনযুক্ত সমাধান তৈরির জন্য দরকারী। এই উদ্দেশ্যে অন্যদের মধ্যে সিমপি এবং ম্যাপেলের ফাংশন সিসোড রয়েছে।


10

আইভিপি গুলির ( ওডিই সলভারদের জন্য প্রাথমিক মান সমস্যা) জন্য একটি পরীক্ষা সেট বর্তমানে ইতালির বারী বিশ্ববিদ্যালয়ের লোকেরা রক্ষণাবেক্ষণ করেছেন, যারা সিডাব্লুআই আমস্টারডাম থেকে গ্রহণ করেছিলেন।


1
আইভিপিগুলির জন্য কিছু অতিরিক্ত পরীক্ষার সেট ম্যাথ.স্ট্যাকএক্সচেঞ্জের জেএম থেকে এই উত্তরে দেওয়া হয়েছে: math.stackexchange.com/a/59398
ডেভিড কেচসন


8

গণনামূলক তড়িৎচুম্বকত্বের ক্ষেত্রে পরীক্ষার সমস্যার একটি সেট রয়েছে (বা কিছুতে অসুবিধার কারণে কুখ্যাত) রয়েছে বৈদ্যুতিন চৌম্বক বিশ্লেষণ পদ্ধতি (টিইএএম) পরীক্ষা করা

পরীক্ষাগুলির তথ্যের সাথে একত্রিত করার জন্য সঠিক সিমুলেশন ফলাফল পাওয়ার জন্য তাদের মধ্যে বেশিরভাগেরই সত্যই গুরুত্ব সহকারে সংখ্যাসূচক কৌশলগুলির প্রয়োজন। উদাহরণস্বরূপ, কন্ডাক্টর-কয়েল সমস্যা

ম্যাক্সওয়েল সমীকরণগুলির জন্য পরীক্ষার সমস্যাগুলির আরও একটি সেট ডেজ দ্বারা সংকলিত হয়েছে: উচ্চতর একবচন সমাধানগুলির সান্নিধ্যের জন্য ম্যাক্সওয়েল সমীকরণগুলির জন্য বেনমার্ক গণনা । বিখ্যাত (বা কুখ্যাত) ফিচার ঘনক্ষেত্রে একটি:

fichera

কোনো এবং এই ঘনক্ষেত্র বাস আপনার সংখ্যাসূচক PDE কোডগুলির একটি চ্যালেঞ্জ হবে। = - ϕ ϕϕH1+ϵE=ϕ

সর্বশেষে সংখ্যার পিডিই, 2 ডি-তে এইচপিএফইএম এর বেঞ্চমার্ক রয়েছে (জ্ঞাত সঠিক সমাধানগুলির সাথে সমস্যা) , আমি আমার সীমাবদ্ধ উপাদান কোডগুলি পরীক্ষা করার জন্য এটির পরীক্ষার সমস্যাগুলি দীর্ঘকাল ধরে ব্যবহার করে আসছি। উদাহরণস্বরূপ, এল-আকৃতির ডোমেন উদাহরণের উত্সের নিকটবর্তী বিখ্যাত অ-মসৃণ

Δu=0,where u=rαsin(αθ).

7

যদি আপনি আণবিক কাঠামো সম্পর্কিত বেঞ্চমার্কিং অ্যালগরিদমগুলিতে আগ্রহী হন তবে পাবচেম ডাটাবেসে বেশিরভাগ জৈব অণুগুলির একটি বৃহত সংগ্রহ রয়েছে। বিভিন্ন মডেল / প্রোগ্রামগুলির সাথে প্রাপ্ত আণবিক বৈশিষ্ট্যগুলির পূর্বাভাসগুলির তুলনা করতে এটি কার্যকর হতে পারে। সাইটটিতে অণুগুলির বৃহত ব্যাচগুলি ডাউনলোড করার জন্য কয়েকটি বিকল্প রয়েছে যা কিছু পূর্বনির্ধারিত মানদণ্ডকে পূরণ করে (যেমন রাসায়নিক সংমিশ্রণ)।


7

আর্নল্ড নিউমায়ার নিয়ন্ত্রিত এবং সীমাবদ্ধ অপ্টিমাইজেশনের (ননলাইনার প্রোগ্রামিং) জন্য পরীক্ষার সমস্যার স্থিতিশীলতা বজায় রাখে । এই সংগ্রহের অন্তর্ভুক্ত হ'ল মোরি, গার্বো এবং হিলস্ট্রোমের কারণে বেআইনীভাবে অপ্টিমাইজেশনের জন্য এখন স্ট্যান্ডার্ড টেস্ট সমস্যা


7

CUTEr ওয়েব সাইটটি অপ্টিমাইজেশন এবং লিনিয়ার সলভারগুলির জন্য অতিরিক্ত কিছু সমস্যা সহ আর্নল্ড নিউমায়ারের ওয়েব সাইটে বর্ণিত CUTE পরীক্ষার সেটটি আপডেট করে। এছাড়াও, এটি রৈখিক বীজগণিত এবং অপ্টিমাইজেশন সলভারগুলির পরীক্ষা ও আপডেট করার জন্য সফ্টওয়্যার সরঞ্জাম সরবরাহ করে।



6

আমরা আমাদের বিল্ডিং এনার্জি সিমুলেশন সফ্টওয়্যারটিতে আবহাওয়ার ডেটা সেট ব্যবহার করি। মার্কিন যুক্তরাষ্ট্রের জন্য, ডেটা সেটগুলিতে বিগত 20 বছর ধরে প্রতি ঘণ্টায় নেওয়া (সাধারণত বিমানবন্দরে) আবহাওয়া পর্যবেক্ষণ নিয়ে গঠিত।

ডাউনলোডের জন্য ডেটা সেট উপলব্ধ
ফাইলের ফর্ম্যাটটি বর্ণনা করার জন্য ম্যানুয়াল


6

স্ট্যাটিস্টিকাল অ্যালগরিদমগুলির পরীক্ষার জন্য, ডিজে হ্যান্ড, এফ। ডালি, কে। ম্যাককনওয়ে, ডি লুন এবং ই stস্ট্রোস্কির লিখেছেন হ্যান্ডবুক অফ স্মল ডেটা সেটস । সেগুলি থেকে ডেটা সেটগুলির কয়েকটি ডাউনলোড করা যায়



4

3

অ্যালান জেনজ কাগজের টেস্টিং বহুমাত্রিক একীকরণের রুটিনে একটি কার্য স্যুট প্রস্তাব করেছিলেন । আমি এই কাগজের একটি অনলাইন সংস্করণ খুঁজে পাচ্ছি না, তবে এর উল্লেখগুলি কিউবা গ্রন্থাগার সম্পর্কে গবেষণাপত্রে পাওয়া যাবে ।



2

ভাল সফ্টওয়্যার অবশ্যই পরীক্ষা করা হয়েছে এবং লেখকদের কীভাবে পরীক্ষা করা হয়েছে এবং হয় তা টেস্টের ডেটা সেট করে (যেমন রিগ্রেশন টেস্টের আকারে) সরবরাহ করে বা কমপক্ষে এটি যে ডেটা দিয়ে পরীক্ষা করা হয়েছিল তার লিঙ্ক সরবরাহ করে should



2

আপনি যদি পরীক্ষা করতে বড় গ্রাফ বা নেটওয়ার্ক ডেটা খুঁজছেন। স্ট্যানফোর্ড নেটওয়ার্ক বিশ্লেষণ প্রজেক্ট (স্ন্যাপ) সাধারণত একটি বেনামী অন্তিক তালিকা আকারে অনেক বড় গ্রাফ ডেটাসেট হয়েছে। তাদের কয়েকটি বিকল্পের মধ্যে রয়েছে:

উপাত্ত

ডেটার বৈশিষ্ট্য

  • প্রান্তের সংখ্যা: 10 ডলার থেকে 400 মিলিয়ন ডলার পর্যন্ত যে কোনও জায়গায়
  • নোডের সংখ্যা: 10 ডলার থেকে শুরু করে 100 মিলিয়ন ডলার পর্যন্ত
  • প্রান্তের প্রকারগুলি: নির্দেশিত, পুনর্নির্দেশিত, ভারী, নিখরচায়িত, স্বাক্ষরিত এবং স্বাক্ষরবিহীন।
  • নেটওয়ার্কের ধরণগুলি: নির্দেশিত, পুনর্নির্দেশিত, দ্বিদলীয়, মাল্টিগ্রাফ, অস্থায়ী, লেবেলযুক্ত।

ডেটাসেটগুলিতে গ্রাউন্ড সত্যের পরিসংখ্যান উপলব্ধ:

সরঞ্জামসমূহ


@ জেএম সমস্যা নেই! আমি কিছু প্রকল্পের জন্য তাদের কিছু সামাজিক-নেট ডেটাসেট ব্যবহার করেছি এবং তারপরে এই স্ট্যাকেক্সচেঞ্জে হোঁচট খেয়েছি এবং ভেবেছিলাম এটি এখানে সহায়ক হতে পারে।
রায়ান

-3

ডেটা সহজ; এটি পেতে এপিআই শক্ত হতে পারে। আমি Quandl সুপারিশ । এই সাইটে 10 মিলিয়নেরও বেশি প্রকাশ্যে উপলভ্য ডেটা সেট এক, সহজ, REST- ফুল এপিআই এর মাধ্যমে অ্যাক্সেসযোগ্য রয়েছে। সমস্ত ডেটা সিএসভি বা জেএসএন-তে ফেরত দেওয়া হয়। বা, প্রোগ্রামিং যদি আপনার শক্ত মামলা না হয় তবে এক্সেলে ডেটা পাওয়ার সহজ উপায় রয়েছে। আর, পাইথন এবং রুবি প্রোগ্রামারগুলি সরাসরি নেটিভ লাইব্রেরি সহ বাড়িতে থাকবে।


1
Scicomp স্বাগতম! আমি মনে করি না যে প্রশ্নটি এই জাতীয় ডেটা; অ্যালগরিদমগুলি পরীক্ষা করতে, আপনার ফলাফলগুলির সাথে তুলনা করার জন্য আপনার কেবল একটি ডেটা সেট নয়, তবে সম্পর্কিত সম্পর্কিত ফলাফল (সমস্যা / অ্যালগোরিদমের উপর নির্ভরশীল) প্রয়োজন।
খ্রিস্টান ক্লাসন

ধন্যবাদ, @ ক্রিশ্চিয়ান ক্লাসন। আমি বুঝছি তুমি কি বলতে চাও. উদাহরণস্বরূপ যদি সফ্টওয়্যার লিনিয়ার রিগ্রেশনের জন্য হয় তবে লেখক লিনিয়ার রিগ্রেশন প্যাকেজটি সঠিকভাবে সম্পাদন করছে কিনা তা পরীক্ষা করার জন্য ডেটা সেটগুলির পাশাপাশি পরীক্ষিত বিশ্লেষণ ফলাফলের একটি সেট সম্পর্কে আগ্রহী।
ব্রায়ান ঝুঁকি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.