দ্রুতগতির ফলাফলগুলি রিপোর্ট করার জন্য সঠিক পরিসংখ্যান


12

বলুন আমার কাছে কিছু কোডের ধীর এবং দ্রুত সংস্করণ রয়েছে এবং আমি দুটিটির সাথে তুলনা করে একটি স্পিডআপ নম্বরটি জানাতে চাই। আমি ধীর সংস্করণ টাইম এবং দ্রুত সংস্করণ এম টাইমগুলি চালিত করি , উত্পাদনকারী সময় ( গুলি 1 , , এস এন ) এবং ( এফ 1 , , এফ এম )স্পিডআপ উত্পাদন করার সহজ উপায়টি হল গড় উপায়: ˉ গুলিnm(s1,,sn)(f1,,fm) যাইহোক, এটি বহিরাগতদের বিবেচনায় নেয় না।

s¯f¯=mi<nsinj<mfj

প্রশ্ন : স্পিডআপ সংখ্যার প্রতিবেদন করার সময় ব্যবহারের জন্য সর্বোত্তম পরিসংখ্যান কোনটি?


3
গড়ের তুলনায় মানক বিচ্যুতি কত বড়? আপনি যাই করুন না কেন, আপনি যা করেছেন তা আপনার রিপোর্ট করা উচিত এবং এগুলি বড় হলে সম্ভবত ত্রুটি বার স্থাপন করা উচিত। যদি সেগুলি সত্যিই বড় হয় তবে আপনার উত্সটি অনুসন্ধান করা উচিত। বেশিরভাগ কম্পিউটার কোডটি সময়মতো নিয়মিতভাবে চালানো উচিত যদি না আপনি নিজেই প্রোগ্রামটির কোনও এলোমেলো উপাদান উপস্থিত থাকেন বা আপনি অন্যের সাথে কম্পিউটার সংস্থান ভাগ করে নিচ্ছেন (এটি কেবল ক্লাস্টার নোড নয়, নেটওয়ার্কিং বা ডিস্ক হতে পারে)। ডিস্ক সংস্থানগুলির জন্য প্রতিযোগিতা যদি সমস্যা হয় তবে আপনি I / O অক্ষম (বেশ সাধারণ) এর সাথে রিপোর্টিং পারফরম্যান্স বিবেচনা করতে পারেন - কেবল এটি নোট করে রাখার বিষয়ে নিশ্চিত হন।
বিল বার্থ

এডিসনে (একটি ক্রে সুপার কম্পিউটার), আমার দুটি নমুনার মধ্যে 2% পার্থক্য রয়েছে। আমার ল্যাপটপে আমি 10 টিরও বেশি নমুনা পরিমাপ করে 6-8% স্ট্যান্ডার্ড বিচ্যুতি দেখতে পাই। উভয়ই কেবল গণনা কার্নেলের জন্য, কোনও আই / ও নেই।
জেফ্রি ইরভিং

আমি বৈকল্পিকগুলি ইতিমধ্যে যুক্তিসঙ্গতভাবে কম থাকলে কেন আমি বহিরাগতদের উল্লেখ করছি তা স্পষ্ট করে বলতে: এটি যথেষ্ট পরিমাণে মৌলিক পরিসংখ্যানগত পরিমাণ যা আমি এটির প্রতিবেদন করার আদর্শ উপায়টি জানতে চাই, এমনকি আমি এই নির্দিষ্ট ক্ষেত্রে ননাল সংক্রান্ত উপায়গুলিও ঠিক।
জেফ্রি ইরভিং 21

2
প্রশ্নটি কী আপনি যোগাযোগের চেষ্টা করছেন, এবং সূত্রটি সবচেয়ে ভাল যোগাযোগ করবে? আমি মনে করি না যে আমি কখনই একটি কাগজ দেখেছি যা কাগজটির মূল কারণ না থাকলে স্পীডআপে রান-টু-রানের পরিবর্তনশীলতার রিপোর্ট করে। প্রদত্ত যে আমরা রান সময় এবং প্রসেসর / টাস্ক / থ্রেড গণনার মধ্যে একটি লিনিয়ার সম্পর্ক স্থাপন করি, আপনি সম্ভবত এর অনুপাত ব্যবহার করা ভাল, তবে তারপরে ত্রুটি বার যে সর্বোচ্চ-থেকে-মিনিট এবং নূন্যতম-থেকে-সর্বোচ্চের অনুপাতের সাথে আপনি যদি মনে করেন পরিসীমাটি দেখানো গুরুত্বপূর্ণ। এছাড়াও, আপনার সম্ভবত আপনার পরিবর্তনশীলতা হ্রাস করার জন্য আপনার ফ্রিকোয়েন্সি স্কেলিং এবং টাস্ক পিনিং বিকল্পগুলির দিকে নজর দেওয়া উচিত। :)
বিল বার্থ

আইও দূর করার ক্ষেত্রে অনেক কৌশল হতে পারে। "লিখন অনুলিপি করুন" কৌশলগুলিতে সংকলক অপ্টিমাইজেশনের মধ্যে সত্যিকার অর্থে নিচের দিকে অ-স্পষ্ট সম্পর্ক থাকতে পারে। আমি সাধারণত ডি 1 = লোডডেটা () এর প্রোটোটাইপ অনুসরণ করি; d2 = অনুলিপি (ডি 1); R1 = algo (D2); আর 2 = আলগো (ডি 1), এবং কেবলমাত্র দ্বিতীয় রানের সময় বিবেচনা করুন।
meawoppl

উত্তর:


9

বিল বার্থ ইতিমধ্যে উপরে যা বলেছে তার সবগুলি ছাড়াও, আমি উল্লেখ করতে পারি যে লোকেরা প্রায়শই বেশ কয়েকটি রানের দ্রুততম রিপোর্ট করে । পিছনে যুক্তি হল এই প্রকৃত রান টাইম হয় আদর্শ রান টাইম প্লাস চলমান ধীর প্রক্রিয়া ফলে উন্মুক্ত বিস্তৃত উচ্চভূমি যে কোন সংখ্যার, অপারেটিং সিস্টেম বিলম্ব, নেটওয়ার্ক বিলম্ব ইত্যাদি এই যেহেতু সব গোলমাল আমরা আগ্রহী হয় না, ব্যবহার করছেন দ্রুততম চালানোর সময় আসে আমরা সত্যিই জানতে চাই তার নিকটতম।


দুর্ভাগ্যক্রমে, দুটি অ্যালগরিদমের মধ্যে স্পিডআপের প্রতিবেদন করার সময় এই নীতিটি সহায়তা করে না।
জেফ্রি ইরভিং

3
@ জিফ্রেআইরভিং, কেন নয়? উভয় অ্যালগরিদমে লো-অর্ডার এবং প্যারামিটার-স্বতন্ত্র শর্তাদি উপেক্ষা করে সমস্যা আকার (বা প্রসেসরের গণনা বা অন্যান্য অ-পরিসংখ্যান পরামিতি) এর তাত্ত্বিক পারফরম্যান্স প্রত্যাশা রয়েছে। দ্রুততম সময় ব্যবহার করা (এবং এই সত্যটি লক্ষ্য করা) কেবল আপনাকে এই অতিরিক্ত শর্তাদি উপেক্ষা করতে সহায়তা করে। যা সূক্ষ্ম কৌশল বলে মনে হচ্ছে। আপনি আমাদের আলাদাভাবে না বললে মনে হয় আপনি কীভাবে অ্যালগরিদমের মধ্যে পার্থক্যটি সবচেয়ে কার্যকরভাবে যোগাযোগ করবেন তা বোঝার চেষ্টা করছেন এবং ওল্ফগ্যাংয়ের পরামর্শ প্রচলিত এবং প্রত্যাশিত যাতে এটি সেই তথ্যকে সর্বোত্তমভাবে জানাতে পারে।
বিল বার্থ

1
উফ, হ্যাঁ, আপনি ঠিক বলেছেন। আমি আনন্দের সাথে আমার বক্তব্য প্রত্যাহার করি।
জেফ্রি ইরভিং

(+1) একটি পার্শ্ব-প্রশ্ন: আমি অ-প্রতিসাম্য শব্দের বিতরণ ইত্যাদির বিষয়ে আপনার দৃষ্টিভঙ্গিটি সম্পূর্ণ দেখতে পেয়েছি Let's যদিও আমি বলি যে আমি একটি বাস্তবায়ন এ, এবং একটি বাস্তবায়ন বি এবং আমি সেগুলি বেনমার্ক করি এবং যুক্তিসঙ্গত পরিমাণ রান করার পরে, 25 তম কোয়ান্টাইল এবং মিডিয়ান এবং গড়টি B এর চেয়ে A এর তুলনায় 4.5x ডলার দ্রুত এবং 0% কোয়ান্টাইল ~ 3x। বাস্তবায়ন এ-বি-এর সাথে তুলনা করার পরেও: yes A is theoretically only ~3x fasterবি এর পরিবর্তে বাস্তবায়ন এ ব্যবহার করার সময়, গতিবেগের কোনও ~ 3x গতি-আপ অপ্রতিরোধ্য হতে পারে না? (এটি উপায় দ্বারা বাস্তব জীবনের উদাহরণ)
usεr11852

1
@ usεr11852: এটি সমস্ত আপনি যে সিস্টেমে আছেন তার উপর নির্ভর করে। যদি আপনার মধ্যমা বা 25 তম কোয়ান্টাইলটি এখানে অনুমান করার মতোভাবে পরিসংখ্যানগুলিকে বিকৃত করার জন্য দূরে থাকে, তবে আপনি সম্ভবত এমন কোনও সিস্টেমে রয়েছেন যার মধ্যে প্রচুর শব্দ আছে। উদাহরণস্বরূপ, এটি অন্যরা একই সময়ে ব্যবহার করতে পারে ইত্যাদি That এটি অন্যদের পুনরাবৃত্তি পরীক্ষার জন্য করা সিস্টেমগুলির প্রতিনিধি নাও হতে পারে এবং এটি আমার কাছে মনে হয় আপনি সেই ক্ষেত্রে আপনার ফলাফলগুলি পরিচালনা করছেন। সুতরাং, আমি এখনও সেরা রান রিপোর্ট করার পরামর্শ দিই। আপনি যাই করুন না কেন, আপনি কোন পরিসংখ্যান ব্যবহার করেন তা আপনার কাগজে রিপোর্ট করা উচিত।
ওল্ফগ্যাং ব্যাঙ্গার্থ

1

আমি আপনাকে একটি পরিসংখ্যানগত অনুমান দেওয়ার জন্য মিডিয়ানটি ব্যবহার করার পরামর্শ দিচ্ছি । গড়ের বিপরীতে, মিডিয়ান বিদেশী দ্বারা দূষিত হয় না।


1
ডেটা যেখানে সমস্ত গোলমাল ইতিবাচক (যেমন, একটি প্রতিসম-শব্দ বিন্যাস সহ), মিডিয়ান অন্যান্য পরিসংখ্যানের মতোই খারাপ। রান-টাইমের ক্ষেত্রে এটি সত্যই, আমার উত্তরটি উপরে দেখুন।
ওল্ফগ্যাং ব্যাঙ্গার্থ

0

যদি স্ট্যান্ডার্ড বিচ্যুতি নগন্য না হয়, আপনি পাশাপাশি দুটি বক্স প্লট পাশাপাশি ব্যবহার করতে পারেন , প্রতিটিটি একটি অ্যালগরিদমের সময়সীমার সাথে নির্মিত। এগুলি কোনওভাবেই সংখ্যার বিশ্লেষণের মান নয়, তবে তারা এই জাতীয় তথ্য প্রদর্শনে দুর্দান্ত কাজ করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.