আমাকে কেবল CUDA এবং BLAS এ ফোকাস করা যাক।
হোস্ট বিএলএএস বাস্তবায়নের উপর গতিপথ থ্রুপুট মূল্যায়ন করার জন্য ভাল মেট্রিক নয়, যেহেতু এটি অনেকগুলি কারণের উপর নির্ভর করে, যদিও আমি স্বীকার করি যে স্পিডআপটি সাধারণত যার বিষয়ে চিন্তা করে।
আপনি যদি এনভিআইডিআইএ দ্বারা প্রকাশিত মানদণ্ডগুলি লক্ষ্য করেন এবং তা বিবেচনায় রাখেন যে টেসলা এম 2090 এর 1331 গিগাফ্লপস (একক যথার্থতা) এবং 665 গিগাফ্লপস (ডাবল প্রাক। তাত্ত্বিক একটি 60%, যা বেশ ভাল।
2এম এন কেমি × কেk × n
টিকে থাকা ভাসমান পয়েন্ট থ্রুপুট সম্পর্কিত বিষয়ে, আমি মনে করি যে অ্যাকাউন্টগুলিতে ডেটা এবং ফলাফল স্থানান্তরের সময় গ্রহণ না করে ফ্লপগুলি গণনা করা উচিত এবং এটি স্পিডআপ তুলনাকে আরও কঠিন করে তোলে। তবুও আপনাকে ম্যাট্রিক্সের আকারটি বিবেচনা করতে হবে, যেহেতু সেরা পারফরম্যান্স বড় ম্যাট্রিক্সের জন্য।
নীচের লাইন: লিনিয়ার বীজগণিতের রুটিনগুলিতে পিক পরিমাপকৃত পারফরম্যান্স থেকে বাস্তব জীবনের অ্যাপ্লিকেশনটির গতিপথ খুব আলাদা হতে পারে, যেহেতু আপনাকে জিপিইউ সূচনা, ডেটা স্থানান্তর সময় ইত্যাদি বিবেচনায় নিতে হবে etc.
সুতরাং আমি দ্রুততম গ্রন্থাগার সম্পর্কে আপনার প্রশ্নের উত্তর দেব না, যেহেতু একটি নির্দিষ্ট মেট্রিক এবং সমস্যা সংজ্ঞায়িত না করা হলে প্রশ্নটির কোনও অর্থ হয় না। সকল এই কথা আমি মনে করি cuBLAS এবং ম্যাগমা একটি খুব ভাল আদ্যস্থল হয়।