কেন একটি বড় সিপিইউ কোর তৈরি করবেন না? [বন্ধ]


25

আমি বুঝতে পারছি না কেন সিপিইউ নির্মাতারা মাল্টি-কোর চিপ তৈরি করে। একাধিক কোরের স্কেলিং অত্যন্ত ভয়াবহ, এটি অত্যন্ত প্রয়োগের সাথে নির্দিষ্ট এবং আমি নিশ্চিত যে আপনি কয়েকটি প্রোগ্রামে কোড বা কোডটি উল্লেখ করতে পারেন যা অনেকগুলি কোরে দুর্দান্ত চলছে তবে বেশিরভাগ সময় স্কেলিংটি আবর্জনা। এটি সিলিকন ডাই স্পেসের অপচয় এবং শক্তির অপচয়

গেমস, উদাহরণস্বরূপ, প্রায় চারটি করের বেশি কখনও ব্যবহার হয় না। অ্যানিস বা ফ্লুয়েন্টের মতো বিজ্ঞান এবং প্রকৌশল সিমুলেশনগুলির মূল্য কতগুলি কোর দ্বারা চালিত হয় তা নির্ধারণ করা হয়, সুতরাং আপনার আরও বেশি কোর থাকায় আপনি আরও বেশি অর্থ প্রদান করেন, তবে আরও বেশি কোরের সুবিধাটি সত্যই খারাপের অতীত হয়ে উঠেছে 16 কোরের, তবুও আপনার এই 64 টি কোর রয়েছে ওয়ার্কস্টেশন ... এটি অর্থ এবং শক্তি অপচয়। শীতের জন্য একটি 1500 ডাব্লু হিটার কিনতে ভাল, এটি খুব সস্তা।

কেন তারা কেবল একটি বড় কোর দিয়ে সিপিইউ তৈরি করে না?

আমি মনে করি যদি তারা একটি আট-কোর সিপিইউর একটি-কোর সমতুল্য তৈরি করে, যে একটি কোর আইপিসিতে 800% বৃদ্ধি পাবে, তাই আপনি সমস্ত প্রোগ্রামগুলিতে সম্পূর্ণ পারফরম্যান্স পাবেন, কেবল একাধিক কোরগুলির জন্য অনুকূল নয় those আরও আইপিসি সর্বত্র কর্মক্ষমতা বৃদ্ধি করে, কার্যকারিতা বাড়ানোর এটি নির্ভরযোগ্য এবং সহজ উপায়। একাধিক কোর কেবলমাত্র সীমিত সংখ্যক প্রোগ্রামগুলিতে কর্মক্ষমতা বাড়ায় এবং স্কেলিং ভয়ঙ্কর এবং অবিশ্বস্ত।


মন্তব্যগুলি বর্ধিত আলোচনার জন্য নয়; এই কথোপকথন চ্যাটে সরানো হয়েছে । পৌঁছে যাওয়া যে কোনও সিদ্ধান্তে আবার প্রশ্ন এবং / অথবা কোনও উত্তর (গুলি) এর মধ্যে সম্পাদনা করা উচিত।
ডেভ টুইট করেছেন

আপনি এই নিবন্ধটিতে আগ্রহী হতে পারেন: getw.ca/publications/concurrency-ddj.htm
লভেলা

"তবে আরও কোরগুলির সুবিধাটি সত্যই অতীতের ১ c টি কোরে পরিণত হয়েছে" আপনি কী বলছেন তা আপনি অবশ্যই জানেন না। বিশ্বাস করুন, আমি কয়েক হাজার হাজার সিপিইউতে চলে এমন প্রক্রিয়াগুলিতে কাজ করেছি। "বিব্রতকরভাবে সমান্তরাল" নামক একটি সম্পূর্ণ শ্রেণীর সমস্যা রয়েছে, যেখানে সমস্যাটিতে আরও বেশি কর নিক্ষেপ করা খুব ভাল কাজ করে।
অ্যারন

উত্তর:


93

সমস্যাটি এই ধারণার সাথে নিহিত যে সিপিইউ উত্পাদনকারীরা কেবলমাত্র কোনও সিপিইউ কোরকে আরও শক্তিশালী করে তুলতে আরও ট্রানজিস্টর যুক্ত করতে পারে ence

সিপিইউকে আরও বেশি করে তোলার জন্য, আপনাকে আরও কী কী করতে হবে তা পরিকল্পনা করতে হবে। সত্যিই তিনটি বিকল্প রয়েছে:

  1. একটি উচ্চতর ঘড়ির ফ্রিকোয়েন্সিটিতে মূল চালান করুন - এর সাথে ঝামেলা হ'ল আমরা ইতিমধ্যে যা করতে পারি তার সীমাবদ্ধতাগুলি আঘাত করছি।

    শক্তি ব্যবহার এবং অতএব তাপ অপচয় হ্রাস ফ্রিকোয়েন্সি সহ বৃদ্ধি করে - আপনি যদি ফ্রিকোয়েন্সি দ্বিগুণ করেন তবে আপনি শক্তি অপচয়কে দ্বিগুণ করেন। আপনি যদি ভোল্টেজ বাড়িয়ে দেন তবে আপনার পাওয়ারের অপচয় হ্রাস ভোল্টেজের বর্গক্ষেত্রের সাথে চলে যায়।

    আন্তঃসংযোগ এবং ট্রানজিস্টরগুলির বিশ্বের আদর্শহীন প্রকৃতির কারণে প্রসারণ বিলম্বও রয়েছে । আপনি কেবল ট্রানজিস্টরের সংখ্যা বাড়িয়ে তুলতে পারবেন না এবং একই ঘড়ির ফ্রিকোয়েন্সিতে চালাতে সক্ষম হবেন বলে আশা করতে পারেন।

    আমরা বাহ্যিক হার্ডওয়্যার - প্রধানত র‌্যামের দ্বারাও সীমাবদ্ধ। সিপিইউ দ্রুততর করার জন্য, আপনাকে মেমোরি ব্যান্ডউইথটি আরও দ্রুত চালিয়ে, বা ডেটা বাসের প্রস্থকে বাড়িয়ে তুলতে হবে।


  1. আরও জটিল নির্দেশাবলী যুক্ত করুন - দ্রুত চালনার পরিবর্তে আমরা আরও সমৃদ্ধ নির্দেশিকা সেট যুক্ত করতে পারি - এনক্রিপশন ইত্যাদির মতো সাধারণ কাজগুলি সিলিকনে শক্ত করা যেতে পারে। সফ্টওয়্যারটিতে গণনা করতে অনেকগুলি ঘড়ির চক্র গ্রহণের পরিবর্তে আমাদের পরিবর্তে হার্ডওয়্যার একলিরেশন রয়েছে।

    এটি ইতিমধ্যে কমপ্লেক্স ইন্সট্রাকশন সেট (সিআইএসসি) প্রসেসরগুলিতে করা হচ্ছে। এসএসই 2, এসএসই 3 এর মতো জিনিসগুলি দেখুন। একই ঘড়ির ফ্রিকোয়েন্সি চালানো হলেও 10 বছর আগে এমনকি সিপিইউ কোরের তুলনায় আজ একটি সিপিইউ কোর অনেক বেশি শক্তিশালী।

    সমস্যাটি হচ্ছে, আপনি আরও জটিল নির্দেশনা যুক্ত করার সাথে সাথে আপনি আরও জটিলতা যুক্ত করবেন এবং চিপটি আরও বড় করে তুলবেন। প্রত্যক্ষ ফলাফল হিসাবে সিপিইউ ধীর হয়ে যায় - প্রচারের ক্ষেত্রে বিলম্ব বাড়ার সাথে সাথে অ্যাকসিভযোগ্য ঘড়ির ফ্রিকোয়েন্সি হ্রাস পায়।

    এই জটিল নির্দেশাবলী আপনাকে সাধারণ কাজগুলিতে সহায়তা করে না। আপনি প্রতিটি সম্ভাব্য ব্যবহারের ক্ষেত্রে কঠোর করতে পারবেন না, সুতরাং আপনি যে সফ্টওয়্যারটি চালাচ্ছেন তার অনিবার্যভাবে বড় অংশগুলি নতুন নির্দেশাবলীর দ্বারা উপকৃত হবে না এবং ফলস্বরূপ ঘড়ির হার হ্রাস দ্বারা ক্ষতিগ্রস্থ হবে।

    আপনি একবারে আরও ডেটা প্রক্রিয়াকরণের জন্য ডেটা বাসের প্রস্থকে আরও বৃহত্তর করতে পারেন, তবে এটি আবার সিপিইউকে আরও বৃহত্তর করে তোলে এবং আপনি বৃহত্তর ডেটা বাসের মাধ্যমে প্রাপ্ত থ্রুটপুট এবং ক্লক রেট হ্রাসের মধ্যে একটি বাণিজ্যকে আঘাত করতে পারেন। আপনার যদি কেবলমাত্র ছোট ডেটা থাকে (যেমন 32-বিট পূর্ণসংখ্যার), 256-বিট সিপিইউ থাকা আসলেই আপনাকে সহায়তা করে না।


  1. সিপিইউকে আরও সমান্তরাল করুন - একটি জিনিস দ্রুত করার চেষ্টা করার পরিবর্তে একই সময়ে একাধিক জিনিস করুন। যদি আপনি যে কাজটি করছেন তা যদি একবারে বেশ কয়েকটি জিনিসে অপারেটিংয়ের জন্য নিজেকে ধার দেয়, তবে আপনি হয় এমন একটি সিপিইউ চান যা প্রতি নির্দেশ অনুসারে একাধিক গণনা করতে পারে (একক নির্দেশনা একাধিক ডেটা (সিমডি)), বা একাধিক সিপিইউ রয়েছে যা প্রত্যেকে একটি করে সম্পাদন করতে পারে হিসাব।

    এটি মাল্টি-কোর সিপিইউগুলির অন্যতম চালক। আপনার যদি একাধিক প্রোগ্রাম চলমান থাকে, বা আপনার একক প্রোগ্রামকে একাধিক টাস্কে বিভক্ত করতে পারেন, তবে একাধিক সিপিইউ কোর আপনাকে একসাথে আরও কিছু করার অনুমতি দেয়।

    যেহেতু পৃথক সিপিইউ কোরগুলি কার্যকরভাবে পৃথক ব্লক (ক্যাশে এবং মেমরির ইন্টারফেসগুলি ব্যতীত), প্রতিটি পৃথক কোর সমতুল্য একক একক স্তরের চেয়ে ছোট । কোরটি আরও কমপ্যাক্ট হওয়ার কারণে, বংশ বিস্তার আরও বিলম্ব হ্রাস করে এবং আপনি প্রতিটি কোরকে আরও দ্রুত চালাতে পারেন।

    একক প্রোগ্রাম একাধিক কোর থাকার মাধ্যমে উপকৃত হতে পারে কিনা তা পুরোপুরি সেই প্রোগ্রামটি কী করছে এবং কীভাবে এটি রচিত হয়েছিল তা নিচে রয়েছে।


মন্তব্যগুলি বর্ধিত আলোচনার জন্য নয়; এই কথোপকথন চ্যাটে সরানো হয়েছে । পৌঁছে যাওয়া যে কোনও সিদ্ধান্তে আবার প্রশ্ন এবং / অথবা কোনও উত্তর (গুলি) এর মধ্যে সম্পাদনা করা উচিত।
ডেভ টুইট করেছেন

মন্তব্যগুলিতে উত্থাপিত পয়েন্টগুলির মধ্যে একটি যা এখনও সমাধান করা হয়নি তা হ'ল সিপিইউগুলি প্রতি ঘড়ি প্রতি একাধিক নির্দেশনা চালিয়ে (সুপারস্ক্যালার) সমান্তরাল হতে পারে। এটি সিমডি এবং ফ্রিকোয়েন্সি থেকে অরথোগোনাল; প্রতি ঘড়ি নির্দেশাবলী (আইপিসি) প্রতি সময় আসল মাধ্যমে আউটপুট তৃতীয় ফ্যাক্টর। ইন্টারেক্টিভ-ব্যবহার কাজের চাপের জন্য সমস্ত আধুনিক সিপিইউ কমপক্ষে 2-প্রশস্ত।
পিটার কর্ডেস

1
আরো সঠিক উত্তরের জন্য পড়া sciencedirect.com/topics/computer-science/...
টনি স্টুয়ার্ট Sunnyskyguy EE75

37

অন্যান্য উত্তরগুলির পাশাপাশি আরও একটি উপাদান রয়েছে: চিপ ফলন । একটি আধুনিক প্রসেসরের তাদের কয়েক বিলিয়ন ট্রানজিস্টর রয়েছে, পুরো চিপটি সঠিকভাবে কাজ করার জন্য এই ট্রান্সজিস্টরের প্রত্যেককেই পুরোপুরি কাজ করতে হবে।

মাল্টি-কোর প্রসেসর তৈরি করে, আপনি পরিষ্কারভাবে ট্রানজিস্টরগুলির গ্রুপ বিভাজন করতে পারেন। কোরের একটিতে যদি কোনও ত্রুটি থাকে তবে আপনি সেই কোরটি অক্ষম করতে পারবেন এবং কার্যকারী কোরের সংখ্যা অনুসারে একটি চিপকে স্বল্প দামে বিক্রি করতে পারবেন । তেমনি, আপনি কোনও এসএমপি সিস্টেমে বৈধতাযুক্ত উপাদানগুলির বাইরেও সিস্টেমগুলি একত্র করতে পারেন।

কার্যত আপনার প্রতিটি সিপিইউয়ের জন্য, জীবনটি সেই প্রসেসরের লাইনের শীর্ষ-প্রিমিয়াম মডেল হিসাবে তৈরি করা শুরু হয়েছিল। আপনি কী শেষ করেন, তার উপর নির্ভর করে ch চিপের কোন অংশটি ভুলভাবে অক্ষম করছে এবং অক্ষম করছে। ইন্টেল কোনও আই 3 প্রসেসর তৈরি করে না: এগুলি সমস্ত ত্রুটিযুক্ত আই 7, এমন সমস্ত বৈশিষ্ট্য যা পণ্য লাইনগুলিকে পৃথক করে দেয় তারা অক্ষম করে দেয় কারণ তারা পরীক্ষায় ব্যর্থ হয়। যাইহোক, যে অংশগুলি এখনও কাজ করছে তা এখনও কার্যকর এবং এগুলি খুব সস্তা হিসাবে বিক্রি করা যেতে পারে। খারাপ কিছু কিচেন ট্রিনকেটে পরিণত হয়।

এবং ত্রুটিগুলি অস্বাভাবিক নয়। নিখুঁতভাবে কয়েক বিলিয়ন ট্রানজিস্টর তৈরি করা সহজ কাজ নয়। যদি আপনার প্রদত্ত চিপের অংশগুলি নির্বাচন করে বেছে নেওয়ার কোনও সুযোগ না থাকে, তবে ফলাফলের দাম বাস্তবের দ্রুত বাড়তে চলেছে।

কেবল একটি একক über প্রসেসরের সাহায্যে উত্পাদন হ'ল বা কিছুই না, ফলে অনেক বেশি অপচয়যোগ্য প্রক্রিয়া হয়। কিছু ডিভাইসের জন্য, যেমন বৈজ্ঞানিক বা সামরিক উদ্দেশ্যে ইমেজ সেন্সর, যেখানে আপনার বিশাল সংবেদক প্রয়োজন এবং এটির সকলকেই কাজ করতে হয়, সেই ডিভাইসের ব্যয়গুলি কেবলমাত্র রাজ্য-স্তরের বাজেটই বহন করতে পারে।


4
যদি / যখন ফলনের উন্নতি হয় এবং বাজারের চাহিদার তুলনায় আরও পুরোপুরি-কার্যকরী চিপস উত্পাদন করে, বিক্রেতারা সাধারণত উচ্চ কাঠামোটি পরিবর্তনের জন্য দাম কাঠামোকে সামঞ্জস্য করার পরিবর্তে কয়েকটি কোর / ক্যাশে এবং / অথবা কম ফ্রিকোয়েন্সি এসকিউতে বিন্যস্ত করা শুরু করেন- শেষ চিপস তুলনামূলকভাবে সস্তা। জিপিইউ / গ্রাফিক্স কার্ডের সাহায্যে আপনি ফার্মওয়্যার হ্যাকের সাহায্যে কয়েকটি কার্ডে অক্ষম শেডার ইউনিটগুলি আনলক করতে সক্ষম হতেন, এটি দেখার জন্য যে আপনি ভাগ্যবান হয়েছেন এবং এমন কোনও কার্ড পেয়েছেন যেখানে সেগুলি কেবল বাজার বিভাজনের জন্য অক্ষম ছিল, প্রকৃত ত্রুটিগুলি নয়।
পিটার

4
ইন্টেল তাদের কয়েকটি চিপের জন্য ডুয়াল-কোর ডাইস তৈরি করেছে। তাদের সমস্ত ইউএলভি (আল্ট্রালো ভোল্টেজ) মোবাইল এসকিউগুলি দ্বৈত-কোর্স হওয়ার কারণে, যথেষ্ট ত্রুটিযুক্ত কোয়াড-কোর ছিল না, এবং ছোট মরা অঞ্চল (বিশেষত একটি কাট-ডাউন আইজিপিইউ সহ) প্রতি ওয়েফারে আরও কাজ করে ডুয়াল-কোর চিপ দেয় কোয়াড-কোর ফিউজিংয়ের চেয়ে মারা যায়। en.wikichip.org/wiki/intel/microarchitectures/… এর সান্দিব্রিজ 131 মিমি ² ডাই সাইজের ডুয়াল-কোর + জিটি 1 গ্রাফিক্স, বনাম 149 মিমি ডুয়াল-কোর + জিটি 2 গ্রাফিক্স + 216 মিমি কোয়াড + জিটি 2 এর ডাই-শট রয়েছে। ক্যাশে ইত্যাদির ত্রুটিগুলির জন্য এখনও অবকাশ রয়েছে
পিটার কর্ডেস

এবং (কিছু) এফএমএ ইউনিটের কিছু অংশের ত্রুটিগুলি সম্ভবত এটি ফিউজ করে সেলেনরেন বা পেন্টিয়াম চিপ হিসাবে বিক্রি করে পরিচালনা করা যেতে পারে (কোনও এভিএক্স নয়, কেবলমাত্র 128-বিট ভেক্টর নয়।) এমনকি আধুনিক স্কাইলেক বা কফি লেক পেন্টিয়াম চিপগুলিতেও এভিএক্সের অভাব রয়েছে lack । সিমড এফএমএ ইউনিটগুলি একটি কোরের একটি শালীন ভগ্নাংশ তৈরি করে (এবং এফপি গণিত ব্যতীত অনেকগুলি সিমডি অপস চালায়, পূর্ণসংখ্যার মুল এবং পূর্ণসংখ্যার শিফট সহ) তবে আমি অবাক হব না যদি 2x 256-বিট এফএমএ ইউনিটগুলিতে ম্যাপ করা যায় 2x 128-বিট ব্যবহার করে যে কোনও 2 টি অংশ এখনও কাজ করছে। স্কাইলেক জিওনের সাথে, এমনকী এসকিউও রয়েছে যা কমে যাওয়া এভিএক্স 512 এফএমএ থ্রুপুট (কেবল 1 টি 512-বিট এফএমএ কাজ করছে)
পিটার কর্ডেস

@ পিটারকর্ডস যদি ফলনটি ভাল পাওয়া যায় তবে বিক্রেতারা উচ্চতর ঘনত্ব এবং / বা দ্রুত ক্লক রেট (এবং সেইজন্য উচ্চতর ত্রুটি হার) ডিজাইনগুলি এনে দেয় যে ত্রুটি হারগুলি যেখানে অক্ষর করতে পারে সেখানে ফিরে না আসা এবং / অথবা চিপগুলির নীচে রাখা সম্ভব ছাড় ছাড় বিক্রয় করুন ..
মন্টি হার্ডার

@ মন্টিহার্ডার: এটি এক ধরণের সত্য, তবে বৈধকরণের জন্য অর্থ এবং সময় ব্যয় হয় এবং বিদ্যমান উত্পাদন লাইনগুলি কিছু সময়ের জন্য বিদ্যমান ডিজাইন তৈরি করতে থাকবে। তবে হ্যাঁ, আপনি যে বিষয়ে কথা বলছেন তার কিছু ইন্টেল উদাহরণ হ্যাসওয়েল রিফ্রেশ এবং স্কাইলেকের বিভিন্ন সংশোধনগুলি মূলত কোনও আর্কিটেকচারাল পরিবর্তন এবং তাদের 14nm প্রক্রিয়াতে সামান্য উন্নতি নয়। (কখনও কখনও নতুন আইজিপিইউ সহ)। উদাহরণস্বরূপ কাবি লেক, তারপরে কফি লেক ইত্যাদি ইন্টেলের সাধারণ টিক-ট্যাক ক্যাডেন্সের "অপ্টিমাইজেশন" পদক্ষেপ হিসাবে।
পিটার কর্ডেস

26

ডেটা নির্ভরতা

একটি চিপকে "আরও" বিস্তৃত করে ঘড়ি প্রতি আরও নির্দেশাবলী যুক্ত করা মোটামুটি সহজ - এটিই "সিমডি" পদ্ধতি been সমস্যাটি হ'ল এটি বেশিরভাগ ক্ষেত্রে ব্যবহার করতে সহায়তা করে না।

প্রায় দুই প্রকারের কাজের চাপ রয়েছে, স্বতন্ত্র এবং নির্ভরশীল। একটি স্বতন্ত্র কাজের চাপের উদাহরণ হতে পারে "A1, A2, A3 ... এবং B1, B2, ... ইত্যাদি সংখ্যার দুটি ক্রম দেওয়া হয় (A1 + B1) এবং (A2 + B2) ইত্যাদি" " এই ধরণের কাজের চাপ কম্পিউটার গ্রাফিক্স, অডিও প্রসেসিং, মেশিন লার্নিং ইত্যাদিতে দেখা যায়। এর বেশিরভাগ অংশ জিপিইউগুলিকে দেওয়া হয়েছে, যা বিশেষত এটি পরিচালনা করার জন্য ডিজাইন করা হয়েছে।

একটি নির্ভরশীল কাজের চাপ হতে পারে "প্রদত্ত এ, এতে 5 যোগ করুন এবং এটি একটি টেবিলের মধ্যে দেখুন the ফলাফলটি নিন এবং এতে 16 টি যুক্ত করুন that এটিকে আলাদা টেবিলে দেখুন" "

স্বতন্ত্র কাজের চাপের সুবিধা হ'ল এটিকে বিভিন্ন অংশে বিভক্ত করা যেতে পারে, তাই আরও ট্রানজিস্টর এতে সহায়তা করে। নির্ভরশীল কাজের চাপের জন্য, এটি মোটেও সহায়তা করে না - আরও ট্রানজিস্টর কেবল এটিকে ধীর করে দিতে পারে । আপনার যদি স্মৃতি থেকে কোনও মূল্য পেতে হয় তবে এটি গতির জন্য বিপর্যয়। মাদারবোর্ড জুড়ে একটি সংকেত প্রেরণ করতে হবে, উপ-লাইটস্পিডে ভ্রমণ করতে হবে, ডিআরএএমকে এক সারি চার্জ করতে হবে এবং ফলাফলের জন্য অপেক্ষা করতে হবে, তারপরে পুরো পথটি পাঠাতে হবে। এটি কয়েক ন্যানোসেকেন্ড লাগে। তারপরে, একটি সাধারণ গণনা শেষ করে, আপনাকে পরবর্তীটির জন্য প্রেরণ করতে হবে।

শক্তি ব্যবস্থাপনা

অতিরিক্ত কোর বেশিরভাগ সময় বন্ধ থাকে। প্রকৃতপক্ষে, বেশ কয়েকটি প্রসেসরের ক্ষেত্রে, আপনি আগুন ধরার জিনিসটি ব্যতীত সমস্ত সময় সমস্ত চালনা করতে পারবেন না , সুতরাং সিস্টেমগুলি সেগুলি আপনার বন্ধ করে দেবে বা ডাউনক্লক করবে আপনার জন্য।

সফটওয়্যারটির পুনরায় লিখনই একমাত্র উপায়

হার্ডওয়্যার নির্ভরশীল কাজের চাপকে স্বয়ংক্রিয়ভাবে স্বাধীন কাজের চাপে রূপান্তর করতে পারে না। না পারে সফ্টওয়্যার। তবে এমন একজন প্রোগ্রামার যিনি তাদের সিস্টেমকে নতুন ডিজাইনের জন্য প্রস্তুত করেছেন যাতে কেবল প্রচুর কোর ব্যবহার করতে পারেন।


2
"একই সাথে সমস্ত কোর চালাতে পারে না" এর জন্য উদ্ধৃতি প্রয়োজন। আপনি যদি সিঙ্গল-কোর সর্বাধিক টার্বো ক্লক গতিটিকে CPU এর "আসল" ঘড়ির গতি হিসাবে বিবেচনা না করেন। ক্লাসিক অর্থে (আমরা পাওয়ার ওয়ালে আঘাত করার আগে এবং ঘড়ির গতি সমালোচনামূলক পথে প্রচারের বিলম্বের দ্বারা সীমাবদ্ধ ছিল), হ্যাঁ এটি সত্য, তবে আধুনিক বিশ্বে এটি বেসিক ক্লক গতির দিকে তাকিয়ে আরও বুদ্ধিমান হয়ে উঠেছে যা কীভাবে সহ্য করা যায়? ভারী কাজের চাপ চলমান কোরগুলি সক্রিয়। এর চেয়েও বড় কিছু হল গ্রেভী যা আপনি সুবিধাবাদীভাবে শক্তি / তাপীয় সীমা হিসাবে অনুমতি হিসাবে ব্যবহার করতে পারেন। (যেমন ইন্টেলের টার্বো)।
পিটার কর্ডেস

1
তবে ক্ষমতার দিক থেকে, এমনকি একটি একক কোরের সর্বাধিক ঘড়িটি প্রচারের বিলম্বের চেয়ে বেশি পরিমাণে তাপ দ্বারা সীমাবদ্ধ থাকে (যদিও সম্ভবত পাইপলাইন পর্যায়ের সীমানা বেছে নেওয়া হয়েছে যাতে আপনি লক্ষ্য সর্বাধিক টার্বোতে সেই সীমাটির কাছাকাছি থাকেন)। এবং ভোল্টেজ একটি পরিবর্তনশীল: আরও খারাপ শক্তি কিন্তু সংক্ষিপ্ত গেট বিলম্ব করে। যাইহোক, একক কোর ম্যাক্স টার্বোকে এমন কিছু হিসাবে বিবেচনা করা আপনার বোধগম্য নয় যে আপনি "সমস্ত" এখানে সমস্ত কোর চালাতে সক্ষম হবেন, কারণ এই সীমাটি ইতিমধ্যে শক্তি থেকে এসেছে।
পিটার কর্ডেস

মূল প্রশ্নের প্রসঙ্গটি অবশ্যই একক-কোর সর্বাধিক গতি সম্পর্কে জিজ্ঞাসা করেছিল এবং অনেক ব্যবহারিক উদ্দেশ্যে যে (এবং এর ক্যাশে মিস করে) ব্যবহারকারীর কাছে গতিবেগের জন্য আসল সীমাবদ্ধ ফ্যাক্টর।
pjc50

হ্যাঁ, আমরা যদি 8 টি কোর সিপিইউয়ের পরিবর্তে 8x একক থ্রেড পারফরম্যান্স নিতে পারি। (এসএমটি দিয়ে এটি প্রসঙ্গ-সুইচ ওভারহেড ছাড়াই প্রাকৃতিকভাবে পৃথক ওয়ার্কলোডগুলি চালিয়ে যেতে দেয় my আমার উত্তরটি দেখুন :) :) কাজের চাপ যদি সমস্ত স্টলে না রেখে প্রচুর স্টল তৈরি করে, সম্ভবত একটি হাইপোথিটিক্যাল সুপার-ওয়াইড কোর সম্ভবত নিজেকে আরও দ্রুত ঘড়িতে সক্ষম করতে পারে all সিমডি এফএমএ ইউনিটগুলির ট্রানজিস্টরগুলি প্রতিটি ঘড়িটি চালিত করে এবং স্যুইচ করে। ( একক কোরের মধ্যে পাওয়ার গেটিং উচ্চ ঘড়িগুলিতে গলে না যাওয়ার চাবিকাঠি; এন.ইউইউইকিপিডিয়া.আর / উইকি / ডার্ক_সিলিকন )। সুতরাং একটি একক প্রশস্ত কোর থাকায় এটি আলাদা হয় না।
পিটার কর্ডেস

যদিও আপনার কাছে একটি বক্তব্য রয়েছে যে আমরা বর্তমান সিপিইউগুলিতে যে একক থ্রেডেড পারফরম্যান্সটি দেখি তা যদি তারা কেবলমাত্র একটি ঘড়ির গতিতে সীমাবদ্ধ ছিল যা তারা সবচেয়ে খারাপ ক্ষেত্রে কাজের চাপ সহ একসাথে সমস্ত কোরকে ধরে রাখতে পারে। উদাহরণস্বরূপ, টার্বো কী, বিশেষত ল্যাপটপের চিপসের মতো নিম্ন-টিডিপি অংশের জন্য ( কেন এইচপিসিতে আমার সিপিইউ শীর্ষস্থানীয় পারফরম্যান্স বজায় রাখতে পারে না ): সাধারণত উচ্চ-শক্তিযুক্ত কিন্তু নিম্ন-কোর-গণনা ডেস্কটপ চিপের বিপরীতে বেসলাইন এবং সর্বোচ্চ টার্বোর মধ্যে একটি বড় অনুপাত থাকে ratio উদাহরণস্বরূপ, আই 7-6700 কে স্কাইলাকে 4GHz বেস, 4.2GHz সিঙ্গল-কোর টার্বো (ওভারক্লকিং ছাড়াই; 95W টিডিপি দিয়ে উচ্চতর সম্ভব)।
পিটার কর্ডেস

20

সময়মতো ফিরে যাওয়া, প্রসেসররা সেই দ্রুত চালাতে সক্ষম হয় নি। ফলস্বরূপ, আপনি যদি আরও প্রসেসিং করতে চান তবে আপনার আরও প্রসেসরের প্রয়োজন। এটি একটি গণিতের কোপ্রোসিসেসরের সাথে থাকতে পারে, বা এটি একই প্রসেসরের আরও অনেকগুলি সাথে থাকতে পারে। এর সর্বোত্তম উদাহরণ হ'ল 80 এর দশকের ইনমোস ট্রান্সপোর্টার, যা একাধিক প্রসেসরের একসাথে প্লাগ করা সহ ব্যাপকভাবে সমান্তরাল প্রক্রিয়াকরণের জন্য ডিজাইন করা হয়েছিল। পুরো ধারণাটি এই ধারণায় জড়িত যে প্রসেসর যুক্ত করার চেয়ে প্রক্রিয়াজাতকরণ শক্তি বাড়ানোর আর ভাল উপায় আর নেই।

সমস্যাটি হচ্ছে, সেই অনুমানটি (অস্থায়ীভাবে) ভুল ছিল was আপনি একটি প্রসেসরের আরও গণনা করে আরও প্রসেসিং শক্তি পেতে পারেন। ইন্টেল এবং এএমডি ঘড়ির গতি আরও বেশি ধাক্কা দেওয়ার উপায় খুঁজে পেয়েছিল এবং আপনি যেমন বলেছিলেন, সবকিছুই একটি প্রসেসরে রাখাই সহজ। ফলাফলটি ছিল 2000 সালের মাঝামাঝি নাগাদ, দ্রুত সিঙ্গল কোর-প্রসেসর বাজারের মালিকানাধীন। ইনমস 90 এর দশকের গোড়ার দিকে একটি মৃত্যুবরণ করেন এবং তাদের সমস্ত অভিজ্ঞতা তাদের সাথেই মারা যায়।

ভাল সময় যদিও শেষ ছিল। একবার ঘড়ির গতি GHz এ উঠলে সত্যিই আরও এগিয়ে যাওয়ার সুযোগ ছিল না। এবং ফিরে আমরা আবার একাধিক কোর গিয়েছিলাম। আপনি যদি সত্যিকারেরভাবে দ্রুত না পেতে পারেন তবে আরও কোরের উত্তর। আপনি যদিও বলছেন, এই কোরগুলি কার্যকরভাবে ব্যবহার করা সবসময় সহজ নয়। আমরা আজকাল অনেক বেশি ভাল, তবে ট্রান্সপোর্টারের মতো সহজ করার জন্য আমরা এখনও কিছুটা পথ বন্ধ করে রেখেছি।

অবশ্যই উন্নতির জন্য অন্যান্য বিকল্প রয়েছে - আপনি পরিবর্তে আরও দক্ষ হতে পারেন। সিমডি এবং অনুরূপ নির্দেশাবলী সেট একই সংখ্যক ক্লক টিকের জন্য আরও বেশি প্রক্রিয়াজাতকরণ করে। ডিডিআর আপনার ডেটা প্রসেসরের অভ্যন্তরে এবং বাইরে দ্রুত পায়। এটা সব সাহায্য করে। তবে এটি প্রক্রিয়াজাতকরণের ক্ষেত্রে, আমরা আবার ৮০ এর দশকে এবং একাধিক কোরে ফিরে এসেছি।


মন্তব্যগুলি বর্ধিত আলোচনার জন্য নয়; এই কথোপকথন চ্যাটে সরানো হয়েছে । পৌঁছে যাওয়া যে কোনও সিদ্ধান্তে আবার প্রশ্ন এবং / অথবা কোনও উত্তর (গুলি) এর মধ্যে সম্পাদনা করা উচিত।
ডেভ টুইট করেছেন

20

ভাল প্রশ্ন, বা একটি আকর্ষণীয় উত্তর কমপক্ষে একটি। এই উত্তরের অংশটি এমন এক বিশ্বকে চিত্র দেয় যেখানে সিপিইউগুলি একাধিক পৃথক কোরের পরিবর্তে প্রস্থে দক্ষতার সাথে স্কেল করতে পারে । লাইসেন্সিং / দামের মডেল আলাদা হবে!

বাকিরা কেন তারা পারছে না তা ব্যাখ্যা করে। সারাংশ:

  • একাধিক কোরের ব্যয় লিনিয়ারির কাছাকাছি স্কেল
  • 1 কোর এর সুপারসক্যালার পাইপলাইন আইশের প্রশস্তকরণের ব্যয় ~ চতুর্থাংশ এটি যাইহোক এক পর্যায়ে পর্যাপ্ত পরিমাণে শক্তি প্রয়োগের দ্বারা কার্যকর। ইন্টারেক্টিভ ব্যবহারের জন্য একক থ্রেডেড পারফরম্যান্স খুব গুরুত্বপূর্ণ (শেষ থেকে শেষের দিকে বিলম্বের বিষয়গুলি কেবল থ্রুপুট নয়), সুতরাং বর্তমান বিগ-কোর উচ্চ-শেষ সিপিইউগুলি সেই মূল্য দেয়। উদাহরণস্বরূপ স্কাইলেক (4-প্রশস্ত), রাইজেন (5 বা 6-প্রশস্ত) এবং অ্যাপলের এ 12 (বড় কোরগুলির জন্য 7-প্রশস্ত, ক্ষুদ্র শক্তি দক্ষ কোরগুলির জন্য 3-প্রশস্ত)
  • গুরুতর কমা আইপিসি শুধু পাইপলাইন প্রসার থেকে আয় পরলোক 3 বা 4 ব্যাপী, এমনকি আউট-অফ-অর্ডার এক্সিকিউশন সঙ্গে এটি ILP । শাখা মিস এবং ক্যাশে মিস করা শক্ত, এবং এখনও পুরো পাইপলাইন স্টল করে।
  • আপনি ফ্রিকোয়েন্সি উল্লেখ করেন নি, কেবল আইপিসি, তবে স্কেলিং ফ্রিকোয়েন্সি খুব শক্ত। উচ্চ ফ্রিকোয়েন্সি উচ্চতর ভোল্টেজের প্রয়োজন, তাই ফ্রিকোয়েন্সি ঘনক্ষেত্র সহ পাওয়ার স্কেল : ^1সরাসরি ফ্রিকোয়েন্সি ^2থেকে এবং ভোল্টেজ থেকে। (ক্যাপাসিটার ভি ^ 2 সহ স্ট্রোকড এনার্জি স্কেলগুলি, এবং ফুটো বর্তমানের বাইরে গতিশীল শক্তির বেশিরভাগই এফইটি গেটস + তারের ক্যাপাসিটিভ লোডগুলিতে পাম্পিং চার্জ থেকে হয়))

    পারফরম্যান্স = ফ্রিকোয়েন্সি বার আইপিসি। (একই আর্কিটেকচারের মধ্যে। বৃহত্তর সিমডি আপনাকে কম নির্দেশাবলীর সাহায্যে একই কাজটি করতে দেয় এবং কিছু আইএসএ অন্যদের চেয়ে স্বল্প, যেমন এমআইপিএস প্রায়শই x86 বা আআরচ 64 এর চেয়ে একই কাজটি করার জন্য আরও নির্দেশনা নেয়))

ব্যয়গুলি ডাই-এরিয়া (উত্পাদন খরচ) এবং / অথবা পাওয়ারে থাকে (যা পরোক্ষভাবে ফ্রিকোয়েন্সি সীমাবদ্ধ করে কারণ শীতলকরণ শক্ত)। এছাড়াও, ওয়াট প্রতি কম শক্তি এবং কর্মক্ষমতা নিজের মধ্যে একটি লক্ষ্য, বিশেষত মোবাইল (ব্যাটারি) এবং সার্ভারের জন্য (পাওয়ার ঘনত্ব / শীতলকরণের খরচ / বিদ্যুতের ব্যয়)।

প্রতি সকেট প্রতি মাল্টি-কোর একটি জিনিস হওয়ার আগে, আপনার উচ্চ-ব্যবহারের ক্ষেত্রে মাল্টি-সকেট সিস্টেম ছিল যেখানে আপনি তৈরি হতে পারে এমন একক সিপিইউ অর্জনের চেয়ে বেশি থ্রুপুট চেয়েছিলেন, সুতরাং সেগুলি কেবলমাত্র এসএমপি সিস্টেম ছিল। (সার্ভারস, উচ্চ-শেষ ওয়ার্কস্টেশন)।

যদি কোনও একক কোর আপনার ইচ্ছানুসারে দক্ষতার সাথে স্কেল করতে পারে তবে তাদেরকে একাধিক লজিক্যাল কোর হিসাবে কাজ করার জন্য আমাদের সকেট প্রতি 1 টি শারীরিক কোর এবং এসএমটি (যেমন হাইপারথ্রেডিং) সহ সিস্টেমগুলি থাকতে হবে । টিপিকাল ডেস্কটপ / ল্যাপটপের মধ্যে কেবল ১ টি শারীরিক কোর থাকে এবং আমরা এমন জিনিসগুলিকে সমান্তরাল করে তুলতে সংগ্রাম করব না যা আরও বেশি কোর দিয়ে রৈখিকভাবে স্কেল করে না। যেমন make -j4মাল্টি-সকেট সার্ভারগুলির সুবিধা গ্রহণ করা, এবং / অথবা কোনও ডেস্কটপে আই / ও ল্যাটেন্সিকে আড়াল করা। (অথবা পাইপলাইনের প্রস্থটি যদি সহজেই স্কেল করা হয় তবে আইপিসি না করে আমরা এখনও অনেকগুলি সমান্তরাল করার চেষ্টা করব) সুতরাং আমাদের আরও এসএমটি থ্রেড ব্যবহার করতে হবে) সিপিইউ না থাকলে আপনার ওএস কার্নেলটি এখনও সমস্ত লজিক্যাল কোর জুড়ে চলতে হবে unless ওএসের কাছে এসএমটি উপস্থাপন করা খুব আলাদা ছিল, সুতরাং সমান্তরাল শিডিয়ুলিং অ্যালগরিদম এবং লকিং এখনও সেখানে প্রয়োজন হবে।


ডোনাল্ড নুথ ২০০৮ সালের একটি সাক্ষাত্কারে বলেছিলেন

আমি মাল্টিকোর আর্কিটেকচারের বর্তমান প্রবণতার সাথে আমার ব্যক্তিগত অসন্তুষ্টি সম্পর্কে কিছুটা শিখতে পারি। আমার কাছে এটি কমবেশি দেখে মনে হচ্ছে যে হার্ডওয়্যার ডিজাইনারদের ধারণা শেষ হয়ে গেছে, এবং তারা ভবিষ্যতে মুরের আইনের মৃত্যুর জন্য সফ্টওয়্যার লেখকদের কাছে দোষ চাপিয়ে দেওয়ার চেষ্টা করছেন যা কেবলমাত্র কয়েকটিতে দ্রুত কাজ করে এমন মেশিন আমাদের দিয়ে দিয়েছে us মূল মাপদণ্ড!

হ্যাঁ, আমরা যদি সত্যিকারের প্রোগ্রামগুলিতে 8x থ্রুপুট সহ অলৌকিক একক কোর সিপিইউগুলি পেতে পারি তবে আমরা সম্ভবত এখনও সেগুলি ব্যবহার করতাম। দ্বৈত সকেট সিস্টেমগুলির সাথে কেবল তখনই বেশি থ্রুপুট (একক থ্রেডেড পারফরম্যান্স নয়) এর জন্য অনেক বেশি মূল্য দেওয়া হয়।

একাধিক সিপিইউগুলি একাধিক প্রোগ্রাম চলাকালীন প্রসঙ্গ-স্যুইচ ব্যয় হ্রাস করে (তাদের মধ্যে দ্রুত স্যুইচিংয়ের পরিবর্তে সত্যিকারভাবে সমান্তরালে চালিয়ে দেয়); প্রি-ইম্পিটিভ মাল্টিটাস্কিংয়ের বিস্তৃত বিশাল আউট-অফ-অর্ডার মেশিনারি যেমন একটি সিপিইউ সম্ভবত এটি এখনকার চেয়ে আরও বেশি ক্ষতি করতে পারে।

শারীরিকভাবে এটি সিঙ্গেল কোর হবে (কোরগুলির মধ্যে আন্তঃসংযোগবিহীন একটি সাধারণ ক্যাশে শ্রেণিবিন্যাসের জন্য) তবে এসএমটি সমর্থন করবে (উদাহরণস্বরূপ ইন্টেলের হাইপারথ্রেডিং) যাতে সফ্টওয়্যার এটিকে 8 লজিকাল কোর হিসাবে ব্যবহার করতে পারে যা গতিশীলভাবে থ্রুপুট সংস্থার জন্য প্রতিযোগিতা করে। বা যখন কেবল 1 টি থ্রেড চলমান / স্থগিত নয়, তখন এটি সম্পূর্ণ সুবিধা পাবে।

সুতরাং আপনি যখন একাধিক থ্রেড ব্যবহার করবেন যখন এটি আসলে সহজ / প্রাকৃতিক ছিল (উদাহরণস্বরূপ পৃথক প্রক্রিয়াগুলি একবারে চলমান), বা নির্ভরশীলতা শৃঙ্খলাগুলির সাথে সহজেই সমান্তরাল সমস্যার জন্য যা এই জানোয়ারের আইপিসি সর্বাধিক প্রতিরোধ করতে পারে।

তবে দুর্ভাগ্যক্রমে নুথের পক্ষ থেকে এটি ইচ্ছুক চিন্তাভাবনা যে মাল্টি-কোর সিপিইউগুলি এই মুহুর্তে কোনও জিনিস হওয়া বন্ধ করবে।


একক থ্রেড কর্মক্ষমতা স্কেলিং

আমি মনে করি যদি তারা একটি 8 টি সিপিইউর 1 কোর সমতুল্য তৈরি করে, তবে একটি কোরের আইপিসিতে 800% বৃদ্ধি হবে যাতে আপনি একাধিক কোরগুলির জন্য অনুকূলিত হন না কেবল সমস্ত প্রোগ্রামগুলিতে সম্পূর্ণ পারফরম্যান্স পাবেন।

হ্যা, এটা সত্য. যদি এ জাতীয় সিপিইউ আদৌ তৈরি করা সম্ভব হয় তবে এটি খুব আশ্চর্য হবে। কিন্তু আমি মনে করি এটা আক্ষরিক একই অর্ধপরিবাহী উত্পাদন প্রক্রিয়া উপর অসম্ভব (ট্রানজিস্টর অর্থাৎ একই মানের / দক্ষতা)। আপনি 8-কোর সিপিইউ হিসাবে একই পাওয়ার বাজেট এবং ডাই এরিয়া দিয়ে অবশ্যই সম্ভব নয়, যদিও আপনি যুক্তি দিয়ে একসাথে আঠালো কোরগুলি সংরক্ষণ করতে চান, এবং প্রতি-কোর ব্যক্তিগত ক্যাশেগুলির জন্য তত জায়গার প্রয়োজন হবে না।

এমনকি যদি আপনি ফ্রিকোয়েন্সি বাড়ার অনুমতি দেন (যেহেতু আসল মাপদণ্ড প্রতি সেকেন্ডে কাজ করা হয়, প্রতি ঘড়ি প্রতি কাজ হয় না), এমনকি 2x দ্রুত সিপিইউ তৈরি করা একটি বিশাল চ্যালেঞ্জ হতে পারে।

যদি এই জাতীয় সিপিইউ তৈরির জন্য একই বিদ্যুত এবং ডাই-এরিয়া বাজেটের (সুতরাং উত্পাদন ব্যয়) কাছাকাছি যে কোনও জায়গায় এটি সম্ভব হত , হ্যাঁ সিপিইউ বিক্রেতারা ইতিমধ্যে তাদের সেভাবে তৈরি করবে।

দেখুন আধুনিক মাইক্রোপ্রসেসর 90 মিনিটের গাইড!

বিশেষত আরও কোর বা আরও বৃহত্তর কোর? এই উত্তরটি বুঝতে প্রয়োজনীয় পটভূমির জন্য বিভাগ; এটি অর্ডার পাইপলাইন করা সিপিইউগুলি কীভাবে কাজ করে, তারপরে সুপারশালার (ঘড়ি প্রতি একাধিক নির্দেশাবলী) দিয়ে সহজ হয়। তারপরে ব্যাখ্যা করা হয় যে আমরা কীভাবে বিদ্যুতের দেয়ালটিকে পি 4 যুগের চারদিকে আঘাত করলাম, সহজেই ফ্রিকোয়েন্সি স্কেলিংয়ের সমাপ্তি ঘটিয়েছি, বেশিরভাগ মাত্র আইপিসি রেখেছি এবং নির্দেশ অনুসারে আরও কাজ করা হয়েছে (যেমন সিমডি) এমনকি সামান্য ট্রানজিস্টর দিয়েও with

পাইপলাইনকে আরও প্রশস্ত করা (প্রতি ঘড়ি প্রতি সর্বাধিক নির্দেশাবলী) প্রস্থ-বর্গক্ষেত্র হিসাবে সাধারণত ব্যয়ের স্কেল । বিস্তৃত সমান্তরাল নির্ভরতা পরীক্ষা (বিপদ সনাক্তকরণ), এবং চালানোর জন্য প্রস্তুত নির্দেশাবলীর সন্ধানের জন্য আরও বিস্তৃত অর্ডার শিডিয়ুলারের জন্য, এই খরচটি ডাই এরিয়া এবং / বা পাওয়ার হিসাবে পরিমাপ করা হয়। এবং আপনার রেজিস্টার ফাইলে আরও পঠন / লেখার পোর্ট এবং ক্যাশে আপনি অন্য নির্দেশাবলী চালাতে চাইলে ক্যাশে nop। বিশেষত যদি আপনার কাছে 3 টি ইনপুট নির্দেশ থাকে যেমন এফএমএ বা অ্যাড-উইথ ক্যারি (2 রেজিস্টার + পতাকা)।

সিপিইউগুলিকে আরও বিস্তৃত করার জন্য আইপিসি রিটার্নও হ্রাস পাচ্ছে ; বেশিরভাগ কাজের চাপে সিপিইউগুলি শোষণের জন্য ছোট-স্কেল / স্বল্প-পরিসরের আইএলপি (নির্দেশনা-স্তর সমান্তরালতা) সীমাবদ্ধ রয়েছে, সুতরাং আইপিসি যদি ইতিমধ্যে প্রস্থের প্রস্থের চেয়ে কম সীমাবদ্ধ থাকে তবে মূল প্রশস্ত করা আইপিসি বাড়ায় না (প্রতি ঘড়ি প্রতি নির্দেশ) নির্ভরতা শৃঙ্খলা, শাখা মিস, ক্যাশে মিস বা অন্যান্য স্টল দ্বারা মূল। নিশ্চিত যে আপনি স্বাধীন পুনরাবৃত্তির সাথে কিছু অনিয়ন্ত্রিত লুপগুলিতে গতি অর্জন করতে পারেন তবে বেশিরভাগ কোড তার বেশিরভাগ সময় ব্যয় করে না। "টিপিকাল" কোড, আইআইআরসি-তে নির্দেশনা মিশ্রণের 20% অংশের তুলনা / শাখার নির্দেশাবলী রয়েছে। (আমি মনে করি আমি বিভিন্ন ডেটা সেটগুলির জন্য 15 থেকে 25% পর্যন্ত সংখ্যাগুলি পড়েছি))

এছাড়াও, একটি ক্যাশে মিস যা সমস্ত নির্ভরশীল নির্দেশাবলীর স্টল করে (এবং তারপরে আরওবির সক্ষমতা একবারে পৌঁছে যায়) এর বিস্তৃত সিপিইউয়ের জন্য বেশি খরচ হয়। (আরও কার্যকরকরণ ইউনিটকে অলস রেখে যাওয়ার সুযোগ ব্যয়; আরও বেশি সম্ভাব্য কাজ শেষ হচ্ছে না)) বা একইভাবে কোনও শাখা মিস করার কারণে বুদবুদ হয়ে যায়।

আইপিসি 8x পেতে, আমাদের শাখা-পূর্বাভাসের সঠিকতা এবং ক্যাশে হিট রেটে কমপক্ষে 8x এর উন্নতি প্রয়োজন । তবে ক্যাশে হিট রেট বেশিরভাগ কাজের চাপের জন্য একটি নির্দিষ্ট পয়েন্ট পেরিয়ে ক্যাশে সক্ষমতার সাথে ভাল স্কেল করে না। এবং এইচডাব্লু প্রিফেচিং স্মার্ট, তবে সেই স্মার্ট হতে পারে না । এবং 8x আইপিসিতে, শাখার ভবিষ্যদ্বাণীকারীদের আরও যথাযথ হওয়ার পাশাপাশি চক্র অনুসারে 8x হিসাবে বেশি পূর্বাভাস তৈরি করতে হবে।


ক্রম ছাড়াই সিপিইউগুলি তৈরির জন্য বর্তমান কৌশলগুলি কেবল স্বল্প পরিসরে আইএলপি খুঁজে পেতে পারে । উদাহরণস্বরূপ, স্কাইলেকের আরওবি আকারটি 224 টি ফিউজড-ডোমেন উফস, অ-এক্সিকিউটেড উফসের শিডিয়ুলার 97 টি অবরুদ্ধ-ডোমেন। দেখুন , দুটি দীর্ঘ নির্ভরতা শেকল দিয়ে একটি লুপ উপর lfence প্রভাব বোঝা লেন্থ বৃদ্ধির একটি মামলা যেখানে নির্ধারণকারী আকার নির্দেশাবলীর 2 দীর্ঘ চেইন থেকে ILP আহরণের মধ্যে সীমিত ফ্যাক্টর, যদি তারা পান খুব দীর্ঘ। এবং / অথবা এটি আরও সাধারণ এবং প্রারম্ভিক উত্তর দেখুন )।

সুতরাং দুটি পৃথক দীর্ঘ লুপের মধ্যে আইএলপি সন্ধান করা আমরা হার্ডওয়ারের সাহায্যে করতে পারি না। লুপ ফিউশনের জন্য গতিশীল বাইনারি-পুনঃসংশোধন কিছু ক্ষেত্রে সম্ভব হতে পারে, তবে ট্রান্সমেটা ক্রুসো পথে না যাওয়া সত্ত্বেও হার্ড এবং সিপিইউ কিছু করতে পারে না। (x86 ইমুলেশন স্তরটি একটি পৃথক অভ্যন্তরীণ আইএসএর শীর্ষে; সেক্ষেত্রে ভিএলআইডাব্লু)। তবে ইউওপ ক্যাশে এবং শক্তিশালী ডিকোডার সহ স্ট্যান্ডার্ড আধুনিক x86 ডিজাইন বেশিরভাগ কোডের জন্য বীট করা সহজ নয়।

এবং x86 এর বাইরে, এখনও ব্যবহৃত সমস্ত আইএসএগুলি ডিকোড করা অপেক্ষাকৃত সহজ, সুতরাং দূরত্বের অপ্টিমাইজেশান ছাড়া গতিশীল-পুনঃসংশোধনের জন্য কোনও প্রেরণা নেই। টিএল: ডিআর: হার্ডওয়ারে আরও আইএলপি প্রকাশ করতে পারে এমন ম্যাজিক সংকলকগুলির জন্য আশা করা ইটানিয়াম আইএ -৪৪ এর জন্য কার্যকর হয়নি , এবং কার্যকর করার একটি সিরিয়াল মডেল সহ কোনও বিদ্যমান আইএসএর জন্য একটি সুপার-ওয়াইড সিপিইউয়ের পক্ষে কাজ করার সম্ভাবনা নেই।


যদি আপনার কাছে একটি সুপার-ওয়াইড সিপিইউ থাকে তবে আপনি অবশ্যই এটি চাইবেন যে এটি এসএমটি সমর্থন করবে যাতে আপনি একাধিক লো-আইএলপি থ্রেড চালিয়ে কাজটি চালিয়ে যেতে পারেন।

যেহেতু স্কাইলেক বর্তমানে 4 টি উওপ প্রশস্ত (এবং প্রতি ঘড়িতে 2 থেকে 3 উওসের একটি সত্যিকারের আইপিসি অর্জন করে বা হাই-থ্রুপুট কোডে 4 এর কাছাকাছিও) তাই একটি অনুমান 8x প্রশস্ত সিপিইউ 32-প্রশস্ত হবে!

8 বা 16 লজিক্যাল সিপিইউগুলিতে সেইগুলি কার্যকর করার জন্য যেগুলি কার্যকরভাবে ভাগ করে নেবে তা ফিরিয়ে আনতে সক্ষম হওয়া দুর্দান্ত হবে: অবিচলিত থ্রেডগুলি সমস্ত ফ্রন্ট-এন্ড ব্যান্ডউইথ এবং ব্যাক-এন্ড থ্রুপুট পায়।

তবে 8 টি পৃথক কোরের সাহায্যে, যখন কোনও থ্রেড স্টলে স্টিকিউট ইউনিটগুলিকে খাওয়ানোর জন্য আর কিছুই থাকে না; অন্যান্য থ্রেড উপকার হয় না।

সম্পাদন প্রায়শই ফেটে যায়: এটি ক্যাশে মিস লোডের জন্য অপেক্ষা করে স্টল দেয়, তারপরে একবার সমান্তরালে অনেক নির্দেশাবলী উপস্থিত হলে ফলাফলটি ব্যবহার করতে পারে। একটি সুপার-ওয়াইড সিপিইউ দিয়ে, এটি ফেটে দ্রুত যেতে পারে, এবং এটি আসলে এসএমটি সাহায্য করতে পারে।


তবে আমাদের কাছে জাদুকরী সুপার-ওয়াইড সিপিইউ থাকতে পারে না

সুতরাং থ্রুপুট অর্জনের জন্য আমাদের পরিবর্তে থ্রেড-স্তরের সমান্তরালতার আকারে হার্ডওয়্যারে সমান্তরালতাটি প্রকাশ করতে হবে । সাধারণত বড় সংখ্যক লুপের মতো সহজ ক্ষেত্রে ছাড়া থ্রেডগুলি কখন / কীভাবে ব্যবহার করতে হয় তা জানার ক্ষেত্রে সাধারণত সংকলকগুলি দুর্দান্ত নয়। (ওপেনএমপি, বা জিসিসি -ftree-parallelize-loops)। সমান্তরালভাবে কার্যকরভাবে কার্যকরীভাবে কার্য সম্পাদন করতে কোডটি পুনরায় রচনা করতে এখনও মানুষের চতুরতা লাগে, কারণ আন্ত-থ্রেড যোগাযোগ ব্যয়বহুল, এবং থ্রেড স্টার্টআপও।

টিএলপি হ'ল মোটা দানাযুক্ত সমান্তরালতা, কার্যকর করার একক থ্রেডের মধ্যে সূক্ষ্ম-দানাযুক্ত আইএলপির বিপরীতে যা এইচডাব্লু শোষণ করতে পারে।


ইন্টারেক্টিভ ওয়ার্কলোডগুলি (ইন্টেল / এএমডি এক্স 86, এবং অ্যাপল / এআরএম এআরচ 64 উচ্চ-শেষ কোরগুলি) লক্ষ্য করে সিপিইউগুলি অবশ্যই আইপিসি স্কেলিংয়ের হ্রাসকারী রিটার্নগুলিতে ধাক্কা দেয়, কারণ একক থ্রেডেড পারফরম্যান্স এখনও বিলুপ্তির বিষয়টি যখন এতটা মূল্যবান তবে কেবলমাত্র থ্রুটপুট জন্য নয় ব্যাপকভাবে সমান্তরাল সমস্যা।

প্রতিটি গেমের 8 টি অনুলিপি সমানতালে 15fps এ চালাতে সক্ষম হওয়া 45fps এ একটি অনুলিপি চালানোর চেয়ে অনেক কম মূল্যবান। সিপিইউ বিক্রেতারা এটি জানেন এবং এজন্যই আধুনিক সিপিইউগুলি আউট-অফ-অর্ডার এক্সিকিউশন ব্যবহার করে যদিও এর জন্য উল্লেখযোগ্য শক্তি এবং ডাই-এরিয়া ব্যয় হয়। (তবে জিপিইউগুলি তাদের কাজের চাপ ইতিমধ্যে ব্যাপকভাবে সমান্তরাল হওয়ার কারণে নয়)।

ইন্টেলের বহু-কোর জিয়ন ফাই হার্ডওয়্যার (নাইটস ল্যান্ডিং / নাইটস মিল) একটি আকর্ষণীয় অর্ধ-পথ বিন্দু: খুব সীমিত আউট-অফ-অর্ডার এক্সিকিউশন এবং এসএমটি 2 টি প্রশস্ত কোরগুলিকে সংখ্যার ক্র্যাঙ্কের জন্য AVX512 সিমডি নির্দেশাবলী দিয়ে খাওয়ানো। কোরগুলি ইন্টেলের লো-পাওয়ার সিলভারমন্ট আর্কিটেকচারের ভিত্তিতে তৈরি। (আউট-অফ-অর্ডার এক্সিকিউট তবে একটি ছোট রেন্ডারিং উইন্ডো রয়েছে, বড়-কোর স্যান্ডিব্রিজ পরিবারের চেয়ে অনেক ছোট smaller এবং একটি সঙ্কুচিত পাইপলাইন))


বিটিডাব্লু, এই সমস্তই সিমডের কাছে অর্থগোনাল। প্রতি নির্দেশ অনুসারে আরও কাজ করা সর্বদা সহায়তা করে, যদি এটি আপনার সমস্যার পক্ষে সম্ভব হয়।


দামের মডেল

সফ্টওয়্যার মূল্যের মডেলগুলি হার্ডওয়ারের বর্তমান ল্যান্ডস্কেপে পূর্বাভাস দেওয়া হয়েছে।

পার-কোর লাইসেন্সিং মডেলগুলি বহু-কোর সিপিইউগুলির আবির্ভাবের সাথে আরও ব্যাপক (এবং এমনকি একক-সকেট ডেস্কটপগুলির সাথেও প্রাসঙ্গিক) হয়ে উঠেছে। তার আগে, এটি কেবল সার্ভার এবং বড় ওয়ার্কস্টেশনের জন্য প্রাসঙ্গিক ছিল।

শীর্ষ গতিতে চালানোর জন্য যদি সফ্টওয়্যারটির একাধিক কোরের প্রয়োজন না হয়, তবে সত্যিকার অর্থে লোকেদের পক্ষে এটি সস্তা বিক্রির কোনও উপায় নেই যারা এটার থেকে খুব বেশি সুবিধা পাচ্ছেন না কারণ তারা এটি একটি দুর্বল সিপিইউতে চালায়। সফ্টওয়্যার / হার্ডওয়্যার ইকোসিস্টেমটি "এসএমটি চ্যানেলগুলি" -এর নিয়ন্ত্রণগুলি বিকশিত হয়েছে যা আপনাকে সেই লজিক্যাল কোরটিতে চলমান কোডের জন্য সর্বাধিক প্রয়োগের প্রস্থকে কনফিগার করতে দেয়। (আবার এমন এক বিশ্ব কল্পনা করা যেখানে সিপিইউগুলি একাধিক পৃথক পৃথক কোরের পরিবর্তে পাইপলাইনের প্রস্থে স্কেল করে))


2
"থ্রেড স্টার্টআপ ব্যয়বহুল" - এটি কোনও কঠিন সত্য নয়; এটি সাধারণ আধুনিক অপারেটিং সিস্টেমগুলির একটি নিদর্শন।
ম্যাসাল্টারস

1
@ স্যামটাররা এবং প্রকৃতপক্ষে, কিছু গবেষণা প্রকল্পগুলি অনুসন্ধান করেছে যে এই পদ্ধতিকে বাদ দেওয়া কতটা ভয়ঙ্কর হবে। "পুনরায় কাজের কোডে মানবীয় চতুরতা" এর সাথে একই রকম - কোড রচনার বিভিন্ন উপায় রয়েছে যা প্রাকৃতিকভাবে সমান্তরাল হওয়া সহজ, তারা গত কয়েক দশকে খুব বেশি জনপ্রিয় হননি। তারা কোথায় হয় ব্যবহার করা হয়, আপনি সাধারণত খুব কম খরচে বৃহদায়তন অনুভূমিক স্কেলিং দেখতে পারেন; প্রকৃতপক্ষে, বিন্দুতে যে অনুভূমিক স্কেলিং অনেক অ্যাপ্লিকেশনগুলিতে উল্লম্ব চেয়ে অনেক কম সস্তা হতে শুরু করে। এর অর্থ কেবলমাত্র আপনি বিকাশকারীদের পছন্দটি দেবেন না - যদি পরিস্থিতি এটি জোর করে, এটি ঠিক কাজ করে: ডি
লুয়ান

11

আমাকে একটি উপমা আঁকুন:

আপনার যদি টাইপরাইটারে বানরের টাইপিং থাকে এবং আপনি আরও টাইপিংয়ের কাজটি করতে চান, আপনি বানরকে কফি দিতে পারেন, টাইপিং পাঠ করতে পারেন, এবং সম্ভবত এটির কাজটি আরও দ্রুত চালানোর হুমকি তৈরি করতে পারেন, তবে একটি পয়েন্ট আসে যেখানে বানরটি সর্বোচ্চ ক্ষমতা টাইপ করা।

সুতরাং আপনি যদি আরও টাইপিং করতে চান তবে আপনাকে আরও বানর পেতে হবে।


সাদৃশ্যটি আরও বাড়ানোর জন্য আপনার প্রতিটি বানরের জন্য আলাদা টাইপরাইটার দরকার (প্রতিটি কোরকে প্রয়োজনীয় ডাটা বাসের প্রতিনিধিত্ব করা), আপনার প্রতিটি বানরের কাছে কলা এবং তার ঝরে পড়া বাছাই করার কিছু উপায় প্রয়োজন (বিদ্যুৎ বিতরণ এবং তাপের সাথে সমান) বিলোপ) এবং আপনার এটির একটি উপায়ের প্রয়োজন যা বানররা সকলেই দ্বাদশ নাইটে একই প্যাসেজটি টাইপ করার চেষ্টা করছে না (প্রসেসরের মধ্যে কাজের চাপটি যথাযথভাবে ভাগ করার জন্য অনুরূপ)। তবে এই সমস্ত কিছুই এক বানর থেকে আরও বেশি টাইপ করার চেষ্টা করার চেয়ে বেশি লাভের জন্য কম কাজ।


7

আপনি উল্লেখ করেছেন যে অনেকগুলি সফ্টওয়্যার (x) কোরের বেশি ব্যবহার করে না। তবে এটি সম্পূর্ণরূপে সেই সফ্টওয়্যারটির ডিজাইনারদের দ্বারা সীমাবদ্ধতা। একাধিক কোর থাকা হোম পিসি এখনও নতুন (ইশ) এবং multiতিহ্যগত এপিআই এবং ভাষাগুলির সাথে মাল্টি-থ্রেডেড সফ্টওয়্যার ডিজাইন করা আরও কঠিন।

আপনার পিসিও কেবল সেই 1 টি প্রোগ্রাম চালাচ্ছে না। এটি সম্পূর্ণ অন্যান্য গোষ্ঠীগুলি করছে যা কম সক্রিয় কোরে রেখে দেওয়া যেতে পারে যাতে আপনার প্রাথমিক সফ্টওয়্যারটি তাদের দ্বারা এতটা বাধাগ্রস্থ না হয়।

8 কোরের থ্রুপুটটি মেলে কেবলমাত্র একটি কোরের গতি বাড়ানো বর্তমানে সম্ভব নয়। আরও গতি সম্ভবত নতুন স্থাপত্য থেকে আসতে হবে।

যেহেতু আরও বেশি কোরগুলি সাধারণত উপলভ্য থাকে এবং এপিআইগুলি সেই অনুমানের সাথে ডিজাইন করা হয় তাই প্রোগ্রামাররা আরও বেশি কোর ব্যবহার করা শুরু করবে। মাল্টি-থ্রেডড ডিজাইনগুলি সহজ করে তোলার প্রচেষ্টা চলছে। আপনি যদি কয়েক বছরের মধ্যে এই প্রশ্নটি জিজ্ঞাসা করেন তবে আপনি সম্ভবত বলছেন যে "আমার গেমগুলিতে কেবলমাত্র 32 টি কর ব্যবহৃত হয়, তবে আমার সিপিইউ কেন 256?"।


3
সুবিধা পেতে সফ্টওয়্যার পাওয়ার ক্ষেত্রে 1 বনাম একাধিক কোরের পার্থক্য বিশাল । বেশিরভাগ অ্যালগরিদম এবং প্রোগ্রামগুলি সিরিয়াল হয়। উদাহরণস্বরূপ, ডোনাল্ড নুথ বলেছেন যে মাল্টি-কোর সিপিইউগুলি এইচডাব্লু ডিজাইনার মনে হচ্ছে " কেবলমাত্র কয়েকটি মূল মাপদণ্ডে দ্রুত কাজ করে এমন মেশিন দিয়ে আমাদের সফ্টওয়্যার লেখকদের কাছে মুরের আইনের ভবিষ্যতের মৃত্যুর জন্য দোষ দেওয়ার চেষ্টা করছেন! "
পিটার কর্ডেস

দুর্ভাগ্যক্রমে কেউ এখনও একক প্রশস্ত / দ্রুত কোরকে একক থ্রেডেড প্রোগ্রামের যত দ্রুত কাছে চালিত করতে পারে সেভাবে এগিয়ে আসেনি যত দ্রুত আমরা একাধিক কোর জুড়ে চলার জন্য দক্ষতার সাথে সমান্তরাল কোড পেতে পারি। তবে সৌভাগ্যক্রমে সিপিইউ ডিজাইনাররা বুঝতে পেরেছেন যে একক থ্রেডেড পারফরম্যান্স এখনও সমালোচনামূলক এবং প্রতিটি স্বতন্ত্র কোরকে যদি তারা সমান্তরাল সমস্যার উপর খাঁটি থ্রুপুট হিসাবে চালিয়ে যাচ্ছিল তবে তার চেয়ে অনেক বড় এবং আরও শক্তিশালী করে তোলে। (স্কাইলেক (4-প্রশস্ত) বা রাইজেন (5-প্রশস্ত) বনাম একটি জিয়ন ফাই (নাইটস ল্যান্ডিং / নাইটস মিল সিলভারমন্ট + এভিএক্স 512 এর উপর ভিত্তি করে) এর মূল তুলনা করুন) (2-প্রশস্ত এবং সীমিত ওও এক্সিকিউটিভ)
পিটার কর্ডস

2
যাইহোক, কমপক্ষে 2 টি কোর থাকা একটি মাল্টিটাস্কিং ওএসের জন্য প্রায়শই সহায়ক, তবে বর্তমান সিপিইউর মতো দ্রুত 4x বা 8x ছিল এমন একক কোরটিতে প্রাক-সামর্থ্যযুক্ত বহু-কাজটি বেশ ভাল হবে। অনেকগুলি ইন্টারেক্টিভ ব্যবহারের ক্ষেত্রে যা একইসাথে / একই পাওয়ার বাজেটের সাথে তৈরি করা সম্ভব হত তা আরও ভাল। (একাধিক টাস্ক সিপিইউ সময় চাইলে কনটেক্সট-স্যুইচ ব্যয় হ্রাস করতে সহায়তা করে।)
পিটার কর্ডেস

1
সব সত্য, তবে historতিহাসিকভাবে মাল্টি-কোর আরও ব্যয়বহুল ছিল। বিজ্ঞান অ্যাপ্লিকেশনগুলির দিকের সমান্তরাল অ্যালগোরিদমগুলি ডিজাইনের অনেক কারণ ছিল না। সমান্তরালকরণের জন্য অনেকগুলি জায়গা রয়েছে, এমনকি অ্যালগরিদমেও বেশিরভাগ ক্ষেত্রে ক্রমিক সম্পাদন প্রয়োজন। তবে বর্তমান প্রজন্মের আইপিসি দুর্দান্ত নয় এবং গণ্ডগোলের পক্ষে সহজ। যা সাধারণত ত্রুটিযুক্ত ফলাফলগুলি খুঁজে পাওয়া এবং সমাধান করা সত্যই কঠিন। অবশ্যই একটি 4x দ্রুত সিপিইউ আশ্চর্যজনক হবে (তবে আপনি এখনও একাধিক কোর চাইবেন)।
হেকটে

2
@PeterCordes ওয়েল, সবচেয়ে আলগোরিদিম এবং প্রোগ্রাম কারণ তারা সিরিয়াল নয় আছে হতে, কিন্তু বেশিরভাগই কারণ এটি পথ এটা সবসময় কাজ হয়েছে এর (একটি ছিটে সঙ্গে "এটি একটি ভাল ট্রেড বন্ধ ছিল")। সর্বাধিক গুরুতর কেসগুলি হল যেখানে আপনি চারটি পৃথক ওয়ার্কলোডের উপর একই প্রোগ্রামটি চারবার চালাতে পারেন এবং এগুলি কোনও সমস্যা ছাড়াই সমান্তরালে চালাতে পারেন। তবে এটি আরেকটি সমস্যায় পড়ে - সিপিইউ প্রায়শই কোনও বাধা নয় এবং সাধারণত এর চারপাশের উপায়টি আরও ভাল সিগিয়াল ব্যবহার না করে আরও ভাল অ্যালগরিদম ব্যবহার করা। কখনও কখনও এগুলি অন্যান্য বাধাগুলির সাথেও সহায়তা করে (মেমরি, ডিস্ক, নেটওয়ার্ক ...)।
লুয়ান

3

একটি historicalতিহাসিক দৃষ্টিকোণ থেকে সবচেয়ে জোরালো কারণ, শক্তি হ্রাস

পেন্টিয়াম চতুর্থ হওয়ার পরে, ইন্টেল একটি পরবর্তী প্রজন্মের প্রসেসরের কোড তেজাসকে অনুসরণ করার চেষ্টা করেছিল যা 4 গিগাহার্টজ থেকে 12 গিগাহার্জ পরিসরে চালিত হওয়ার কথা ছিল। সমস্যাটি ছিল যে সেই গতিতে চালানো খুব বেশি তাপ উত্পাদনযোগ্য হতে পারে।

তেজাস বাতিল হওয়ার পরে ইন্টেলকে আরও 10 থেকে 15 বছর সময় লেগেছিল তাদের শেষ পর্যন্ত তাপের গ্রহণযোগ্য মাত্রায় 4 গিগাহার্জ হারে কোর চলছিল।

দেখুন Tejas এবং Jayhawk

ইন্টেলের তেজাসের সাথে সমান্তরালে আরও একটি প্রকল্প ছিল যা একাধিক কোর ব্যবহার করে জড়িত। এই প্রকল্পের তাপের গ্রহণযোগ্য মাত্রা ছিল, তাই তারা চলেছিল। এটি তাদের 10 এনএম জালিয়াতি প্রক্রিয়াগুলির জন্য আরও 10 বছর অপেক্ষা না করে এখন কর্মক্ষমতা বাড়ানোর অনুমতি দিয়েছে।

ধরে নিচ্ছি যে কোরগুলি সম্পদ অনাহারে নয়, তারপরে এন কোরগুলির পরিবর্তে একক কোর থেকে প্রতি সেকেন্ডে একই সংখ্যক নির্দেশনা পেতে আপনার একক কোরের নির্দেশের হারটি N গুণ বেশি দ্রুত হওয়া দরকার। একটি সিপিইউ কোরের গতিশীল শক্তি অপসারণ অপারেটিং ফ্রিকোয়েন্সিটির লিনিয়ার আনুপাতিক। এটি অপারেটিং ভোল্টেজের বর্গক্ষেত্রের সমানুপাতিক। নিম্ন ফ্রিকোয়েন্সি এ চলমান নিম্ন অপারেটিং ভোল্টেজ ব্যবহারের অনুমতি দেয়। নিম্ন ফ্রিকোয়েন্সিগুলিতে কম ভোল্টেজ ব্যবহার করার অর্থ হ'ল কার্যত তাপ উত্পন্ন হ'ল অপারেটিং ফ্রিকোয়েন্সিটির কিউব দিয়ে যায় down

এর চূড়ান্ত উদাহরণ হ'ল মানব মস্তিষ্ক, যা কেবলমাত্র 20 ডাব্লু শক্তি ব্যবহার করে প্রতি সেকেন্ডে 2 ^ 18 অপারেশন সমান করতে পারে। এটি কয়েকশত হার্জেডের সমান্তরালে চলমান কয়েক বিলিয়ন নিউরন ব্যবহার করে এটি অর্জন করে।

এছাড়াও মনে রাখবেন যে পিসিতে সাধারণত একবারে কয়েক হাজার বা হাজার হাজার থ্রেড চলছে running অপারেটিং সিস্টেম প্রতিটি থ্রেডে একটি মূল সময় বরাদ্দ পরিচালনা করে। সুতরাং এমনকি যদি কোনও পৃথক প্রোগ্রাম সমস্ত করের সুবিধা না নেয় তবে এটি এখনও উপকৃত হয় কারণ অন্য প্রোগ্রামগুলি যদি অন্য কোনও কোরে চালিত হয় তবে তার সিপিইউ সময় কম নিচ্ছে।

যদি কিছু হয় তবে উচ্চ পারফরম্যান্সের বাজার এফপিজিএ আকারে আরও সমান্তরাল প্রক্রিয়াকরণে চলেছে। ইন্টেল সম্প্রতি আলটিরা (দ্বিতীয় বৃহত্তম এফপিজিএ উত্পাদনকারী) কিনেছিল এবং এখন তাদের উপর একটি এফপিজিএ হার্ডওয়্যার এক্সিলারেটর সহ বোর্ড বিক্রি করছে। সফ্টওয়্যার একটি এপিআই কল ব্যবহার করে রান-টাইমে কোনও চিত্র সহ এফপিজিএ লোড করতে পারে। এরপরে সিপিইউ এফপিজিএতে ডেটা ফিড করে এবং বেশিরভাগ কাজ করতে দেয়। অ্যাপ্লিকেশনগুলির ধরণগুলি সাধারণত ভিডিও এনকোডিং, এআই, রেন্ডারিং, ডাটাবেস অনুসন্ধান ইত্যাদি are


এছাড়াও মনে রাখবেন যে পিসিতে সাধারণত একবারে কয়েক হাজার বা হাজার হাজার থ্রেড চলছে running না, চলছে না । আধুনিক ডেস্কটপগুলিতে অনেকগুলি থ্রেড বিদ্যমান রয়েছে তবে প্রায় সবগুলিই আই / ও বা টাইমারের জন্য নির্দিষ্ট সময়ে অপেক্ষা করে ঘুমিয়ে আছে। উদাহরণস্বরূপ, আমার লিনাক্স ডেস্কটপে লোড গড় (শেষ মুহূর্তে) বর্তমানে 0.19 টি কার্য সক্রিয়ভাবে যে কোনও মুহুর্তে সিপিইউ সময় ব্যবহারের জন্য প্রস্তুত। যদি আমি একটি ভিডিও এনকোড চালাচ্ছিলাম তবে এক্স 264 ওএসের জন্য একাধিক কোরের শিডিয়ুল করার জন্য একাধিক থ্রেড শুরু করতে পারত, তবে কেবলমাত্র আমার কাছে লজিকাল কোর রয়েছে।
পিটার কর্ডস

এবং বিটিডাব্লু, ওপি (কোনও কারণে) পুরোপুরি ফ্রিকোয়েন্সি বাদ দিয়েছে এবং প্রতি সেকেন্ডে নয়, আইপিসি স্কেলিং সম্পর্কে (ক্লকচক্র প্রতি নির্দেশাবলী) জিজ্ঞাসা করেছিল। আপনি যা বলছেন তা সত্য, তবে তারা সিপিইউগুলি আরও বিস্তৃত করার প্রস্তাব দিচ্ছিল , উচ্চতর আটকে নেই। আমি ইতিমধ্যে আমার উত্তরে এটি সম্বোধন করেছি, সুতরাং আপনার উত্তরটি ফ্রিকোয়েন্সি সহ পাওয়ার স্কেলিংকে ব্যাখ্যা করা একটি দুর্দান্ত সংযোজন, +1।
পিটার কর্ডস

@ পিটারকর্ডস এটি সঠিক, আমি বোঝাতে চাইছি না যে সমস্ত থ্রেড একবারে কার্যকর করা হবে, অবশ্যই করণীয় বদলে যাবে। স্পষ্ট করার জন্য ধন্যবাদ।
ব্যবহারকারী 4574

বেশিরভাগ সময় "চালা" নিতে মোটেও ভাল নয় যে তারা বেশিরভাগ সময় চালানোর জন্য প্রস্তুত নয়। তারা বেশিরভাগই ঘুমিয়ে থাকে, সাধারণত কেবল সংক্ষিপ্ত ফেটে জেগে থাকে যেমন ওএস একটি কীপ্রেস এমনকি একটি নেটওয়ার্ক পড়ার পরে বা তাদের জাগিয়ে তোলে কারণ টাইমারটির মেয়াদ শেষ হয়ে গেছে। 2 টিরও বেশি একবারে জাগ্রত হওয়ার জন্য এটি বিরল, যদি না আপনি প্রকৃতপক্ষে নিবিড়ভাবে নিবিড় কিছু করেন। এবং যদি আপনি হন তবে আপনি কয়েকশ থ্রেড শুরু করেন না, আপনি প্রচুর থ্রেড শুরু করেন available = উপলব্ধ কোরগুলির সংখ্যা।
পিটার কর্ডস

2

এই সমস্ত কোথায় চলছে তার চিত্রটি বের করে আনতে ...

নিউরাল নেটওয়ার্ক এবং এআই এই মুহুর্তের সুপার হট বিষয়। একটি কারণ হ'ল যে কোনও ব্যক্তি দক্ষতার সাথে সমান্তরালভাবে বিশাল সংখ্যক সরল কোর ব্যবহার করতে পারেন এবং তাই সর্বাধিক গণনা কর্মক্ষমতা কাছাকাছি বের করতে পারেন। প্রয়োজনীয়তা সহজাতভাবে বৃহত্তর সমান্তরাল এবং কোরগুলির মধ্যে খুব বেশি যোগাযোগের প্রয়োজন ছাড়াই মোটামুটি সহজেই প্রসেসরের অ্যারেতে মানচিত্র তৈরি হয়। এ কারণেই জিপিইউগুলি এআই ত্বরণের জন্য প্রথম গোটো প্রযুক্তি ছিল। এখনই আমরা বাজারে আসা এনএনদের জন্য ভিডিও জিপিইউগুলির চেয়ে আরও বেশি উন্নত চিপগুলি দেখতে পাচ্ছি। পরবর্তী বা সম্ভবত চূড়ান্ত, পদক্ষেপটি হ'ল স্মৃতিবিদদের মতো এনালগ প্রযুক্তি ব্যবহার করে এনএন তৈরি করা।

এবং একদিকে যেমন, গেমিং পিসির মতো কিছুতে গ্রাফিক্স কার্ডে মাল্টিকোর ইন্টেল বা এএমডি সিপিইউর তুলনায় অনেক বেশি কাঁচা পারফরম্যান্স রয়েছে


2
রে "... সহজাতভাবে ব্যাপকভাবে সমান্তরাল" : এমনকি বিব্রতকরভাবে সমান্তরাল ?
পিটার মর্টেনসেন

1

মূলত, সিএমওএস লোকসানগুলি দ্রুততার সাথে আনুপাতিকভাবে হয় (^.) ডলার) এবং সমান্তরাল সিপিইউ কার্যকারিতা সিপিইউর সংখ্যার তুলনায় লিনিয়ার আনুপাতিক তুলনায় কিছুটা কম।

সুতরাং নির্দিষ্ট ঘূর্ণন হারের জন্য সিপিইউর গতির তুলনায় গতির পরিমাণের তুলনা করার সময় বিভিন্ন ঘড়ির রেটে মাল্টি-সিপিইউ অ্যাপ্লিকেশনগুলির জন্য বিদ্যুৎ অপসারণের কম্পিউটিং পাওয়ার অনুপাতটি উন্নত হয়।

এটি এর চেয়ে জটিল, তবে এগুলি মৌলিক কারণগুলি সমান্তরাল সিপিইউ ডায়নামিক অ্যাপ্লিকেশনগুলিতে ওয়াট প্রতি ভাল ব্যাং হয়। কোনও দৃশ্যের জন্য অনুকূলিত হলে সর্বদা ব্যতিক্রম হবে।

এটি কোনও বৃহত সিপিইউয়ের আকার নয় যা এটি ইন্টেল / এএমডি টিপিকাল পিসি অ্যাপ্লিকেশনগুলির জন্য দ্রুত করে তোলে, বরং এটি লিথোগ্রাফিক রেজোলিউশন এবং লোয়ার গেট ক্যাপাসিট্যান্স থেকে হ্রাস করা আকার যা হ্রাসকৃত সাব-থ্রেশোল্ড স্তর এবং কোর ভোল্টেজের সাথে শক্তি হ্রাস করে।

উন্নতি রৈখিক নয় এবং এর অর্থ 8 কোরের চেয়ে 2x 4 is এর চেয়ে ভাল তবে লক্ষ্যটি যদি পূরণ হয় তবে লক্ষ্য হ'ল শক্তি বিলোপ, গতি এবং ভোল্টেজের থ্রোটলিংয়ের সাথে আরও বেশি প্রক্রিয়াকরণ গতিশীল পরিসর থাকে যা পারফরম্যান্স এবং দক্ষতা উভয় উন্নতি করতে এবং চাহিদা ছাড়াই পিক পাওয়ার ছাড়াই পারে অতিরিক্ত তাপমাত্রা বৃদ্ধি

আরও বৈজ্ঞানিক উত্তরের জন্য https : //www.s ज्ञानdirect.com/topics/computer-sज्ञान/ dynamic- power-consumtion পড়ুন


-2

মাল্টিকোরগুলি সাধারণত মাল্টিস্কালার হয় না। এবং মাল্টিস্কালার কোরগুলি মাল্টিকোর নয়।

এটি একাধিক মেগাহের্টজ চলমান মাল্টিস্কালার আর্কিটেকচার সন্ধানের জন্য একদম নিখুঁত হবে, তবে সাধারণভাবে এর সেতুগুলি ভোক্তা-সক্ষম নয়, তবে ব্যয়বহুল তাই প্রবণতাটি উচ্চ ঘড়ির গতিতে সংক্ষিপ্ত নির্দেশনার চেয়ে কম ফ্রিকোয়েন্সিতে মাল্টিকোর প্রোগ্রামিং।

একাধিক নির্দেশের করগুলি কমান্ডের তুলনায় সস্তা এবং সহজ, এবং এ কারণেই বেশ কয়েকটি গিগা হার্টজে মাল্টিস্কালার আর্কিটেকচার রাখা খারাপ ধারণা।


1
আপনি কি "সুপারশালার" বলতে চান, প্রতি ঘড়িতে একাধিক নির্দেশনা? সর্বাধিক মাল্টি-কোর সিপিইউ হয় superscalar। যেমন রাইজেন 5-প্রশস্ত। অ্যাপলের হাই-এন্ড এআরচ 64 চিপগুলি 6 বা 8-প্রশস্ত। বেশিরভাগ কোডে শোষণের জন্য 2-প্রশস্ত সিপিইউর জন্য প্রচুর নিম্ন-ঝুলন্ত ফল রয়েছে, সুতরাং প্রত্যেকটি নিজস্ব ব্যক্তিগত ক্যাশে প্রয়োজন এমন একাধিক কোরকে স্কেল করার আগে প্রতিটি কোরকে কমপক্ষে 2-প্রশস্ত করে তোলা ভাল, এবং কোরগুলির মধ্যে আন্তঃসংযোগ স্থাপন করা ( উদাহরণস্বরূপ, ইন্টেলের শিওন ফি বহু-কোর গণনা কার্ডগুলিতে অনেকগুলি দ্বৈত-ইস্যু কোর রয়েছে)। স্মার্টফোন কোরগুলির জন্য একই: ছোট কোর কমপক্ষে 2-প্রশস্ত। একক থ্রেডেড পারফরম্যান্সের বিষয়টি!
পিটার কর্ডস

1
বা আপনার অর্থ কী dl.acm.org/citation.cfm?id=224451 - একটি উচ্চ-স্তরের প্রোগ্রামের নিয়ন্ত্রণ-প্রবাহ গ্রাফের বৃহত্তর রেঞ্জের জন্য ILP সন্ধান করে তারা "মাল্টিস্কালার" কোর বলে তার উপর একটি গবেষণা পত্র using এইচডাব্লু এবং এসডাব্লু এর সংমিশ্রণ। ডেস্কটপ এবং স্মার্টফোনগুলিতে আমরা যে মূলধারার সিপিইউ ব্যবহার করি সেগুলি এর মতো নয় , তারা কেবলমাত্র আদেশের বাইরে চলে আসা সাধারণ সুপারসক্যালার, একটি সিরিয়াল আইএসএ প্রয়োগ করে যা একবারে নির্দেশনা চালানোর ভান করে।
পিটার কর্ডেস

ধন্যবাদ। এছাড়াও, স্কেলার খিলানের পিছনে ধারণাটি হ'ল নির্দেশাবলীর (পূর্বনির্ধারিত সেট) পূর্বনির্ধারিত সেটগুলির পিছনে তাপের পরিমাপযোগ্যতা (অ্যাভিএক্সের ক্ষেত্রে)। <br/> বর্তমান আর্কিটেকচার গণনা বনাম তাপ গণনাযোগ্য অনুমানযোগ্য নয়। এটি অসম্পূর্ণতা বহুগুণ বৃহত্তর ফ্রিকোয়েন্সিগুলিতে চালিত হতে পারে বাড়ায় যেহেতু সময় / উত্তাপের আদর্শে পারফর্ম করার দক্ষতা গণনাযোগ্য নয়। আমি এতক্ষণ জানি। "মাল্টিস্কালার" এর পদার্থবিজ্ঞান বোঝার উদ্দেশ্যে আমি ভেক্টর মেশিনগুলি খনন করছি। কেসন / পিএইচআই প্রাচীন সিপাসের মতো আদর্শ তাপীয় বক্ররেখা অনুসরণ করে। গ্রাহকের অভিজ্ঞতা বাড়িয়ে
তোলা

AVX মত SIMD নির্দেশ-সেট একটি উপায় পাইপলাইন মাধ্যমে আরো কাজ পেতে ছাড়া পুরো পাইপলাইন ব্যাপকতর শুধু মৃত্যুদন্ড ইউনিট করতে হচ্ছে। উদাহরণস্বরূপ, স্কাইলেক vpaddd ymm0, ymm1, ymm2প্রতি ঘড়ি 3 টি নির্দেশিকা চালাতে পারে , প্রত্যেকে 8 টি প্যাক 32-বিট পূর্ণসংখ্যার সংযোজন করছে। সুতরাং 24 ঘন্টা পূর্ণ প্রতি ঘড়ি যুক্ত করে তবে আউট-অফ-অর্ডার এক্সিকিউশন যন্ত্রপাতি "কেবল" ফ্লাইটে 3 নির্দেশাবলীর উপর নজর রাখতে হয়। এটি এমন একটি সিপিইউর তুলনায় অনেক কম সস্তা যা 24 ঘন্টা add eax, edxনির্দেশনা চালাতে পারে । সিমডি মূলত পাইপলাইন প্রস্থের অর্থেগোনাল।
পিটার কর্ডেস

স্কাইলেক প্রতি ক্লকচক্রটি অপ্টিমাইজেশনের একটি ভাল কেস। ভেরিয়েন্টগুলি প্রচুর পরিমাণে আমি তাদের মধ্যে নেই যা আঞ্চলিক বাস অপ্টিমাইজেশনের আকর্ষণীয় ঘটনা, যেহেতু স্কাইলেকস সেভাবে সিমডি পাইপলাইনে জিয়ন আসল অফলোডিংকে একীভূত করে। আমি ধরে নিয়েছি যে একটি বড় কোর কিছু চক্রের মধ্যে অফলোডিং এবং গণনা একীভূত করবে (উদাহরণস্বরূপ) ফিনোম এভিএক্সের জন্য করে। অভ্যন্তরীণ ব্লক ক্রিয়াকলাপের জন্য প্রয়োজনীয় শক্তির তুলনায় গণনাটি সামনের দিকে এগিয়ে যায়। একাধিক সংক্ষিপ্ত নির্দেশনার জন্য অপোসাইট যেমন জিপু-তে একাধিক "ভার্চুয়াল" কোরের সাথে
নেহালেমের সংযোজনগুলির
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.