কীভাবে খুব বেশি ডেটা ব্যবহার করবেন?


14

আমাদের প্লাজমা ডায়নামিক্স সিমুলেশনগুলি প্রায়শই অত্যধিক তথ্য উত্পাদন করে। সিমুলেশনের সময় আমরা একটি গ্রিডে বিভিন্ন শারীরিক বৈশিষ্ট্য (x, y, z, t) রেকর্ড করি যা কমপক্ষে 10 টি বৈশিষ্ট্যের জন্য (8192x1024x1024x1500) হিসাবে বড়। সিমুলেশন সম্পন্ন হওয়ার পরে এই তথ্যটি প্রক্রিয়া করা হয়। এটি দিয়ে আমরা

  1. বৈশিষ্ট্যের সিনেমাগুলি তৈরি করুন,
  2. একটি ফুরিয়ার বিশ্লেষণ করুন,
  3. গড় বৈশিষ্ট্য গণনা করুন।

যখন আমরা ছোট সিস্টেমগুলি অধ্যয়ন করি তখন যথাসম্ভব তথ্যের এই সাধারণ ডাম্পিংটি দুর্দান্ত কাজ করে। এটি আমাদের ফলাফলের সাথে ইন্টারঅ্যাক্ট করার এবং আমরা এটি দিয়ে কী করতে চাইছিলাম তা পরে সিদ্ধান্ত নেওয়ার নমনীয়তা এনেছি। এটি আমাদের গণ্য সংস্থানগুলি (সিপিইউ সময়) কেবল সিমুলেশনগুলি চালানোর জন্য বরাদ্দ করার অনুমতি দেয়।

আমরা উড়তে ফুরিয়ার বিশ্লেষণ করার প্রক্রিয়া শুরু করেছি, এবং কেবলমাত্র দৈর্ঘ্যের স্কেলের কয়েকটি নির্বাচিত পরিসরের জন্য ফিল্টারিং। সংখ্যাসূচক কারণে আমাদের মাঝে মাঝে দৈর্ঘ্যের স্কেলগুলিকে সমাধান করতে হবে যা আমরা আসলে আগ্রহী তার চেয়ে ছোট, সুতরাং এই ক্ষেত্রে, এই ফিল্টারটি প্রচুর পরিমাণে সহায়তা করে। আমরা বিভিন্ন সমান্তরাল আইও গ্রন্থাগারগুলিও খতিয়ে দেখছি , যেমন সমান্তরাল আই / ও বিকল্পগুলি, বিশেষত সমান্তরাল এইচডিএফ 5

ডেটা প্রসেসিংয়ের দক্ষতা সর্বাধিক করে তোলার জন্য কী কৌশলগুলি উপলব্ধ?

ফ্লাইতে সমস্ত বিশ্লেষণ (পোস্ট প্রসেসিং সহ, যেমন চলচ্চিত্র এবং প্লটগুলি সহ) করার কোনও সুবিধা আছে কি?

আমি গবেষণার অন্যান্য ক্ষেত্রে এই সমস্যাটি আসতে পারে তা কল্পনা করতে পারি। উদাহরণস্বরূপ, আপনার একটি মলিকুলার ডায়নামিক্স সিমুলেশন থাকতে পারে যা দীর্ঘ সময়ের জন্য বিকশিত হওয়া দরকার তবে আকর্ষণীয় কিছু ঘটতে থাকলে আপনি সংক্ষিপ্ত মুহুর্তে আগ্রহী হন। বা সিএফডি-তে, প্রাথমিক সময়ের বিকাশ ধীর হতে পারে তবে একবার অশান্তি সেট হয়ে গেলে আপনার গতিবেগ নিরীক্ষণের জন্য একটি উচ্চতর সময়ের সমাধানের প্রয়োজন হতে পারে।

সিমুলেশনগুলি থেকে পরিশীলিত ফলাফল সংগ্রহের জন্য নিখরচায়ভাবে পাওয়া যায়?


এটি একটি বিস্তৃত প্রশ্নের মতো মনে হতে পারে। আপনি যদি এইভাবে অনুভব করেন তবে দয়া করে আমি কীভাবে আরও সুনির্দিষ্ট হতে পারি সে সম্পর্কে পরামর্শ দিন।
ইয়ান

1
কিছু পরীক্ষামূলক গোষ্ঠী কীভাবে এই সমস্যাটি মোকাবেলা করে তা দেখুন। উচ্চ শক্তি পদার্থবিজ্ঞান (আল একটি সিইআরএন) এবং অ্যাস্ট্রো ফিজিক্সে এমন আরও বড় আকারের ডেটা আসতে পারে যা সংরক্ষণ করতে হবে (বা সংরক্ষণের আগে ফিল্টার করাও হবে কারণ ডেটা যে কোনও স্টোরেজে লেখার চেয়ে দ্রুত আসে) বিতরণ, এবং বিশ্লেষণ করা যায়।
ব্রায়ান ডিগস

উত্তর:


10

আমি মনে করি আপনার লক্ষ্যগুলি মেলে আপনার আউটপুট বিভক্ত করতে হতে পারে:

  1. বৈশিষ্ট্যগুলির চলচ্চিত্রগুলির জন্য আপনার সম্পূর্ণ স্থানিক রেজোলিউশন এবং সমস্ত ভেরিয়েবলের প্রয়োজন নেই। আপনি যে মুভিটি প্রদর্শন করতে চান তার চূড়ান্ত রেজোলিউশন সম্পর্কে সাবধানতার সাথে চয়ন করুন এবং এটিতে 8 বিলিয়ন পিক্সেল থাকবে না।
  2. ফুরিয়ার বিশ্লেষণের জন্য (বা পিওডের মতো জিনিসগুলি) যদি এগুলি অস্থায়ী হয় তবে আপনি সম্ভবত আপনার ডোমেনে বুদ্ধি করে বেছে নেওয়া কয়েকশ পয়েন্ট নমুনা করতে পারেন। এগুলি যদি স্থানিক হয় তবে আপনার সম্ভবত কয়েকটি স্ন্যাপশট প্রয়োজন এবং 1500 নয় And এবং আবার, সমস্ত বৈশিষ্ট্যের নয়।
  3. সময়ের গড় গড় জন্য, আপনি কেবল একই ক্ষেত্রের সাথে যুক্ত করা চালিয়ে যেতে পারেন এবং ঠিক সময় মাত্রা সম্পর্কে চিন্তা করার দরকার নেই? স্থানিক গড় ব্যথা যদিও বেদনাদায়ক, বিশেষত যদি আপনি সময়ের সাথে এর বিবর্তনটি দেখতে চান। তবে ডেটা ফেলে দেওয়ার আগে আরও অনলাইন প্রসেসিং এর আকার হ্রাস করতে পারে ...

এর অর্থ একটি বড় জেনেরিকের পরিবর্তে উত্সর্গীকৃত আউটপুটগুলি হ্রাস করা বেশ খানিকটা কাজের তবে এর ব্যয় এবং আকারটি কম রাখতে সহায়তা করা উচিত। আশাকরি এটা সাহায্য করবে !

আমি আরও একটি বিষয় যুক্ত করতে চাই, সাধারণভাবে, তথ্যগুলির সম্পূর্ণ রেজোলিউশন কেবল ফাইলগুলি পুনরায় চালু করার জন্য প্রয়োজন, অর্থাত্ আপনার সিমুলেশন পুনরায় চালু করার জন্য ফাইলগুলি। প্রদত্ত সিমুলেশনের জন্য আপনার এগুলির অনেকগুলি দরকার নেই (আসুন ১০০ বলুন, যাতে যদি আপনার পুনর্নির্মাণের মধ্যে কিছু ঘটে তবে আপনি আপনার গণনার সর্বাধিক 1% হারাবেন), আপনি সম্ভবত আপনার আউটপুটের ফ্রিকোয়েন্সিটি ক্র্যাঙ্ক করতে চান সিনেমা। এবং আপনি উদাহরণস্বরূপ রেজোলিউশনের মাত্র 1/64 তম এ এটি করতে পারেন (প্রতিটি দিকে প্রতিটি 4 পয়েন্টে 1)।


স্থানিক গড় কেন বেদনাদায়ক? শুধু এটিকে অন-ফ্লাই করুন এবং ফলাফলটি লিখুন, যা খুব ছোট হওয়া উচিত।
ডেভিড কেচসন

@ ডেভিড কেটচসন স্থানিক গড় ব্যথা বেদনাদায়ক কারণ এটিতে প্রচুর যোগাযোগের প্রয়োজন হয় এবং আপনার ডোমেনের টপোলজির দ্বারা সম্ভবত এটি প্রভাবিত হয়? অবশ্যই আপনার যদি আপনার রেফারেন্স ফ্রেমের সাথে খাঁটি অরথোগোনাল গ্রিড সংযুক্ত থাকে তবে এটি খুব খারাপ নয়, তবে আপনাকে এখনও গণনা এবং এমপিআইপিডিউসির কিছু স্মার্ট সংমিশ্রণ করতে হবে কারণ সেই আকারের গ্রিডের সাথে, আপনি কেবল 1 এ ALL_REDUCE করতে পারবেন না প্রসেসর আমি
ভাবব

1
ঠিক আছে, এখন আমি আপনার মন্তব্য বুঝতে পারি। তবে যোগাযোগটি সাধারণত খুব খারাপ হয় না, যেহেতু আপনি স্থানীয়ভাবে প্রতিটি প্রক্রিয়াটির ওপরে গড় করতে পারেন এবং তারপরে প্রতিটি প্রক্রিয়াতে কেবল একটি ফ্লোট হ্রাস করতে পারেন। আমার অভিজ্ঞতায় (65 কে কোর ব্লুজেইন / পি তে), এর ব্যয়টি তুচ্ছ, বিশেষত I / O ব্যয়ের তুলনায়। প্রকৃতপক্ষে, আমরা প্রতি সময়ে পদক্ষেপে পুরো 65K কোরের উপরে একটি ALL_REDUCE করি এবং এটি খুব দ্রুত।
ডেভিড কেচসন

@ ডেভিডকিচসন আসলে আমি এখন মনে করি আমি আপনার বিষয়টিকেও ভুল বুঝেছি এবং আমি ডেটা হ্রাসের ব্যয়কেও ছাড়িয়ে যাচ্ছিলাম। আমার মনে যা ছিল তা হ'ল স্প্যানওয়াইজ / আজিমুথাল গড়ের মতো যেখানে আপনাকে সম্পূর্ণ 2D ডেটা সংরক্ষণ করতে / আউটপুট দিতে হবে যা গণনা গ্রিডের মতো একই গ্রিডে থাকতে পারে বা নাও হতে পারে। তবে আপনি ঠিক বলেছেন, এমপিআই_এলএল_এল.ডি.সিইউ এর আসল ব্যয় নিজেই কোনও সমস্যা নয়।
ফ্রেঞ্চখেল্ডার

8

আমি মনে করি এই শিল্পের বর্তমান মাস্টারগুলি হ'ল বড় কণা পদার্থবিজ্ঞানের পরীক্ষাগুলি (আমি সিডিএফ এবং ডি 0 এর সাথে সবচেয়ে বেশি পরিচিত কারণ আমি বৃদ্ধ এবং শিকাগো বিশ্ববিদ্যালয়ে কাজ করি)। তাদের হার্ডওয়্যার ট্রিগার রয়েছে যা এক বছরে পেটাবাইট (বা আরও) ফেলে দেয়। যাইহোক, এটি চূড়ান্তকরণ / বিবেচনার সম্পূর্ণ বিষয়, বা "আপনার যা প্রয়োজন তা কেবল তাড়িয়ে দেওয়া"। আমি নিশ্চিত না যে আপনি সাধারণভাবে একটি বোধগম্য উত্তর দিতে পারেন। সমস্যাটি সঙ্কীর্ণ করার মতো এমন কিছুতে ভাল হবে, "আমি পিডিই সিমুলেশনটি নিম্নলিখিত উপায়ে আলাদা করে রেখেছি এবং দক্ষতার সাথে ডাউনসাম্পল করতে চাই"।


3

পিটার লেপেজ জালিয়াতি-কিউসিডি চেনাশোনাগুলিতে এমন একটি পদ্ধতির পরামর্শ দেওয়ার জন্য বেশ বিখ্যাত যেটি হিসাবে অল্পবয়স্ক ল্যাটিক্স গ্রিডগুলি হ্রাস করতে পারে এবং ভাল ছোট ছোট রেঞ্জ বিশ্লেষণমূলক সমাধানগুলি প্রয়োগ করে প্রয়োগ করা যেতে পারে।

এটি মোটামুটি লক্ষ্য করার সমতুল্য যে ভালভাবে নির্বাচিত স্প্লাইজের একটি সেট ট্র্যাপিজয়েড পদ্ধতির চেয়ে কম গিঁটের সাথে সঠিক সংহতকরণের অনুমতি দিতে পারে (এটি ছাড়া আপনার ক্ষেত্রে যেমন আপনি একবারে চারটি মাত্রার উপরে এটি গ্রহণ করতে পারেন)।

ফলাফলটি হ'ল আপনি নোড - ধাপে আরও সংখ্যার জন্য ডেটা-সেটের কাঁচা আকারের বাণিজ্য করেন তবে আপনার সমস্যার উচ্চ মাত্রার কারণে শেষ পর্যন্ত এগিয়ে আসুন ।

আমি এমন কোনও বিষয় নই যা সম্পর্কে কোনও ভাল ইঙ্গিত দেওয়ার জন্য আমি যথেষ্ট ভাল জানি তবে এটি অতীতে কয়েকটি ক্ষেত্রে কাজ করেছে।


3

প্রশ্নটি কিছুটা বিস্তৃত, সুতরাং আমি একটি অনুরূপ অস্পষ্ট উত্তর সরবরাহ করব যা এই ধরনের ক্ষেত্রে সম্ভাব্য কৌশলগুলির পরামর্শ দেয়।

1) অন ফ্লাই প্রসেসিং, যা আপনি ইতিমধ্যে কাজ করছেন। অন-ফ্লাই প্রসেসিং করার একটি উপায় এবং তথ্যের উত্পন্ন পদক্ষেপ থেকে এখনও এটি ডিকুয়াল করা একটি চক্রীয় আউটপুট ফাইল তৈরি করা যা সর্বদা শেষ এন পদক্ষেপগুলি ধারণ করে এবং বিশ্লেষণটি একটি পৃথক প্রক্রিয়াতে চালিত করে। স্পষ্টতই একটি জাতি শর্ত রোধ করতে আপনার অবশ্যই দুটি সমন্বয় করতে হবে।

2) সঞ্চিত ডেটা আরও সাবধানে নির্বাচন করা। দুর্ভাগ্যক্রমে এটি অত্যন্ত পরিস্থিতি-নির্দিষ্ট।

3) আপনার ডেটা সংরক্ষণের আগে সংকুচিত করুন বা এইচডিএফ 5 এর মতো সংহত সংকোচনের বিকল্পগুলির সাথে স্টোরেজ লাইব্রেরি ব্যবহার করুন।

4) সম্পূর্ণ আউটপুট পরিবর্তে নিয়মিত চেকপয়েন্টগুলি সঞ্চয় করুন। আপনি যদি প্রতিটি এন পদক্ষেপে একটি সম্পূর্ণ চেকপয়েন্ট সংরক্ষণ করেন, সেখান থেকে সিমুলেশনটি পুনরায় আরম্ভ করার জন্য পর্যাপ্ত ডেটা, আপনি যদি প্রয়োজন হয় এবং খুব প্রয়োজন হয় তবে খুব বেশি সমান্তরাল ফ্যাশনে অনুপস্থিত তথ্যগুলি পুনর্গঠন করতে পারেন। নোট করুন যে মন্টে-কার্লো পদ্ধতির ক্ষেত্রে, চেকপয়েন্টে অবশ্যই এলোমেলো সংখ্যা জেনারেটরের রাজ্য অন্তর্ভুক্ত থাকতে হবে। আপনি প্রকৃতপক্ষে এটিকে একটি উচ্চ অ্যাপ্লিকেশন-নির্দিষ্ট সংক্ষেপণ কৌশল বিবেচনা করতে পারেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.