আমি যে পদ্ধতিতে ডেটা ব্যবহার করি তার উপর নির্ভর করে আমি একটি আলাদা শব্দ ব্যবহার করি। যদি আমি চারপাশে থাকা মেড-আপ ডেটাসেটটি খুঁজে পেয়েছি এবং এটিতে আমার অ্যালগরিদমকে নিশ্চিতকরণে নির্দেশ করেছি, তবে "সিনথেটিক" শব্দটি ঠিক আছে।
যাইহোক, প্রায়শই আমি যখনই এই ধরণের ডেটা ব্যবহার করি তখন আমি আমার অ্যালগোরিদমের সক্ষমতা প্রদর্শন করার নির্দিষ্ট অভিপ্রায় সহ ডেটা উদ্ভাবন করেছি। অন্য কথায়, আমি "ভাল ফলাফল" পাওয়ার নির্দিষ্ট উদ্দেশ্যে ডেটা উদ্ভাবন করেছি। এই পরিস্থিতিতে ডেটা সম্পর্কে আমার প্রত্যাশার ব্যাখ্যা সহ আমি "কনট্রিভড" শব্দটি পছন্দ করি। এটি কারণ আমি চাই না যে কেউ ভাবতে ভুল করতে পারে যে আমি আমার অ্যালগরিদমকে কিছু স্বেচ্ছাসেবী সিন্থেটিক ডেটাসেটের দিকে লক্ষ্য করেছি যা আমি প্রায় শুয়ে পড়েছি এবং এটি সত্যই কার্যকর হয়েছে। আমার অ্যালগরিদমকে ভালভাবে কাজ করার জন্য যদি আমার কাছে চেরি-বাছাই করা ডেটা থাকে (আসলে এটি তৈরির বিন্দুতে), আমি তাই বলি। এটি কারণ যেমন ফলাফলগুলি প্রমাণ দেয় যে আমার অ্যালগরিদম পারেভাল কাজ, কিন্তু শুধুমাত্র খুব দুর্বল প্রমাণ যে এক অ্যালগরিদম ভাল কাজ করতে আশা করতে পারে প্রদান সাধারণভাবে । "কনট্রিভড" শব্দটি সত্যিই খুব সুন্দরভাবে যুক্ত হয়েছে যে আমি "ভাল ফলাফল" মনে রেখে ডেটা বেছে নিয়েছি, একটি অগ্রাধিকার।
"এটি কি প্রতারণামূলক ডেটার ছাপ দেয় ?"
না, তবে, কোনও ডেটাসেটের উপর আপনার ফলাফলের প্রতিবেদন করার সময় কোনও ডেটাসেটের উত্স এবং পরীক্ষক হিসাবে আপনার অগ্রাধিকার প্রত্যাশা সম্পর্কে পরিষ্কার হওয়া গুরুত্বপূর্ণ important শব্দটি "জালিয়াতি" স্পষ্টভাবে কিছু ঢেকে রেখে বা সরাসরি মিথ্যা থাকার একটা দিক রয়েছে। বিজ্ঞানের জালিয়াতি কমিশন এড়ানোর # 1 উপায় হ'ল আপনার ডেটার প্রকৃতি এবং আপনার প্রত্যাশাগুলি সম্পর্কে সৎ ও খাঁটি হওয়া। অন্য কথায়, যদি আপনার ডেটা বানোয়াট হয় এবং আপনি কোনওভাবেই বেশি কিছু বলতে ব্যর্থ হন এবং এমন এক ধরণের প্রত্যাশা থাকে যে ডেটা বানোয়াট নয় বা আরও খারাপ, আপনি দাবি করেন যে ডেটাটি কিছু অ-মনগড়া সাজানোতে সংগৃহীত হয়েছে উপায়, তারপর যে হয়"জালিয়াতি"। জিনিসটি করবেন না। যদি আপনি "বানোয়াট" শব্দটির জন্য কিছু শব্দ প্রতিশব্দ ব্যবহার করতে চান যা "সিন্থেটিক" এর মতো "আরও ভাল মনে হয়", তবে কেউ আপনাকে দোষ দিবে না, তবে একই সাথে আমিও ভাবি না যে আপনাকে বাদ দিয়ে অন্য কেউ পার্থক্যটি লক্ষ্য করবে।
একটি পার্শ্ব নোট:
খুব কম স্পষ্ট পরিস্থিতিতে এমন যে পরিস্থিতিতে যখন দাবি করা হয় যে একটি প্রাক্কলিত প্রত্যাশা ছিল যা প্রকৃতপক্ষে এই ব্যাখ্যাগুলি পোস্ট করে । এটিও ডেটা বিশ্লেষণযোগ্য।
যখন কোনও অ্যালগোরিদমের সক্ষমতা "প্রদর্শন" করার অভিপ্রায় সাথে বিশেষ করে ডেটা বেছে নেওয়া হয়, তখন সিন্থেটিক ডেটার ক্ষেত্রে প্রায়শই ঘটে থাকে this
DHHDD এই সংকীর্ণ সংজ্ঞার মধ্যে কাজ , তবে এটাকেই "কনফার্মিটিরি" বিশ্লেষণ বলা হয় এবং এটি সাধারণত যে প্রমাণ সরবরাহ করতে পারে তার শক্ততম রূপ হিসাবে বিবেচিত হয়। যেহেতু ইভেন্টের ক্রম প্রমাণের শক্তির সাথে সংযুক্ত থাকে তাই এগুলি নির্দিষ্ট করে নথিভুক্ত করা গুরুত্বপূর্ণ is
HDHD , একটি "প্রমাণক্ষম" পদ্ধতিতে transpired কারণ যে পাঠকদের নেতৃত্ব ঘটনা উপসংহারে অর্থও যে করা জরুরী যে আপনার প্রমাণ শক্তিশালী তুলনায় এটি আসলে হয়।
এই কাজ সঙ্গে কোনো সমস্যা আছে, তাই যতদিন আপনি হয় সৎ এবং স্পষ্টাস্পষ্টি তুমি কি করেছো সম্পর্কে। আপনি যদি এমন কোনও ডেটাসেট তৈরি করতে ব্যথার মধ্যে পড়ে থাকেন যা "ভাল ফলাফল" দেয়, তাই বলুন। আপনার ডেটা বিশ্লেষণে আপনি যে পদক্ষেপ নিয়েছেন তা পাঠককে যতক্ষণ আপনি জানতে দিন, তাদের কাছে আপনার অনুমানের পক্ষে বা বিপক্ষে প্রমাণ কার্যকরভাবে বিবেচনা করার জন্য প্রয়োজনীয় তথ্য রয়েছে। আপনি যখন নয় সৎ বা নেই স্পষ্টাস্পষ্টি , তারপর এই ছাপ যে আপনার প্রমাণ শক্তিশালী তুলনায় এটি সত্যিই হয় দিতে পারে। আপনি যখন জ্ঞাতসারে কম সৎ এবং স্পষ্টাস্পষ্টি আপনার প্রমাণ তৈরীর অনুরোধে জন্য শক্তিশালী তুলনায় এটি সত্যিই মনে হয়, তাহলে যে, প্রকৃতপক্ষে, প্রতারণাপূর্ণ।
যাই হোক না কেন, এই কারণেই আমি এই জাতীয় ডেটাসেটগুলির জন্য "কনট্রিভড" শব্দটি পছন্দ করি এবং একটি সংক্ষিপ্ত ব্যাখ্যা সহ যে সেগুলি প্রকৃতপক্ষে, একটি অনুমানকে মাথায় রেখেই বেছে নেওয়া হয়েছে। "অবদানপ্রাপ্ত" এই ধারণাটি প্রকাশ করে যে আমি কেবল একটি সিন্থেটিক ডেটাसेट তৈরি করি নি, তবে আমি এটি নির্দিষ্ট অভিপ্রায় নিয়ে করেছি যা এই সত্যটি প্রতিফলিত করে যে আমার ডেটাসেট তৈরির আগে আমার অনুমান ইতিমধ্যে ছিল already
একটি উদাহরণ দিয়ে উদাহরণস্বরূপ: আপনি নির্বিচারে সময়-সিরিজের বিশ্লেষণের জন্য একটি অ্যালগরিদম তৈরি করেন। আপনি অনুমান করেছেন যে সময়-সিরিজের দিকে ইঙ্গিত করা হলে এই অ্যালগরিদম "ভাল ফলাফল" দেবে। এখন, নিম্নলিখিত দুটি সম্ভাবনা বিবেচনা করুন: 1) আপনি এমন কিছু সিন্থেটিক ডেটা তৈরি করেন যা আপনার অ্যালগরিদমকে ভালভাবে সম্পাদন করার প্রত্যাশা করে thing আপনি এই ডেটা বিশ্লেষণ করুন এবং অ্যালগরিদম ভাল সম্পাদন করে। 2) আপনি কিছু সিন্থেটিক ডেটাসেট দখল করেছেন কারণ সেগুলি কেন পাওয়া যায় না। আপনি এই ডেটা বিশ্লেষণ করুন এবং অ্যালগরিদম ভাল সম্পাদন করে। আপনার অ্যালগরিদম নির্বিচারে সময়-সিরিজে ভাল সম্পাদন করে যে এই দুটি পরিস্থিতির মধ্যে আরও ভাল প্রমাণ সরবরাহ করে? স্পষ্টতই, এটি বিকল্প 2। তবে, বিকল্প 1 বা বিকল্প 2 তে রিপোর্ট করা সহজ হতে পারে যে "আমরা অ্যালগোরিদম প্রয়োগ করেছিADx.y
TL; ড
আপনার পছন্দ মতো যে শব্দটি ব্যবহার করুন, "সিন্থেটিক", "কনট্রিভড", "মনগড়া", "কল্পিত"। তবে, আপনি যে শব্দটি ব্যবহার করছেন তা আপনার ফলাফল বিভ্রান্তিকর না হয় তা নিশ্চিত করতে অপর্যাপ্ত । নিশ্চিত হয়ে নিন যে ডেটা সম্পর্কে আপনার প্রত্যাশা এবং আপনি যে ডেটাটি বেছে নিয়েছেন তা কেন আপনার পছন্দগুলি সহ ডেটা কীভাবে এসেছিল সে সম্পর্কে আপনি আপনার প্রতিবেদনে পরিষ্কার are