ডেটা র‌্যাংলিংয়ে ডেটা বিজ্ঞানীর কাজ কত?


44

আমি বর্তমানে একটি খুচরা সংস্থায় ডেটা বিজ্ঞানী হিসাবে কাজ করছি (ডিএস হিসাবে আমার প্রথম কাজ, সুতরাং এই প্রশ্নটি আমার অভিজ্ঞতার অভাবে হতে পারে)। তাদের কাছে সত্যিকারের গুরুত্বপূর্ণ ডেটা বিজ্ঞান প্রকল্পগুলির একটি বিশাল ব্যাকলগ রয়েছে যা প্রয়োগ করা হলে দুর্দান্ত ইতিবাচক প্রভাব ফেলবে। কিন্তু।

ডেটা পাইপলাইনগুলি সংস্থার মধ্যে অস্তিত্বহীন, স্ট্যান্ডার্ড পদ্ধতিটি হ'ল যখনই আমাকে কিছু তথ্যের প্রয়োজন হয় তখন TXT ফাইলগুলি আমাকে গিগাবাইট ফাইলগুলি হস্তান্তর করে । এই ফাইলগুলি আরকেন স্বরলিপি এবং কাঠামোতে সঞ্চিত লেনদেনের ট্যাবুলার লগ হিসাবে ভাবেন। কোনও একক ডেটা উত্সে কোনও সম্পূর্ণ গোটা তথ্য থাকে না এবং তারা "সুরক্ষা কারণে" আমাকে তাদের ইআরপি ডাটাবেসে অ্যাক্সেস দিতে পারে না।

সহজ প্রকল্পের জন্য প্রাথমিক ডেটা বিশ্লেষণের জন্য নৃশংস, উদ্দীপক ডেটা র্যাংলিংয়ের প্রয়োজন। কোনও প্রকল্পের ৮০% এরও বেশি সময় ব্যয় করা আমি টেকসই ডেটাসেট তৈরির জন্য এই ফাইলগুলি এবং ক্রস ডেটা উত্সগুলি পার্স করার চেষ্টা করছি । এটি কেবল হারিয়ে যাওয়া ডেটা হ্যান্ডেল করা বা এটি প্রাকপ্রসেসিংয়ের সমস্যা নয়, এটি ডেটা তৈরির জন্য যে কাজটি গ্রহণ করা যায় যা প্রথম স্থানে পরিচালনা করা যায় ( ডিবিএ বা ডেটা ইঞ্জিনিয়ারিংয়ের মাধ্যমে সমাধানযোগ্য, ডেটা বিজ্ঞান নয় )?


1) মনে হয় বেশিরভাগ কাজ ডেটা সায়েন্সের সাথে মোটেই সম্পর্কিত নয়। এটা কি সঠিক?

2) আমি জানি এটি কোনও উচ্চ-স্তরের ডেটা ইঞ্জিনিয়ারিং বিভাগের সাথে ডেটাচালিত সংস্থা নয় , তবে এটি আমার মতে তথ্য বিজ্ঞান প্রকল্পগুলির টেকসই ভবিষ্যতের জন্য গড়ে তুলতে, ন্যূনতম স্তরের ডেটা অ্যাক্সেসযোগ্যতার প্রয়োজন । আমি কি ভূল?

3) গুরুতর ডেটা বিজ্ঞানের প্রয়োজনযুক্ত সংস্থার জন্য কি এই ধরণের সেটআপ সাধারণ?


আপনি কোন বিন্যাসে তথ্য চান তা নির্দিষ্ট করেছেন? এবং তাদের ইআরপি দিয়ে কীভাবে তারা এটি করতে পারে সে সম্পর্কে তাদের নির্দেশনা দিন?
জান্নর

@ জোনোর অবশ্যই আমি এখন প্রায় দুই বছর ধরে এখানে কাজ করছি এবং 1 দিন থেকে আমি ব্যাখ্যা করেছি যে কীভাবে আমরা ডেটা অ্যাক্সেসযোগ্যতার জন্য আরও ভাল প্ল্যাটফর্ম তৈরি করতে পারি। যদিও ৩০ বছর ধরে সংস্থাটি করছে তা পরিবর্তন করার শক্ত প্রতিরোধ রয়েছে।
ভিক্টর ভ্যালেন্টে

13
আপনার ঘন্টা ট্র্যাক করা শুরু করুন এবং আপনার টিএক্সটিকে ব্যবহারের যোগ্য বিন্যাসে রূপান্তর করতে আপনার সময়টি কতটা নষ্ট করছে তার জন্য এটিকে একটি খরচে রূপান্তর করুন। আমি একবার বাজি দেব তাদের একবারের সাথে একটি ফিগার থাকলে তারা তা সম্পন্ন করতে পারে।
নেলসন

এটি যদি আপনার সময়ের বোঝা হয় তবে আপনি এটি আউটসোর্স করতে পারেন।
সারকোমা

আমি এটি বিভ্রান্তিকর বলে মনে করি যে কোনও সংস্থা একটি ডেটা সায়েন্টিস্ট নিয়োগ করবে এবং এখনও এটি পরিবর্তন করতে প্রতিরোধী হবে। আপনার এটিকে ব্যয় করা সময়ের পরিমাণ এবং বিপদ ওএসকে সত্যিকার সুরক্ষা ছাড়াই দীর্ঘ TXT ফাইলগুলিতে তথ্য রাখার তা দেখাতে হবে
পেড্রো হেনরিক মোনফোর্ট

উত্তর:


27
  1. বেশিরভাগ কাজের মতো তথ্য বিজ্ঞানের সাথে মোটেই সম্পর্কিত নয় বলে মনে হয়। এটা কি সঠিক?

    হ্যাঁ

  2. আমি জানি এটি কোনও উচ্চ-স্তরের ডেটা ইঞ্জিনিয়ারিং বিভাগের সাথে ডেটাচালিত সংস্থা নয়, তবে আমার মতে ডেটা সায়েন্সের সর্বনিম্ন স্তরের ডেটা অ্যাক্সেসযোগ্যতার প্রয়োজন requires আমি কি ভূল?

    আপনি ভুল নন, তবে বাস্তব জীবনের বাস্তবতা।

  3. গুরুতর ডেটা বিজ্ঞানের প্রয়োজনযুক্ত সংস্থার জন্য কি এই ধরণের সেটআপ সাধারণ?

    হ্যাঁ

প্রযুক্তিগত দৃষ্টিকোণ থেকে আপনার ETL সমাধানগুলি সন্ধান করা দরকার যা আপনার জীবনকে আরও সহজ করে তুলতে পারে। কখনও কখনও একটি ডেটা নির্দিষ্ট ডেটা পড়ার জন্য অন্যটির চেয়ে অনেক দ্রুত হতে পারে। উদাহরণস্বরূপ, আরআর রিডএক্সএল xlsx ফাইল পড়ার সময় পাইথনের পান্ডার চেয়ে দ্রুত ম্যাঙ্গিটিউডের অর্ডার; আপনি ফাইলগুলি আমদানি করতে আর ব্যবহার করতে পারেন, তারপরে এগুলি পাইথন-বান্ধব বিন্যাসে (parquet, SQL ইত্যাদি) সংরক্ষণ করুন। আমি জানি আপনি xlsx ফাইলগুলিতে কাজ করছেন না এবং আপনি পাইথন ব্যবহার করেন কিনা আমার কোনও ধারণা নেই - এটি কেবল উদাহরণ।

ব্যবহারিক দৃষ্টিকোণ থেকে, দুটি জিনিস:

  • সবার আগে, প্রযুক্তিগতভাবে কী সম্ভব তা বুঝতে পারেন। অনেক ক্ষেত্রে, আপনার জানা লোকেরা হ'ল আইটি-নিরক্ষর লোকেরা যারা ব্যবসায় বা সম্মতি বিবেচনার বিষয়ে উদ্বিগ্ন হন, তবে কোনও আইটি দৃষ্টিকোণ থেকে এটি কী এবং কোনটি সম্ভব নয় তার ধারণা নেই। ডিবিএ বা যারা ডেটা অবকাঠামো পরিচালনা করে তার সাথে কথা বলার চেষ্টা করুন। প্রযুক্তিগতভাবে কী সম্ভব তা বুঝুন। তারপরে, তারপরেই কোনও আপস খুঁজে পাওয়ার চেষ্টা করুন। যেমন তারা আপনাকে তাদের সিস্টেমে অ্যাক্সেস দেবে না, তবে আমি অনুমান করি এর পিছনে কোনও ডাটাবেস আছে? তারা কি অন্য কিছু ফর্ম্যাটে ডেটা উত্তোলন করতে পারে? হতে পারে যে তারা এসকিউএল স্টেটমেন্টগুলি ডেটা টাইপ ইত্যাদি সংজ্ঞায়িত করতে পারে?

  • যদি আপনি কেসটি করতে পারেন যে এটি করা তাদের আগ্রহের বিষয় হয় তবে ব্যবসায়ীরা আপনাকে আরও বেশি সাহায্য করতে পারে। তারা যদি আপনি যা করছেন তাতে বিশ্বাস নাও করে, শক্ত ভাগ্য ...


2
একটি ইটিএল সমাধান সন্ধান / বিডলিং সম্পর্কে দুর্দান্ত পয়েন্ট। কেবল যুক্ত করা দরকার: এমন একটি সেটআপ চয়ন করুন যা আপনি স্বাচ্ছন্দ্যযুক্ত এবং সহজেই পড়তে / ডিবাগ করতে পারেন। স্বয়ংক্রিয় কাজগুলির প্রাথমিক পর্যায়ে, দ্রুততম ডেটা-স্লুর্প সরঞ্জাম সন্ধানের চেয়ে এটি আরও বেশি গুরুত্বপূর্ণ। যদি এটি পাঠ্যের জিগ হয় তবে এটি প্রায়শই রাতারাতি চলতে পারে এবং কোনও সরঞ্জাম / কাঠামো / ভাষা নিয়ে আপনার সাবলীলতা ভাল ডেটা জাগ্রত করতে বা আপনাকে আবার শুরু করতে হবে এমন কিছু মধ্যে পার্থক্য তৈরি করতে পারে। কেবলমাত্র একটি মাত্র করণ কোনও দক্ষতার সুবিধা মুছতে পারে। দ্রুত এবং হোঁচট খাওয়ার চেয়ে কম বাগের সাথে স্থির থাকা ভাল।
জেসন 13

2
সত্য। কিন্তু, এছাড়াও, overoptimise করবেন না। আপনার অগ্রাধিকারগুলি বুদ্ধিমানের সাথে চয়ন করুন। যদি ডেটা আমদানি করা এক-এক পর্যায়ে থাকে তবে কীভাবে আমদানির সময়টি ২ ঘণ্টা থেকে ৩০ মিনিট থেকে কমিয়ে আনা যায় তা সন্ধানের জন্য দিন ব্যয় করবেন না। ইত্যাদি
পাইথনগুয়েস্ট

39

এটি এমন একটি পরিস্থিতি যা অনেকগুলি ব্লগ, সংস্থাগুলি এবং কাগজপত্রগুলি বেশ কয়েকটি ক্ষেত্রে সত্যিকারের কিছু হিসাবে স্বীকৃতি দেয়।

এই কাগজে ডেটা রেংলিং ফর বিগ ডেটা: চ্যালেঞ্জ এবং সুযোগগুলি সম্পর্কে এ সম্পর্কে একটি উদ্ধৃতি রয়েছে is

তথ্য বিজ্ঞানীরা তাদের সময় 50 শতাংশ থেকে 80 শতাংশ ব্যয়

অবারিত ডিজিটাল ডেটা সংগ্রহ এবং প্রস্তুত করা।

এছাড়াও, আপনি দ্য নিউ ইয়র্ক টাইমসের এই নিবন্ধের উত্সটি পড়তে পারেন, বিগ-ডেটা বিজ্ঞানীদের জন্য, 'জানিটার ওয়ার্ক' অন্তর্দৃষ্টিগুলির কী বাধা

দুর্ভাগ্যক্রমে, আসল পৃথিবী কাগলের মতো নয়। আপনি এমন কোনও সিএসভি বা এক্সেল ফাইল পান না যা আপনি একটু পরিষ্কার করে ডেটা এক্সপ্লোরেশন শুরু করতে পারেন। আপনার প্রয়োজনীয়তার জন্য উপযুক্ত নয় এমন একটি ফর্ম্যাটে আপনাকে ডেটা খুঁজে নিতে হবে।

আপনি যা করতে পারেন তা হ'ল পুরানো ডেটা যথাসম্ভব ব্যবহার করা এবং এমন কোনও প্রক্রিয়াতে নতুন ডেটা সঞ্চয় করার উপযোগী করার চেষ্টা করা যা আপনার (বা ভবিষ্যতের সহকর্মী) সাথে কাজ করা আরও সহজ হবে easier



4
ফোর্বসের আর কোথাও "ডেটা সায়েন্স" শব্দের সাথে উল্লেখ করা উচিত নয়।
জেনেট

50 টি 80% (কোট) "সাক্ষাত্কার এবং বিশেষজ্ঞের অনুমান" এর উপর ভিত্তি করে
oW_

3
একটি মতামত ভিত্তিক প্রশ্নের উপর একটি মতামত ভিত্তিক প্রশ্নের উপর ভিত্তি করে একটি মতামত ভিত্তিক জরিপ সম্পর্কে মতামত ভিত্তিক জরিপ সম্পর্কে @ জেনেটেড মতামত ভিত্তিক মন্তব্য কে ভেবে দেখেছিল যে আপনি এটি "ডেটা সায়েন্স" এসই তে পাবেন?
কেতা

25

বেশিরভাগ কাজের মতো তথ্য বিজ্ঞানের সাথে মোটেই সম্পর্কিত নয় বলে মনে হয়। এটা কি সঠিক?

এটি কোনও তথ্য বিজ্ঞান প্রকল্পের বাস্তবতা। গুগল আসলে মাপা এবং প্রকাশিত একটি কাগজ "মেশিন লার্নিং সিস্টেম লুকানো কারিগরী ঋণ" https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

এখানে চিত্র বর্ণনা লিখুন

কাগজের ফলাফল আমার অভিজ্ঞতাও প্রতিফলিত করে। ডেটা অর্জন, পরিষ্কার এবং প্রক্রিয়াকরণে প্রচুর সময় ব্যয় হয়।


7
  1. বেশিরভাগ কাজের মতো তথ্য বিজ্ঞানের সাথে মোটেই সম্পর্কিত নয় বলে মনে হয়। এটা কি সঠিক?

    ডেটা রাইংলিং ডেটা অবশ্যই সায়েন্টিস্ট কাজের বিবরণে রয়েছে job সমাধানের জন্য এটি ব্যবহার করার জন্য কোনও স্তরে আপনাকে ডেটা উত্পাদন প্রক্রিয়াটি বুঝতে হবে। অবশ্যই, ETL- এ বিশেষজ্ঞ কেউ এটিকে দ্রুত / আরও দক্ষ করে তুলতে পারেন, তবে ডেটা ডাম্প দেওয়া বাস্তব বিশ্বে অস্বাভাবিক নয়। আপনি যদি ডেটা বিজ্ঞানের এই দিকটি পছন্দ না করেন তবে আপনার অ্যাক্সেস থাকা কোনও গুদামে তথ্যটি সঠিকভাবে স্রোতে আইটি সংস্থানগুলির সাথে আরও ঘনিষ্ঠভাবে কাজ করার সুযোগ থাকতে পারে। বিকল্পভাবে, আপনি এমন একটি চাকরী খুঁজে পেতে পারেন যার ইতিমধ্যে আরও ভাল ক্রমে ডেটা রয়েছে।

  2. আমি জানি এটি কোনও উচ্চ-স্তরের ডেটা ইঞ্জিনিয়ারিং বিভাগের সাথে ডেটাচালিত সংস্থা নয়, তবে আমার মতে ডেটা সায়েন্সের সর্বনিম্ন স্তরের ডেটা অ্যাক্সেসযোগ্যতার প্রয়োজন requires আমি কি ভূল?

    আমি মনে করি ন্যূনতম স্তরটি টিএসটি ফাইল। যদি আপনার কাছে পাঠ্য ফাইলের মাধ্যমে ডেটা অ্যাক্সেস থাকে তবে আপনার ডাটাবেসে থাকা ডেটাতে অ্যাক্সেস থাকা উচিত (উচ্চপদস্থ ব্যক্তিদের সাথে এটি পিছনে চাপ দিন)।

  3. গুরুতর ডেটা বিজ্ঞানের প্রয়োজনযুক্ত সংস্থার জন্য কি এই ধরণের সেটআপ সাধারণ?

    হ্যাঁ. আপনি বিজ্ঞানী তথ্য; আপনি বিশেষজ্ঞ বর্তমানের ডেটা কাঠামোর অদক্ষতা এবং আপনি কীভাবে সহায়তা করতে পারেন সে সম্পর্কে অন্যকে শিক্ষিত করা আপনার কাজের একটি অংশ is যে ডেটা ব্যবহারযোগ্য নয় সেগুলি কাউকে সহায়তা করছে না। আপনার কাছে জিনিসগুলি আরও ভাল করে তৈরি করার এবং কোম্পানির ভবিষ্যতের গঠনের সুযোগ রয়েছে।


6

ডেটা সায়েন্সের অন্য সাম্প্রতিক স্টার্টার হিসাবে, আমি কেবল এটি যুক্ত করতে পারি যে আপনার অভিজ্ঞতা অনন্য বলে আমি মনে করি না, আমার প্রায় 10 টির দলটি এক বছরেরও বেশি সময় ধরে কোনও ডিএস করেনি (একটি ছোট প্রকল্প যা 2 টি দখল করেছে টীম). এটি টিমটির কার্যকর পাইপলাইনটি কাজ করার প্রতিশ্রুতির কারণে ঘটেছে, তবে এখনও তথ্য সরবরাহ করার ক্ষেত্রে যথেষ্ট নয়। স্পষ্টতই ধারণাগুলি অতীতে যথেষ্ট খারাপ ছিল এবং ভবিষ্যতে ডিএস প্রকল্পগুলির জন্য একটি পবিত্র-গ্রেইল এমএস অ্যাজুরি পরিবেশের অবিচ্ছিন্ন প্রতিশ্রুতি রয়েছে।

সুতরাং উত্তর:

1) হ্যাঁ সম্পূর্ণ নির্ভুল

২) না আপনি সঠিক, তবে আপনার যে ডেটা চান তা অ্যাক্সেস পাওয়ার জন্য এটি একটি উত্সাহী লড়াই (এটি যদি উপস্থিত থাকে তবে)।

3) আমি নিশ্চিত যে সেখানে এমন সংস্থাগুলি রয়েছে যারা অন্যদের চেয়ে ভাল। যদি আপনি এটি আপনার বর্তমান সংস্থায় দাঁড়াতে না পারেন, 2 বছর সময়ের একটি উপযুক্ত দৈর্ঘ্য, উজ্জ্বল জিনিসগুলি সন্ধান করা শুরু করুন (আপনার বর্তমান চাকরিটি ছেড়ে দেওয়ার আপনার ইচ্ছাটি কীভাবে বাক্যবোধ করছেন তা সতর্ক হন, "আরও গতিশীলের সাথে কাজ করার মতো কিছু) দল "" আমার পুরানো সংস্থা আমাকে ডেটা দেবে না ") এর চেয়ে আরও ভাল লাগবে)


5

যদি আপনি "এটি আমার কাজ নয়, তবে কেন আমি এটি করব" এর দৃষ্টিকোণ থেকে যদি এটি লক্ষ্য করেন তবে এটি মোটামুটি সাধারণ, সাধারণ সমস্যা যা ডেটা বিজ্ঞানের সাথে নির্দিষ্ট নয়। শেষ পর্যন্ত, আপনার কাজ হ'ল বস আপনাকে যা করতে বলবে তা করা, কিন্তু বাস্তবে বসকে এই বিষয়ে স্বৈরতান্ত্রিক হওয়ার খুব কম কারণ আছে এবং সাধারণত তাদের রাজি করা যেতে পারে। অথবা কমপক্ষে তারা আপনাকে কেন সেভাবে হতে হবে তার আন্তরিক ব্যাখ্যা দেবে। তবে যতক্ষণ কর্তৃপক্ষের কাছে আবেদন করা যায়, "ডেটা সায়েন্স" এর কোনও আনুষ্ঠানিক সংজ্ঞা নেই যা বলে যে আপনি কেবলমাত্র এক্স এক্স ডেটা সাফাই করতে পারেন। কর্তৃপক্ষ হ'ল যে কেউ আপনাকে অর্থ প্রদান করছে, যতক্ষণ না তারা আপনাকে পরিশোধ বন্ধ করার আইনী অধিকার রাখে।

আপনি এটি অন্য দৃষ্টিকোণ থেকেও দেখতে পারেন: এটি কি আপনার সময়ের সদ্ব্যবহার? দেখে মনে হচ্ছে আপনি কিছু কাজ করার জন্য একটি চাকুরী নিয়েছেন (যার অর্থ আপনি "ডেটা বিজ্ঞান" বলতে চান) তবে আপনাকে আরও একটি কাজ করতে হচ্ছে (যা আপনি "ডেটা র্যাংলিং" বলছেন)। কাজের বিবরণী এবং ব্যক্তিগত অনুভূতিগুলি এখানে মূল বিষয়টির পাশে কিছুটা রয়েছে কারণ এখানে আরও প্রাসঙ্গিক কিছু রয়েছে: সম্ভবতঃ আপনি যা করতে পারেন তা করার জন্য সংস্থাটি সম্ভবত আপনাকে একটি ভাল পরিমাণ অর্থ প্রদান করে (তথ্য বিজ্ঞান)। তবে এর পরিবর্তে আপনি অন্যান্য কাজগুলি করছেন, যা অন্যান্য লোকেরা করতে পারেন যারা আরও সক্ষম, আরও বেশি অনুপ্রাণিত বা কম ব্যয়বহুল কিছু সংমিশ্রণ। যদি ডেটা র্যাংলিং আপনার অর্ধেক বেতন দিয়ে কেউ করতে পারে, তবে একই জিনিসটি করার জন্য আপনাকে দ্বিগুণ মূল্য দিতে কোনও অর্থ হয় না। এটি যদি দ্রুত করা যায়কেউ একই বেতন প্রদান করে, একই যুক্তি প্রয়োগ হয় app অতএব সংস্থাটি আপনাকে এই দায়িত্ব অর্পণ করা এটি সম্পদের অপচয় (বিশেষত অর্থ) is এই দৃষ্টিকোণ থেকে এটি আসা, আপনি আপনার উচ্চপরিস্থ ব্যক্তিদের আপনার জিনিস দেখতে আরও সহজ করতে পারে।

অবশ্যই, দিন শেষে, কাউকে ডেটা র্যাংলিং করতে হবে। এটি হতে পারে যে এটি করার সস্তার, দ্রুততম, সহজতম উপায় - কাজের জন্য সেরা ব্যক্তি আপনিই। সেক্ষেত্রে, আপনি ভাগ্যের বাইরে একরকম। আপনি দাবি করার চেষ্টা করতে পারেন যে এটি আপনার চুক্তির অংশ নয়, তবে চুক্তিতে নির্দিষ্ট কিছু রাখার জন্য তারা এতটা নির্গত কী ছিল?


3

সম্ভবত এটি সহজভাবে বলতে:

  • ভেরিয়েবলগুলি তৈরি করতে এবং অঙ্কের সংখ্যাগুলি তৈরি করার সময়, আপনি কি অন্ধভাবে এটি করছেন, বা আপনার ডেটা বিশ্লেষণ করার পরে?
  • যখন সহকর্মীরা আপনার অনুসন্ধানগুলি পর্যালোচনা করে, যদি তাদের নির্দিষ্ট ডেটার বিট সম্পর্কে প্রশ্ন থাকে তবে এগুলি না জানলে কি আপনাকে বিব্রত করবে?

আপনার ডেটা নিয়ে কাজ করা এবং বুঝতে হবে - যার মধ্যে কোনও টুকরো তথ্য কীভাবে সংগ্রহ করা থেকে প্রদর্শিত হয় তা বোঝার জন্য অসঙ্গতি (NULL, খালি স্ট্রিং, "-") ঠিক করা থেকে সহজ স্টাফ রয়েছে। এটির প্রক্রিয়াজাতকরণের সাথে একই তথ্যের টুকরোগুলি জেনে রাখা অন্তর্ভুক্ত থাকে, সুতরাং এটি আংশিকভাবে কাজ যা আপনাকে যেভাবেই করতে হত।

এখন, মনে হচ্ছে এই সংস্থাটি আপনার ডেটা ধরে রাখার জন্য কোনও ধরণের ফ্রি মাইএসকিউএল (বা অনুরূপ) উদাহরণ স্থাপন করে উপকৃত হতে পারে। আপনি যখন নিজের র‌্যাংলিং কোডটি ডিজাইন করছেন তখন নমনীয় হওয়ার চেষ্টা করাও একটি ভাল ধারণা - আমি মনে করি যদি আপনাকে অনুমতি দেওয়া হয় (এবং এটি মাইএসকিউএল করতে না পারেন) তবে প্রসেসড ডেটার মধ্যবর্তী ডেটাসেট থাকা আমার পক্ষে কার্যকর useful

তবে অবশ্যই আপনি স্ক্র্যাচ থেকে জিনিসগুলি সেট আপ করছেন। এটি কোনও সহজ প্রক্রিয়া নয়, তবে এই "শেখার অভিজ্ঞতা" আপনার সিভিতে অন্তত ভাল।


3

1) মনে হয় বেশিরভাগ কাজ ডেটা সায়েন্সের সাথে মোটেই সম্পর্কিত নয়। এটা কি সঠিক? আমার মতে, ডেটা সায়েন্স ডেটা র্যাংলিং থেকে বের করতে পারে না। তবে, যেমনটি আপনি বলেছেন, প্রশ্নটি আসবে কোনও ডেটা সায়েন্টিস্টের দ্বারা ডেটা র্যাংলিংয়ের কত শতাংশ করা দরকার। এটি সংস্থাগুলির ব্যান্ডউইথ এবং ব্যক্তির যেমন কাজ করার আগ্রহের উপর নির্ভর করে। ডিএস হিসাবে আমার 15 থেকে 16 বছরের অভিজ্ঞতায় আমি সর্বদা ডেটা র্যাংলিংয়ের ক্রিয়াকলাপে প্রায় 60% থেকে 70% ব্যয় করেছি এবং বাস্তব বিশ্লেষণে সর্বোচ্চ 15% সময় ব্যয় করেছি। সুতরাং আপনার কল নিতে।

2) আমি জানি এটি কোনও উচ্চ-স্তরের ডেটা ইঞ্জিনিয়ারিং বিভাগের কোনও ডেটা চালিত সংস্থা নয়, তবে এটি আমার মতে ডেটা সায়েন্সের সর্বনিম্ন স্তরের ডেটা অ্যাক্সেসযোগ্যতার প্রয়োজন। আমি কি ভূল? আবার এটি প্রতিষ্ঠানের সুরক্ষা নীতিগুলির উপর নির্ভর করে। তারা আপনার কাছে সবকিছু ছেড়ে দিতে পারে না এবং অস্থায়ী কর্মচারী একজন ব্যক্তির কাছে ডেটা প্রকাশ করার জন্য তাদের নিজস্ব সুরক্ষা সমস্যা রয়েছে (এই শব্দগুলি ব্যবহার করে দুঃখিত :-()

3) গুরুতর ডেটা বিজ্ঞানের প্রয়োজনযুক্ত সংস্থার জন্য কি এই ধরণের সেটআপ সাধারণ? আমি মনে করি যে এই ধরণের সংস্থাগুলির ডেটা সায়েন্টিস্টদের সবচেয়ে বেশি মনোযোগ প্রয়োজন অনুভূত করতে যে ডেটা চালিত মডেলিং তাদের ব্যবসা বজায় রাখতে ভবিষ্যত। :-)

আমি প্রযুক্তিগত স্ট্যান্ড পয়েন্টগুলির পরিবর্তে ব্যবসায়ের কথা চিন্তা করে আমার ইনপুটগুলি দিয়েছি। :-) আশা করি আমার পছন্দের শব্দের মধ্যে আমি পরিষ্কার।


3

তাঁর আলোচনায় "বিগ ডেটা চারটি ভিন্ন সমস্যা", টুরিং অ্যাওয়ার্ড বিজয়ী মাইকেল স্টোনব্রেকার এই বিশেষ সমস্যাটিকে একটি বড় সমস্যা হিসাবে উল্লেখ করেছেন ( ভিডিও , স্লাইড )

তিনি বলেছেন যে এই অঞ্চলে অনেকগুলি মুক্ত সমস্যা রয়েছে: ইনজেস্ট, ট্রান্সফর্ম (যেমন ইউরো / ডলার), ক্লিন (যেমন -৯৯ / নাল), স্কিমা ম্যাপিং (যেমন মজুরি / বেতন), সত্তা একীকরণ (যেমন মাইক স্টোনব্রেকার / মাইকেল) Stonebreaker)

এই সমস্যাটি সমাধানের জন্য তামার, অ্যালটারেক্স, ত্রিফ্যাক্টা, প্যাক্সাতা, গুগল রিফাইন এর মতো সংখ্যক সংস্থার / পণ্য রয়েছে যা এই সমস্যাটি সমাধান করার চেষ্টা করছে।

এই অঞ্চলটি পরিপক্ক হওয়ার আগ পর্যন্ত, অনেক তথ্য বিজ্ঞানীর কাজ সত্যই ডেটা র্যাংগলিং হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.