আমার কাছে বিশাল (70 গিগাবাইট), একটি লাইন , পাঠ্য ফাইল রয়েছে এবং আমি এতে একটি স্ট্রিং (টোকেন) প্রতিস্থাপন করতে চাই। আমি টোকেনটি <unk>অন্য একটি ডামি টোকেন ( গ্লোভ ইস্যু ) দিয়ে প্রতিস্থাপন করতে চাই ।
আমি চেষ্টা করেছি sed:
sed 's/<unk>/<raw_unk>/g' < corpus.txt > corpus.txt.new
তবে আউটপুট ফাইলটিতে corpus.txt.newশূন্য-বাইট রয়েছে!
আমি পার্ল ব্যবহার করার চেষ্টাও করেছি:
perl -pe 's/<unk>/<raw_unk>/g' < corpus.txt > corpus.txt.new
তবে আমি স্মৃতি ত্রুটির বাইরে চলে এসেছি।
ছোট ফাইলগুলির জন্য, উপরের দুটি কমান্ডই কাজ করে।
আমি একটি স্ট্রিং যেমন একটি ফাইল প্রতিস্থাপন করতে পারেন? এটি সম্পর্কিত সম্পর্কিত প্রশ্ন, তবে উত্তরগুলির কোনওটিই আমার পক্ষে কার্যকর হয়নি।
সম্পাদনা : 10 জিবি (বা যা কিছু) প্রতিটি অংশে ফাইলটি বিভক্ত করা এবং sedতাদের প্রতিটিটিতে প্রয়োগ এবং তারপরে মার্জ করার বিষয়ে catকী? যে জানার জন্য? এর থেকেও কি আরও সুন্দর সমাধান?
splitসঙ্গে -bবিকল্প বাইটে খণ্ড ফাইলের মাপ সংজ্ঞা। প্রতিটি পরিবর্তে ব্যবহার করে প্রক্রিয়া করুন sedএবং পুনরায় একত্রিত হন। একটি ঝুঁকি রয়েছে যে <unk>দুটি ফাইলে বিভক্ত হতে পারে এবং তা খুঁজে পাওয়া যাবে না ...