আমার কাছে বিশাল (70 গিগাবাইট), একটি লাইন , পাঠ্য ফাইল রয়েছে এবং আমি এতে একটি স্ট্রিং (টোকেন) প্রতিস্থাপন করতে চাই। আমি টোকেনটি <unk>
অন্য একটি ডামি টোকেন ( গ্লোভ ইস্যু ) দিয়ে প্রতিস্থাপন করতে চাই ।
আমি চেষ্টা করেছি sed
:
sed 's/<unk>/<raw_unk>/g' < corpus.txt > corpus.txt.new
তবে আউটপুট ফাইলটিতে corpus.txt.new
শূন্য-বাইট রয়েছে!
আমি পার্ল ব্যবহার করার চেষ্টাও করেছি:
perl -pe 's/<unk>/<raw_unk>/g' < corpus.txt > corpus.txt.new
তবে আমি স্মৃতি ত্রুটির বাইরে চলে এসেছি।
ছোট ফাইলগুলির জন্য, উপরের দুটি কমান্ডই কাজ করে।
আমি একটি স্ট্রিং যেমন একটি ফাইল প্রতিস্থাপন করতে পারেন? এটি সম্পর্কিত সম্পর্কিত প্রশ্ন, তবে উত্তরগুলির কোনওটিই আমার পক্ষে কার্যকর হয়নি।
সম্পাদনা : 10 জিবি (বা যা কিছু) প্রতিটি অংশে ফাইলটি বিভক্ত করা এবং sed
তাদের প্রতিটিটিতে প্রয়োগ এবং তারপরে মার্জ করার বিষয়ে cat
কী? যে জানার জন্য? এর থেকেও কি আরও সুন্দর সমাধান?
split
সঙ্গে -b
বিকল্প বাইটে খণ্ড ফাইলের মাপ সংজ্ঞা। প্রতিটি পরিবর্তে ব্যবহার করে প্রক্রিয়া করুন sed
এবং পুনরায় একত্রিত হন। একটি ঝুঁকি রয়েছে যে <unk>
দুটি ফাইলে বিভক্ত হতে পারে এবং তা খুঁজে পাওয়া যাবে না ...