উত্তর:
সিগুইন (অথবা একটি লিনাক্স মেশিন অ্যাক্সেস) দিয়ে আপনি করতে পারেন
antiword file.doc | grep "my phrase"
অথবা
catdoc file.doc | grep "my phrase"
সেখানে কমান্ড লাইন ফাইল ফরম্যাট কনভার্টার প্রচুর আছে , grep অনুরূপ ফ্যাশন।
বিশুদ্ধভাবে-শব্দ সমাধান হতে পারে জন্য Ctrl + এফ (খুঁজুন), এবং তারপর সব খুঁজুন - তবে, আমি নিশ্চিত নই যে এমএস ওয়ার্ডের সমস্ত সংস্করণ যদি থাকে সব খুঁজুন বোতাম।
catdoc
প্রতি উপর segfaults .doc
/ .docx
ফাইল আমি, এবং antiword
শুধু আমার নথি "একটি শব্দ নথি নয়" আমাকে বলে। আপনি কি অন্য কোন বিকল্প জানেন?
docx2txt
ডেবিয়ান রিপোজিটরিতে বিদ্যমান - কাজ করতে পারে। আমি OpenOffice / LibreOffice কমান্ড-লাইন ফর্ম্যাট রূপান্তর ইউটিলিটি (unoconv) এও দেখতে চাই, যা একই উদ্দেশ্যে ব্যবহার করা যেতে পারে।
একটি শব্দ প্রসঙ্গে "লাইন" মানে কি? প্রদর্শিত লাইন, যা আপনি পৃষ্ঠা ফর্ম্যাটিং করতে কিছু পরিবর্তন করেন? অনুচ্ছেদ? অন্যকিছু?
আপনি ফর্ম্যাটিং এবং অন্যান্য অ-সুস্পষ্ট জিনিসগুলি সহ ওয়ার্ডের সন্ধান-এবং-প্রতিস্থাপনের ফাংশনগুলির সাহায্যে সামগ্রীর একটি গুচ্ছ কাজ করতে পারেন, তবে এটির সমস্তগুলি শুধুমাত্র সন্ধানের জন্যই কাজ করবে-কোনও পাঠ্যকে নয় কি পাঠ্য।
মন্তব্য করার জন্য যথেষ্ট রেপ পাওয়া যায় নি কিন্তু আমি এই ডক বনাম ডকক্স ইস্যু নিয়ে আলোচনা করতে পেরেছি যাতে কেউ যে থ্রেডের পশ্চাদ্ধাবন করতে পারে (যেমন আমি ছিলাম) এটি সহায়ক হতে পারে।
আপনি docx ফাইলের জন্য একটি বিশেষ হাতিয়ার প্রয়োজন হয় না। docx এক্সএমএল ফাইল জিপ করা হয়।
এক্সএমএল এক্সট্র্যাক্ট এবং স্ট্রিপ্ট কিছু উপর ভিত্তি করে চেষ্টা করুন
unzip -p "*.docx" word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'
থেকে কমান্ড লাইন FU