ওয়াননোট পার্সিং - ডকুমেন্টের টেক্সট ব্লবগুলিতে কীভাবে পাবেন?


16

আমি .oneফাইল এক্সটেনশনের জন্য একটি পার্সার তৈরি করছি , যা শেষ হয়ে গেলে আমি অ্যাপাচি টিকা প্রকল্পে যুক্ত করব।

এপিএল ২.০ লাইসেন্সবিহীন মুক্ত উত্স প্রকল্পটি আমি এখানে তৈরি করছি: https://github.com/nddipiazza/onenote-parser-java

আমি এখানে স্পেসিফিকেশন ডকুমেন্টটি ব্যবহার করেছি: https://docs.microsoft.com/en-us/openspecs/office_file_formats/ms-one/73d22548-a613-4350-8c23-07d15576be50

একটি শুরুর পয়েন্ট হিসাবে, আমি এই ওপেন সোর্স সি ++ প্রকল্পের কোডটিতে পোর্ট করেছি: https://github.com/DPbox/onenote-parser

দস্তাবেজগুলির বিশ্লেষণে আমি দীর্ঘ পথ পাড়ি দিয়েছি, তবে আমি একটি রাস্তা ব্লক করেছি।

পার্স করার জন্য আমি ওয়ান নোট ফাইলটি ব্যবহার করছি: https://drive.google.com/file/d/1uROTEnKeBKU08CG_K5zdDTGHa178LgBK/view?usp=sharing

এই নথির বিভাগটি এখানে

আমি আমার পার্স করা ফলাফলগুলিতে বিভাগ 1 পাঠ্যআরিয়া 1 এবং বিভাগ 1 পাঠ্যআরিয়া 2 দেখতে অক্ষম। সুতরাং আমি কিছু ধরণের কী ডেটা পার্সিং উপাদান বা কিছু অনুপস্থিত।

এটি অবশ্যই ওয়ান নোট ফাইলে রয়েছে। আমি এটি হেক্স ভিউয়ারে দেখতে পাচ্ছি:

বিষয়বস্তু হেক্স সম্পাদক দেখুন

এখানে জেএসএন পার্স আউটপুটটি রয়েছে: https://gist.github.com/nddipiazza/02d2252d357b3b02a6b9ab1050474267

আমি অনুভব করি যে অনুমিত দলিলটি এই মালিকানাধীন ফর্ম্যাটটি বিশ্লেষণের জন্য প্রয়োজনীয় কিছু খুব গুরুত্বপূর্ণ তথ্য অনুপস্থিত।

আমার আসল পাঠ্য সামগ্রীটি না পাওয়ার ফলে আমি কোন প্রধান উপাদান (গুলি) নিখোঁজ করছি?

উত্তর:


2

আমি এটি বের করেছিলাম। ওয়ানোটে সম্পত্তির মানগুলির যে কোনওটি থাকতে পারে তা বোঝার বিষয়টি ছিল:

  • বাইনারি বিষয়বস্তু
  • পাঠ্য বিষয়বস্তু Ascii
  • UTF-16LE বিষয়বস্তু।

এগুলি ছড়িয়ে ছিটিয়ে রয়েছে variety

এছাড়াও আমি কেবল এগিয়ে গিয়ে পুরো রুট ফাইল ট্রিটি বিশ্লেষণ করেছি। এটি প্রচুর নকল পাঠের ফলস্বরূপ আসবে তবে আমি সত্যিই যত্ন করি না।

প্রকল্পটি পরীক্ষাগুলির ক্ষেত্রে এবং এখানে ঠিক করার সাথে আপডেট করা হয়েছে: https://github.com/nddipiazza/onenote-parser-java/tree/master/src/main/java/org/apache/tika/onenote

হালনাগাদ:

সবেমাত্র অ্যাপাচি টিকা PR তৈরি করেছেন: https://github.com/apache/tika/pull/300

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.