همیشه امکان استخراج متن از یک فایل PDF با استفاده از کپی معمول وجود ندارد. اغلب صفحات این اسناد محتویات اسکن شده در نسخه های کاغذی خود را دارند. برای تبدیل چنین فایل ها به داده های متن به طور کامل قابل ویرایش، برنامه های ویژه ای با عملکرد تشخیص نوری (OCR) مورد استفاده قرار می گیرند.

چنین راه حل هایی برای اجرای بسیار دشوار است و به همین دلیل هزینه زیادی را صرف می کنند. اگر به طور منظم باید متن را با PDF به رسمیت بشناسید، بهتر است که برنامه مناسب را خریداری کنید. برای موارد نادر، استفاده از یکی از خدمات آنلاین موجود با توابع مشابهی منطقی تر است.

نحوه تشخیص متن از PDF آنلاین

البته، ویژگی های سرویس های آنلاین OCR در مقایسه با راه حل های کامل دسکتاپ محدود است. اما شما می توانید با این منابع به صورت رایگان یا برای هزینه اسمی کار کنید. نکته اصلی این است که برنامه های کاربردی مربوطه با کار اصلی خود، یعنی به رسمیت شناختن متن، نیز مقابله می کنند.

روش 1: ABBYY FineReader Online

شرکت توسعه خدمات یکی از رهبران در زمینه تشخیص سند نوری است. ABBYY FineReader برای ویندوز و مک یک راه حل قدرتمند برای تبدیل PDF به متن و کار با آن است.

البته، هماهنگی وب از این برنامه، در عملکرد کم است. با این وجود، سرویس می تواند متن را از اسکن و عکس در بیش از 190 زبان تشخیص دهد. پشتیبانی از تبدیل فایلهای PDF به اسناد کلمه ، اکسل و غیره

ABBYY FineReader آنلاین سرویس آنلاین

  1. قبل از شروع کار با ابزار، یک حساب کاربری در سایت ایجاد کنید یا با استفاده از حساب فیس بوک، گوگل یا مایکروسافت وارد شوید.
    با ABBYY FineReader Online ثبت نام کنید
    برای رفتن به پنجره ورود، بر روی دکمه "ورود" را در نوار منوی بالا کلیک کنید.
  2. پس از وارد شدن، سند PDF دلخواه را وارد FineReader با استفاده از دکمه "Upload Files" وارد کنید.
    شناسایی متن از یک سند PDF در سرویس آنلاین ABBYY FineReader Online
    سپس روی "انتخاب شماره صفحات" کلیک کنید و فاصله ای دلخواه برای به رسمیت شناختن متن را مشخص کنید.
  3. سپس زبان های موجود در سند، فرمت فایل نتیجه را انتخاب کرده و روی دکمه «تشخیص» کلیک کنید.
    تشخیص متن را از یک سند PDF در ABBYY FineReader Online شروع کنید
  4. پس از پردازش، طول مدت آن کاملا به اندازه سند بستگی دارد، شما می توانید فایل به پایان رسید با داده های متنی را به سادگی با کلیک بر روی نام آن دانلود کنید.
    دانلود سند به پایان رسید از خدمات آنلاین ABBYY FineReader آنلاین
    یا آن را به یکی از سرویسهای ابری موجود تبدیل کنید.

این سرویس، احتمالا توسط الگوریتم های دقیق تر به رسمیت شناختن متن بر روی تصاویر و فایل های PDF مشخص می شود. اما، متاسفانه، استفاده رایگان آن محدود به پنج صفحه پردازش شده در هر ماه است. برای کار با اسناد با حجم زیاد، شما مجبور به خرید یک سال اشتراک هستید.

با این حال، اگر عملکرد OCR بسیار به ندرت مورد نیاز است، ABBYY FineReader Online یک گزینه عالی برای استخراج متن از فایل های PDF کوچک است.

روش 2: OCR آنلاین رایگان

خدمات ساده و راحت برای دیجیتالی کردن متن. بدون نیاز به ثبت نام، این منبع به شما اجازه می دهد تا 15 صفحه PDF کامل را در ساعت تشخیص دهید. Free Online OCR به طور کامل با اسناد در 46 زبان کار می کند و بدون مجوز پشتیبانی از سه فرمت صادرات متن - DOCX، XLSX و TXT.

هنگام ثبت نام، کاربر قادر به پردازش اسناد چند صفحه ای است، اما تعداد رایگان این صفحات به 50 واحد محدود می شود.

سرویس آنلاین رایگان آنلاین OCR

  1. برای به رسمیت شناختن متن از PDF به عنوان مهمان، بدون مجوز در منبع، از فرم مناسب در صفحه اصلی سایت استفاده کنید.
    تشخیص PDF در سرویس آنلاین OCR رایگان آنلاین
    سند دلخواه را با استفاده از دکمه "File" انتخاب کنید، زبان متنی اولیه، فرمت خروجی را انتخاب کنید، سپس منتظر بمانید تا فایل دانلود شود و روی "Convert" کلیک کنید.
  2. در پایان روند دیجیتال سازی، روی «دانلود فایل خروجی» کلیک کنید تا سند به پایان رسید با متن در رایانه شما ذخیره شود.
    دریافت نتیجه به رسمیت شناختن متن از پی دی اف از سرویس آنلاین آنلاین OCR آنلاین رایگان است

برای کاربران مجاز، توالی اقدامات تا حدودی متفاوت است.

  1. از دکمه «ثبت نام» یا «ورود به سیستم» در نوار منوی بالای صفحه استفاده کنید، به ترتیب، ایجاد یا دسترسی به حساب آنلاین آزاد آنلاین خود شوید.
    ایجاد یک حساب کاربری در سرویس آنلاین آنلاین رایگان OCR
  2. پس از مجوز در پانل شناسایی، کلید "CTRL" را نگه دارید و تا دو زبان سند اصلی را از لیست ارائه شده انتخاب کنید.
    تعیین زبان سند منبع برای شناخت متن در Free Online OCR
  3. مشخص کردن پارامترهای بیشتر برای استخراج متن از PDF و با کلیک بر روی دکمه "انتخاب فایل" برای آپلود سند به سرویس.
    شروع تشخیص یک سند PDF در سرویس آنلاین آنلاین OCR آنلاین رایگان
    سپس، برای شروع تشخیص، روی "تبدیل" کلیک کنید.
  4. پس از پردازش سند، روی پیوند با نام فایل خروجی در ستون مربوطه کلیک کنید.
    دانلود فایل DOCX به پایان رسید از سرویس آنلاین آنلاین OCR رایگان
    نتیجه به رسمیت شناختن بلافاصله در حافظه کامپیوتر شما ذخیره می شود.

اگر شما نیاز به استخراج متن از یک سند PDF کوچک دارید، می توانید با استفاده از ابزار فوق توضیح دهید. برای کار با فایل های بزرگ، شما مجبور به خرید علامت های اضافی در Free Online OCR و یا استفاده از راه حل دیگری.

روش 3: NewOCR

سرویس کاملا رایگان OCR که به شما اجازه می دهد متن را از تقریبا هر اسناد گرافیکی و الکترونیکی مانند DjVu و PDF استخراج کنید. این منابع محدودیت های اندازه و تعداد فایل های قابل تشخیص را اعمال نمی کند، نیازی به ثبت نام ندارد و طیف وسیعی از توابع مرتبط را ارائه می دهد.

NewOCR از 106 زبان پشتیبانی می کند و قادر است به درستی اسکن اسناد حتی با کیفیت پایین را اداره کند. این امکان وجود دارد که به صورت دستی منطقه ناشناخته متن را در صفحه فایل انتخاب کنید.

سرویس آنلاین NewOCR

  1. بنابراین، شما می توانید فورا با منابع کار کنید بدون نیاز به انجام اقدامات غیر ضروری.
    دانلود یک فایل PDF به رسمیت شناخته شده به سرویس آنلاین NewOCR
    به طور مستقیم بر روی صفحه اصلی یک فرم برای وارد کردن سند به سایت وجود دارد. برای آپلود یک فایل به NewOCR، از «انتخاب فایل» در بخش «انتخاب فایل خود» استفاده کنید . سپس در فیلد "زبان تشخیص (ها)" یک یا چند زبان سند اصلی را انتخاب کنید، سپس روی "Upload + OCR" کلیک کنید.
  2. تنظیمات تشخیص مورد نظر خود را تنظیم کنید، صفحه دلخواه را برای استخراج متن انتخاب کنید و روی دکمه "OCR" کلیک کنید.
    راه اندازی و اجرای تشخیص متن از PDF در سرویس آنلاین NewOCR
  3. کمی پایین بروید و دکمه "دانلود" را پیدا کنید.
    متن را به کامپیوتر NewOCR استخراج کنید
    روی آن کلیک کنید و فرمت سند مورد نیاز را برای دانلود در لیست کشویی انتخاب کنید. پس از آن، فایل به پایان رسید با متن استخراج شده به کامپیوتر شما دانلود می شود.

این ابزار مناسب است و همه کاراکترها را به اندازه کافی با کیفیت بالا تشخیص می دهد. با این حال، پردازش هر صفحه سند PDF وارد شده باید به طور مستقل راه اندازی شود و در یک فایل جداگانه نمایش داده شود. البته می توانید بطور فوری نتایج تشخیص را به کلیپ بورد کپی کنید و آنها را با دیگران ادغام کنید.

با این وجود، با توجه به تنوع بالا، حجم زیادی از متن با استفاده از NewOCR برای استخراج بسیار دشوار است. سرویس با فایل های کوچک "با بمب" مقابله می کند.

روش 4: OCR.Space

یک منبع ساده و قابل فهم برای دیجیتالی کردن متن به شما امکان می دهد تا اسناد PDF را شناسایی کرده و نتیجه را به فایل TXT منتقل کنید. محدودیت تعداد صفحات وجود ندارد. تنها محدودیت این است که اندازه سند ورودی نباید بیش از 5 مگابایت باشد.

خدمات آنلاین OCR.Space

  1. ثبت نام برای کار با ابزار ضروری نیست
    فایل PDF را به سرویس آنلاین OCR.Space وارد کنید
    به سادگی روی پیوند بالا کلیک کنید و سند PDF را به وب سایت خود از طریق رایانه خود با استفاده از دکمه "انتخاب فایل" و یا از طریق شبکه با کلیک روی لینک آپلود کنید.
  2. در لیست کشویی انتخاب زبان OCR، زبان سند وارد شده را انتخاب کنید.
    شروع فرایند به رسمیت شناختن یک سند PDF در سرویس آنلاین OCR.Space
    سپس فرایند به رسمیت شناختن متن را با کلیک بر روی دکمه "شروع OCR!" شروع کنید .
  3. در پایان پردازش فایل، نتیجه را در قسمت "OCR'ed Result" بررسی کنید و روی "Download" کلیک کنید تا سند TXT به پایان رسید.
    دانلود نتیجه به رسمیت شناختن یک فایل PDF از OCR.Space سرویس آنلاین

اگر شما فقط نیاز به استخراج متن از PDF دارید و قالب بندی نهایی مهم نیست، OCR.Space انتخاب خوبی است. تنها سند باید "تک تک" باشد، زیرا شناخت دو یا چند زبان در یک زمان در سرویس ارائه نشده است.

همچنین ببینید: تجزیه و تحلیل آزاد از FineReader

با ارزیابی ابزارهای آنلاین ارائه شده در مقاله، باید توجه داشت که ABBYY FineReader Online دقیق تر و دقیق تر عملکردهای OCR را مدیریت می کند. اگر حداکثر دقت تشخیص متن برای شما مهم باشد، بهتر است این گزینه را در نظر بگیرید. اما برای پرداخت آن، به احتمال زیاد، نیز باید.

اگر شما نیاز دارید که اسناد کوچک را دیجیتالی کنید و آماده باشید که خودتان خطاهای خود را در این سرویس اصلاح کنید، بهتر است از NewOCR، OCR.Space یا Free OCR آنلاین استفاده کنید.