ChatGPT वापरून प्रतिमांमधून मजकूर काढण्यापूर्वी तुम्हाला काय माहित असले पाहिजे

शेवटचे अपडेट: २२/०२/२०२४

  • चॅटजीपीटी प्लस (जीपीटी-४) तुम्हाला ओसीआर वापरून प्रतिमांमधून मजकूर काढण्याची परवानगी देतो.
  • हे छापील प्रतिमा, हस्तलिखित मजकूर किंवा कोडसह कार्य करते आणि त्यांना डिजिटल मजकुरात रूपांतरित करते.
  • प्रतिमा गुणवत्ता आणि फॉन्ट ओळख अचूकतेवर परिणाम करतात.
  • ते OCR च्या पलीकडे जाते: ते विश्लेषण करते, अर्थ लावते आणि तुम्हाला काढलेल्या मजकुरावर थेट काम करण्याची परवानगी देते.
ChatGPT वापरून प्रतिमांमधून मजकूर काढण्यापूर्वी तुम्हाला काय माहित असले पाहिजे

ChatGPT वापरून प्रतिमांमधून मजकूर काढण्यापूर्वी तुम्हाला काय माहित असले पाहिजे? कृत्रिम बुद्धिमत्तेचा वापर करून प्रतिमांमधून थेट मजकूर काढण्याची क्षमता कागदपत्रे, छायाचित्रे आणि स्कॅन केलेल्या फायलींशी संवाद साधण्याच्या पद्धतीत क्रांती घडवत आहे. यासाठी सध्या उपलब्ध असलेल्या सर्वात शक्तिशाली साधनांपैकी एक म्हणजे ChatGPT, विशेषतः GPT-4 मॉडेलसह त्याची प्लस आवृत्ती. हा वापर फक्त स्कॅनिंगच्या पलीकडे जातो: एआय दृश्यमान वर्ण ओळखते, त्यांचे विश्लेषण करते आणि संपादन करण्यायोग्य डिजिटल मजकुरात रूपांतरित करते..

तथापि, हे वैशिष्ट्य वापरण्यापूर्वी, तुम्हाला याची सखोल समज असणे महत्वाचे आहे ते कसे कार्य करते, त्याच्या मर्यादा काय आहेत आणि कोणत्या बाबतीत ते तुमच्यासाठी विशेषतः उपयुक्त ठरू शकते. चॅटजीपीटीमध्ये तयार केलेले ओसीआर (ऑप्टिकल कॅरेक्टर रेकग्निशन) तंत्रज्ञान ऑटोमेशन आणि उत्पादकतेमध्ये एक महत्त्वपूर्ण झेप दर्शवते, परंतु ते त्याच्या बारकाव्यांशिवाय नाही.

ChatGPT वापरून प्रतिमांमधून मजकूर काढण्यासाठी तुम्हाला काय आवश्यक आहे?

ChatGPT वापरून प्रतिमांमधून मजकूर काढण्यापूर्वी तुम्हाला काय माहित असले पाहिजे

सुरुवात करण्यासाठी, ChatGPT द्वारे प्रतिमांमध्ये मजकूर ओळखणे फक्त सशुल्क आवृत्तीमध्ये (ChatGPT Plus) उपलब्ध आहे.. विशेषतः, तुम्हाला GPT-4 मॉडेलमध्ये प्रवेश आवश्यक आहे, कारण त्यात प्रतिमांवर प्रक्रिया करण्याची क्षमता मूळतः समाविष्ट आहे.

एकदा हा पर्याय सक्रिय झाला की, वापरकर्ता तुम्ही संभाषणात थेट प्रतिमा किंवा स्कॅन केलेले कागदपत्रे अपलोड करू शकता.. "ही प्रतिमा वाचा" सारख्या विशिष्ट सूचना देण्याची आवश्यकता नाही, कारण मॉडेल आपोआप ओळखू शकते की ते दृश्य सामग्री आहे. आणि लगेच मजकूर ओळखण्यास सुरुवात करते.

किती छान आहे हे आश्चर्यकारक आहे. सोर्स कोडसह स्क्रीनशॉटसारख्या जटिल प्रतिमांसह देखील कार्य करते, हस्तलेखन किंवा वेगवेगळ्या अभिमुखतेतील मजकूर असलेले फोटो. मर्यादा असल्या तरी, लिखित चिन्हांचा अर्थ लावण्याची क्षमता (मग ती डिजिटल असो किंवा हस्तलिखित टायपोग्राफी) लक्षणीयरीत्या सुधारली आहे. जर तुम्हाला याबद्दल अधिक जाणून घेण्यात रस असेल तर पीसी वर प्रतिमांमधून मजकूर काढणेहा लेख तुमच्यासाठी उपयुक्त ठरेल.

ChatGPT OCR वापरण्याची व्यावहारिक उदाहरणे

हस्तलिखित मजकूर ओळख

एक उल्लेखनीय उदाहरण म्हणजे अपलोड करणे प्रोग्राममध्ये त्रुटी देणाऱ्या कोडच्या तुकड्याचा फोटो. चॅटजीपीटी केवळ कोडमधील वर्ण ओळखण्यास सक्षम नाही तर काय घडत आहे ते देखील समजू शकते आणि एक अनुकूल तांत्रिक उपाय देऊ शकते. याचा अर्थ असा की ते फक्त दृश्यांना साध्या मजकुरात रूपांतरित करण्यापुरते मर्यादित नाही, तर तुम्ही काढलेल्या मजकुरावर GPT-4 ची भाषिक आणि संदर्भ प्रक्रिया लागू करू शकता..

पण सर्वात आश्चर्यकारक गोष्ट म्हणजे त्याची क्षमता हस्ताक्षर पूर्णपणे रेखाटलेले नसले तरीही ते समजून घ्या. जर तुम्ही "हे ट्रान्सक्राइब करा" सारखी आज्ञा दिली तर तुम्हाला डिजिटल मजकूर स्वरूपात उच्च पातळीच्या अचूकतेसह सामग्री मिळेल.

या तंत्रज्ञानाचे सर्वात सामान्य उपयोग

सोरा युरोप-५ मध्ये उपलब्ध आहे

प्रतिमांमधील मजकूर ओळख तंत्रज्ञानाचा वापर अनेक क्षेत्रांमध्ये केला जाऊ शकतो. ही कार्यक्षमता वापरली जाते अशा काही सामान्य परिस्थिती येथे आहेत. मोठा फरक पडू शकतो:

  • भौतिक फायलींचे डिजिटायझेशन: ग्रंथालये, अभिलेखागार आणि सरकारी संस्था काही सेकंदात कागदपत्रांच्या डोंगरांना कृतीयोग्य डेटामध्ये रूपांतरित करू शकतात.
  • ऑफिस ऑटोमेशन: हस्तलिखित किंवा छापील फॉर्मचे स्कॅन सहज साठवणुकीसाठी किंवा संदर्भासाठी डिजिटायझेशन केले जाऊ शकतात.
  • दस्तऐवज भाषांतर: एकदा मजकूर लिप्यंतरित झाला की, तो आपोआप भाषांतरित होऊ शकतो, ज्यामुळे छापील कागदपत्रांमधील भाषेतील अडथळे दूर होतात.
  • लेखा व्यवस्थापन: इनव्हॉइस, पावत्या आणि तिकिटे प्रक्रिया आणि रचना केली जाऊ शकतात, त्यांना व्यवस्थापन प्रणालींमध्ये एकत्रित करण्याची शक्यता आहे.
  • पत्रकारिता आणि संशोधन: फील्ड इमेजेस किंवा स्कॅन केलेल्या कागदपत्रांमधून मजकूर काढल्याने अहवाल लिहिताना बराच वेळ वाचू शकतो.
  • जलद डेटा एंट्री: ज्या कंपन्यांना मोठ्या प्रमाणात कागदपत्रे डिजिटायझेशन करायची आहेत, त्या मानवी खर्च आणि चुका कमी करू शकतात.

या कामासाठी ChatGPT वापरण्याचा एक मोठा फायदा म्हणजे तुम्हाला अनेक साधनांची आवश्यकता नाही.: तुम्ही इमेज अपलोड करू शकता, मजकूर काढू शकता आणि त्याच चॅटमध्ये थेट त्यावर काम करणे सुरू ठेवू शकता. तुम्ही संपादन करत असाल, सारांश देत असाल, भाषांतर करत असाल किंवा विश्लेषण करत असाल, तुम्ही तिथून पुढे जाऊ शकता.

संबंधित लेख:
प्रतिमेतून मजकूर कसा काढायचा

तुम्ही लक्षात घ्याव्यात अशा मर्यादा

कोणत्याही तंत्रज्ञानाप्रमाणे, हे तंत्रज्ञान परिपूर्ण नाही. काही निश्चित आहेत तांत्रिक आणि संदर्भात्मक परिस्थिती ज्यामुळे ChatGPT OCR ची अचूकता कमी होऊ शकते.खाली, आम्ही सर्वात संबंधित गोष्टींचे तपशीलवार वर्णन करतो:

  • प्रतिमा गुणवत्ता: अस्पष्ट, पिक्सेलेटेड किंवा कमी प्रकाश असलेला फोटो ओळखणे कठीण करू शकतो.
  • फॉन्ट शैली: कलात्मक सुलेखनासारखे सजावटीचे फॉन्ट किंवा जटिल अक्षरे, यांचा अर्थ लावणे अधिक कठीण असते.
  • दुर्मिळ भाषा आणि चिन्हे: चिनी किंवा जपानी सारख्या आयडीओग्राम किंवा असामान्य चिन्हे असलेल्या भाषा मोठ्या आव्हानाचे प्रतिनिधित्व करतात.
  • जटिल डिझाइन: रेषीय नसलेल्या स्वरूपात (जसे की स्तंभ, वर्तुळ किंवा कोपरे) मजकूर प्रणालीला गोंधळात टाकू शकतो.
  • दृश्य त्रुटी: 'O' आणि '0' किंवा '1' आणि 'l' सारखी समान अक्षरे स्पष्टपणे ओळखली गेली नाहीत तर त्यांचा अर्थ लावण्याच्या चुका होऊ शकतात.
  • मजकुराच्या मध्यभागी असलेले ग्राफिक घटक: चित्रे, ओव्हरले किंवा वॉटरमार्क ओसीआरमध्ये व्यत्यय आणू शकतात.

जर तुम्ही प्रतिमा चांगली तयार केली तर यश मिळण्याची शक्यता झपाट्याने वाढते.. त्यात पुरेसा प्रकाश, पुरेसा कॉन्ट्रास्ट आणि मजकूर फ्रेममध्ये शक्य तितका उत्तम प्रकारे संरेखित असल्याची खात्री करा.

संबंधित लेख:
पीडीएफ मधून मजकूर कसा कॉपी करायचा

प्रतिमांच्या वापरातील गोपनीयता आणि नैतिक मर्यादा

या फंक्शन्सच्या बाबतीत सर्वात जास्त चर्चेत असलेला एक पैलू म्हणजे प्रतिमांमधून काढलेल्या डेटाची गोपनीयता आणि सुरक्षितता. चॅटजीपीटीवर अपलोड केलेल्या प्रतिमांमधील लोकांची ओळख संरक्षित करण्यासाठी ओपनएआयने महत्त्वपूर्ण निर्बंध लादले आहेत.

उदाहरणार्थ, छायाचित्रांच्या आधारे मानवी विषय ओळखण्यास प्रणाली नकार देते.. जरी ते सार्वजनिक व्यक्ती असले तरीही नाही. हे उपाय वापरकर्त्याच्या गोपनीयतेचे रक्षण करण्यासाठी आणि गैरवापर किंवा दुर्भावनापूर्ण वापर रोखण्यासाठी डिझाइन केले आहे.

याव्यतिरिक्त, ही प्रणाली स्पष्ट आणि संवेदनशील सामग्री फिल्टर करण्यास देखील सक्षम आहे. ज्या परिस्थितीत या निर्बंधांचे उल्लंघन करण्याचा प्रयत्न केला जातो, तेथे मॉडेल नकार किंवा मर्यादा संदेशांसह प्रतिसाद देईल, असे स्पष्ट करेल की अशा कृतींना परवानगी नाही.

सामान्य चुका आणि काही चूक झाल्यास काय करावे

सर्वात जास्त वारंवार येणाऱ्या शंकांपैकी एक म्हणजे काय करावे जर ओसीआर निकाल अपेक्षेप्रमाणे नाही.येथे काही उपयुक्त टिप्स आहेत:

  • प्रतिमा तपासा: ते केंद्रित आहे याची खात्री करा, स्पष्टपणे दिसणारा मजकूर आणि अनावश्यक दृश्यमान आवाज नाही.
  • वेगवेगळे फॉरमॅट वापरून पहा: कधीकधी PNG हे JPEG पेक्षा चांगले काम करते, किंवा उलट देखील.
  • लांब कागदपत्रे विभाजित करा: जर तुमच्या प्रतिमेत खूप मजकूर असेल, तर तो अनेक भागांमध्ये विभाजित करा आणि तो तुकड्यांमध्ये अपलोड करा.
  • स्पष्ट सूचना वापरा: जर सिस्टम आपोआप प्रतिसाद देत नसेल तर "हे ट्रान्सक्राइब करा" किंवा "टेक्स्टमध्ये रूपांतरित करा" सारखे वाक्यांश तिला मार्गदर्शन करण्यास मदत करू शकतात.

तुम्ही मजकूराची अधिक स्वच्छ आवृत्ती नेहमी OCR वापरून काढू शकता आणि नंतर ChatGPT ला तो काढायला सांगू शकता. दुरुस्त करा, रचना करा, सारांशित करा किंवा भाषांतर करा. आता तुम्हाला ChatGPT वापरून प्रतिमांमधून मजकूर काढण्यापूर्वी काय माहित असणे आवश्यक आहे हे माहित आहे, चला तुम्हाला मदत करू शकणारे पर्याय पाहूया.

संबंधित लेख:
लिबर ऑफिसमध्ये डॉक्युमेंटमधून इमेजेस पटकन कसे काढायचे?

बाह्य पर्याय वापरणे कधी चांगले आहे?

गुगल लेन्स-३ मध्ये एआय व्हिजन कसे सक्षम करावे

ChatGPT एक व्यापक उपाय देते, कधीकधी केवळ OCR ला समर्पित साधने वापरणे अधिक कार्यक्षम असू शकते., म्हणून अ‍ॅडोब स्कॅन, गुगल लेन्स किंवा मजकूर डिजिटायझ करण्यासाठी विशिष्ट अॅप्स.

हे सहसा छापील कागदपत्रांमधील मजकुरासाठी विशेषतः प्रशिक्षित असतात आणि त्यात मजकूर ब्लॉक निवड, टेबल शोधणे किंवा संपादनयोग्य PDF वर थेट निर्यात करणे असे प्रगत पर्याय असतात. हे लक्षात ठेवणे देखील महत्त्वाचे आहे की एक्सेलमध्ये अशा पद्धती आहेत ज्या मदत करू शकतात आणि आम्ही या लेखात त्यांचे स्पष्टीकरण देतो. टेक्स्ट स्ट्रिंगमधून पहिला किंवा शेवटचा शब्द काढण्यासाठी मी एक्सेलमधील टेक्स्ट फंक्शन कसे वापरू शकतो?.

तथापि, ChatGPT ची ताकद अशी आहे की ते OCR ला भाषिक प्रक्रियेशी जोडते.. जर तुम्हाला नंतर त्यांचे वेगळे विश्लेषण करावे लागले तर पात्रे काढण्यात काही अर्थ नाही. इथेच ChatGPT चमकते, एक सर्वसमावेशक उपाय देते.

चॅटजीपीटी सारख्या भाषा मॉडेल्समध्ये ओसीआर एकत्रित केल्याने शक्यतांचे एक विश्व उघडते. पासून व्यवसाय कार्य ऑटोमेशनपासून ते रिअल-टाइम दस्तऐवज भाषांतर आणि विश्लेषणापर्यंत. जरी त्याला मर्यादा असल्या तरी, त्याचे व्यावहारिक उपयोग सध्याच्या तांत्रिक अडथळ्यांपेक्षा खूपच जास्त आहेत. या मॉडेल्समध्ये होत असलेल्या सुधारणांचा वेग पाहता, प्रतिकूल परिस्थितीतही ते लवकरच जवळजवळ १००% विश्वासार्हता प्राप्त करतील असा विचार करणे अवास्तव नाही. आम्हाला आशा आहे की या लेखाच्या शेवटी तुम्हाला ChatGPT वापरून प्रतिमांमधून मजकूर काढण्यापूर्वी काय माहित असणे आवश्यक आहे हे कळेल.

विशेष सामग्री - येथे क्लिक करा  ओपनएआयने GPT-4 इमेज जनरेशनसह चॅटजीपीटीमध्ये क्रांती घडवली