- Binibigyang-daan ka ng ChatGPT Plus (GPT-4) na mag-extract ng text mula sa mga larawan gamit ang OCR.
- Gumagana ito sa mga naka-print na larawan, sulat-kamay na teksto, o mga code at kino-convert ang mga ito sa digital na teksto.
- Ang kalidad ng larawan at font ay nakakaimpluwensya sa katumpakan ng pagkilala.
- Higit pa ito sa OCR: sinusuri nito, binibigyang-kahulugan, at binibigyang-daan kang direktang magtrabaho kasama ang nakuhang teksto.

Ano ang dapat mong malaman bago mag-extract ng text mula sa mga larawan gamit ang ChatGPT? Ang kakayahang mag-extract ng text nang direkta mula sa mga larawan gamit ang artificial intelligence ay nagbabago sa paraan ng pakikipag-ugnayan namin sa mga dokumento, litrato, at mga na-scan na file. Isa sa mga pinakamakapangyarihang tool na kasalukuyang magagamit para dito ay ang ChatGPT, lalo na ang Plus na bersyon nito na may modelong GPT-4. Ang paggamit na ito ay higit pa sa simpleng pag-scan: Kinikilala, sinusuri, at kino-convert ng AI ang mga visual na character sa nae-edit na digital text.
Gayunpaman, bago ka tumalon sa paggamit ng feature na ito, mahalagang magkaroon ka ng masusing pag-unawa sa kung paano ito gumagana, anong mga limitasyon mayroon ito at sa anong mga kaso maaari itong maging kapaki-pakinabang lalo na sa iyo. Ang teknolohiyang OCR (Optical Character Recognition) na binuo sa ChatGPT ay kumakatawan sa isang makabuluhang hakbang sa automation at pagiging produktibo, ngunit hindi ito walang mga nuances nito.
Ano ang kailangan mong kunin ang teksto mula sa mga larawan gamit ang ChatGPT?
Para magsimula, Ang pagkilala sa teksto sa mga larawan sa pamamagitan ng ChatGPT ay magagamit lamang sa bayad na bersyon (ChatGPT Plus). Sa partikular, kailangan mo ng access sa modelong GPT-4, dahil natural nitong isinasama ang kakayahang magproseso ng mga larawan.
Kapag na-activate na ang opsyong ito, ang user Maaari kang mag-upload ng mga larawan o na-scan na mga dokumento nang direkta sa pag-uusap. Hindi na kailangang magbigay ng mga tiyak na tagubilin tulad ng "basahin ang larawang ito," dahil ang nagagawang awtomatikong makita ng modelo na ito ay visual na nilalaman at magsisimula kaagad sa pagkilala ng teksto.
Ito ay kapansin-pansin kung gaano kahusay Gumagana kahit na may mga kumplikadong larawan tulad ng mga screenshot na may source code, mga larawang may sulat-kamay o teksto sa iba't ibang oryentasyon. Bagama't may mga limitasyon, ang kakayahang mag-interpret ng mga nakasulat na simbolo (digital man o sulat-kamay na typography) ay bumuti nang husto. Kung interesado kang matuto nang higit pa tungkol sa pagkuha ng teksto mula sa mga larawan sa PCMagiging kapaki-pakinabang sa iyo ang artikulong ito.
Mga praktikal na halimbawa ng paggamit ng ChatGPT OCR
Isang kapansin-pansing halimbawa ang pag-upload ng a larawan ng isang piraso ng code na nagbibigay ng error sa isang programa. Hindi lamang natutukoy ng ChatGPT ang mga character sa code, ngunit maaari ring maunawaan kung ano ang nangyayari at mag-alok ng isang pinasadyang teknikal na solusyon. Nangangahulugan ito na hindi ito limitado sa pag-convert lamang ng mga visual sa plain text, ngunit Maaari mong ilapat ang linguistic at contextual processing ng GPT-4 sa nakuhang text.
Ngunit ang pinaka nakakagulat ay ang kakayahan nito maunawaan ang sulat-kamay, kahit na hindi ito ganap na nakabalangkas. Kung sasamahan mo ito ng command tulad ng "transcribe this," makukuha mo ang content sa digital text form na may mataas na antas ng katumpakan.
Ang pinakakaraniwang paggamit ng teknolohiyang ito

Ang teknolohiya sa pagkilala ng teksto sa mga larawan ay maaaring gamitin sa maraming sektor. Narito ang ilan sa mga pinakakaraniwang sitwasyon kung saan ginagamit ang functionality na ito maaaring gumawa ng malaking pagkakaiba:
- Pag-digitize ng mga pisikal na file: Ang mga aklatan, archive, at ahensya ng gobyerno ay maaaring gawing maaaksyunan na data sa loob ng ilang segundo.
- automation ng opisina: Ang mga pag-scan ng sulat-kamay o naka-print na mga form ay maaaring i-digitize para sa madaling pag-imbak o sanggunian.
- Pagsasalin ng dokumento: Kapag na-transcribe na ang teksto, maaari itong awtomatikong isalin, na inaalis ang mga hadlang sa wika sa mga naka-print na dokumento.
- Pamamahala ng accounting: Maaaring iproseso at ayusin ang mga invoice, resibo, at tiket, na may posibilidad na isama ang mga ito sa mga sistema ng pamamahala.
- Pamamahayag at pananaliksik: Ang pagkuha ng nilalaman mula sa mga larawan sa field o mga na-scan na dokumento ay maaaring makatipid ng maraming oras kapag nagsusulat ng mga ulat.
- Mabilis na pagpasok ng data: Ang mga kumpanyang kailangang i-digitize ang malalaking volume ng mga dokumento ay maaaring mabawasan ang mga gastos at pagkakamali ng tao.
Isa sa mga magagandang bentahe ng paggamit ng ChatGPT para sa gawaing ito ay hindi mo kailangan ng maraming tool.: Maaari mong i-upload ang larawan, i-extract ang text, at ipagpatuloy ang pagtatrabaho dito nang direkta sa loob ng parehong chat. Kung nag-e-edit ka, nagbubuod, nagsasalin, o nagsusuri, maaari kang magpatuloy mula doon.
Mga limitasyon na dapat mong isaalang-alang
Tulad ng anumang teknolohiya, ang isang ito ay hindi perpekto. May mga tiyak Teknikal at kontekstwal na mga kondisyon na maaaring mabawasan ang katumpakan ng ChatGPT OCRSa ibaba, isasaalang-alang namin nang detalyado ang mga pinaka-kaugnay:
- Kalidad ng imahe: Ang isang malabo, pixelated, o mahinang ilaw na larawan ay maaaring maging mahirap na makilala.
- Mga istilo ng font: Ang mga pandekorasyon na font o kumplikadong mga titik, tulad ng artistikong kaligrapya, ay mas mahirap bigyang-kahulugan.
- Mga bihirang wika at simbolo: Ang mga wikang may mga ideogram, gaya ng Chinese o Japanese, o hindi karaniwang mga simbolo, ay kumakatawan sa isang mas malaking hamon.
- Mga kumplikadong disenyo: Maaaring malito ng text sa mga non-linear na format (gaya ng mga column, bilog, o sulok) ang system.
- Mga visual na error: Ang mga katulad na letra tulad ng 'O' at '0' o '1' at 'l' ay maaaring humantong sa mga pagkakamali ng interpretasyon kung hindi malinaw ang pagkakaiba ng mga ito.
- Mga graphic na elemento sa gitna ng teksto: Ang mga paglalarawan, mga overlay, o mga watermark ay maaaring makagambala sa OCR.
Kung ihahanda mong mabuti ang imahe, ang mga pagkakataon ng tagumpay ay tumataas nang husto.. Tiyaking mayroon itong sapat na liwanag, sapat na kaibahan, at ang teksto ay nakahanay hangga't maaari sa loob ng frame.
Mga limitasyon sa privacy at etikal sa paggamit ng mga larawan
Isa sa mga pinaka-tinalakay na aspeto tungkol sa mga function na ito ay ang sa privacy at seguridad ng data na nakuha mula sa mga larawan. Ang OpenAI ay nagpataw ng mga makabuluhang paghihigpit upang protektahan ang pagkakakilanlan ng mga tao sa mga larawang na-upload sa ChatGPT.
Halimbawa, Tumanggi ang system na tukuyin ang mga paksa ng tao batay sa mga litrato. Hindi kahit na sila ay mga public figure. Ang panukalang ito ay idinisenyo upang protektahan ang privacy ng user at maiwasan ang mga mapang-abuso o malisyosong paggamit.
Bilang karagdagan, ang system ay may kakayahang mag-filter ng tahasan at sensitibong nilalaman. Sa mga sitwasyon kung saan sinubukang labagin ang mga paghihigpit na ito, tutugon ang modelo ng mga mensahe ng pagtanggi o limitasyon, na nagpapaliwanag na hindi pinahihintulutan ang mga naturang pagkilos.
Mga karaniwang pagkakamali at kung ano ang gagawin kung may mali
Isa sa mga madalas na pagdududa ay kung ano ang gagawin kung ang resulta ng OCR ay hindi tulad ng inaasahanNarito ang ilang mga kapaki-pakinabang na tip:
- Suriin ang larawan: Tiyaking nakatutok ito, na may malinaw na nakikitang teksto at walang hindi kinakailangang visual na ingay.
- Subukan ang iba't ibang mga format: Minsan ang isang PNG ay gumagana nang mas mahusay kaysa sa isang JPEG, o vice versa.
- Hatiin ang mahahabang dokumento: Kung maraming text ang iyong larawan, hatiin ito sa ilang bahagi at i-upload ang mga ito sa mga tipak.
- Gumamit ng malinaw na mga tagubilin: Ang mga pariralang tulad ng "transcribe ito" o "convert sa text" ay maaaring makatulong na gabayan ang system kung hindi ito awtomatikong tumugon.
Maaari kang palaging makakuha ng mas malinis na bersyon ng teksto sa pamamagitan ng pag-extract muna nito gamit ang OCR at pagkatapos ay hilingin sa ChatGPT na i-extract ito. tama, buuin, buod o isalin. Ngayong alam mo na ang kailangan mong malaman bago mag-extract ng text mula sa mga larawan gamit ang ChatGPT, tingnan natin ang mga alternatibong makakatulong sa iyo.
Kailan mas mahusay na gumamit ng panlabas na alternatibo?

Habang nag-aalok ang ChatGPT ng medyo komprehensibong solusyon, Minsan maaaring mas mahusay na gumamit ng mga tool na eksklusibong nakatuon sa OCR., bilang Adobe Scan, Google Lens o mga partikular na app para i-digitize ang text.
Ang mga ito ay karaniwang partikular na sinanay para sa teksto sa mga naka-print na dokumento at may mga advanced na opsyon tulad ng pagpili ng text block, pagtukoy ng talahanayan, o direktang pag-export sa nae-edit na PDF. Mahalaga ring tandaan na may mga pamamaraan sa Excel na makakatulong, at ipinapaliwanag namin ang mga ito sa artikulong ito. Paano ko magagamit ang text function sa Excel para kunin ang una o huling salita mula sa isang text string?.
Gayunpaman, Ang kapangyarihan ng ChatGPT ay pinagsasama nito ang OCR sa pagpoproseso ng linguistic. May maliit na punto sa pagkuha ng mga character kung pagkatapos ay kailangan mong pag-aralan ang mga ito nang hiwalay. Dito nagniningning ang ChatGPT, nag-aalok ng all-in-one na solusyon.
Ang pagsasama ng OCR sa mga modelo ng wika tulad ng ChatGPT ay nagbubukas ng isang mundo ng mga posibilidad. Mula sa Mula sa pag-automate ng gawain sa negosyo hanggang sa real-time na pagsasalin at pagsusuri ng dokumento. Bagama't mayroon itong mga limitasyon, ang mga praktikal na aplikasyon nito ay higit na lumalampas sa kasalukuyang mga teknikal na hadlang. Dahil sa bilis ng pagpapabuti na nararanasan ng mga modelong ito, hindi makatuwirang isipin na malapit na nilang makamit ang halos 100% na pagiging maaasahan, kahit na sa ilalim ng masamang mga kondisyon. Umaasa kami na sa pagtatapos ng artikulong ito ay malalaman mo kung ano ang kailangan mong malaman bago kumuha ng teksto mula sa mga larawan gamit ang ChatGPT.
Mahilig sa teknolohiya mula pa noong bata pa siya. Gustung-gusto kong maging up to date sa sektor at, higit sa lahat, ipaalam ito. Iyon ang dahilan kung bakit ako ay nakatuon sa komunikasyon sa teknolohiya at mga website ng video game sa loob ng maraming taon na ngayon. Makikita mo akong nagsusulat tungkol sa Android, Windows, MacOS, iOS, Nintendo o anumang iba pang nauugnay na paksang naiisip.

