Qué puede hacer Copilot con un documento escaneado (y qué no)

Última actualización: 11/02/2026

  • Copilot no interpreta por sí solo el texto de un PDF escaneado; es necesario aplicar OCR previo para generar una capa de texto legible.
  • Copilot Studio, Word y Sustainability Manager aprovechan documentos con texto estructurado para resumir, extraer datos y responder preguntas.
  • Servicios como Azure AI Document Intelligence permiten integrar OCR en flujos automáticos antes de que Copilot use los documentos.
  • La combinación de OCR, buenas fuentes de conocimiento y prompts bien diseñados marca la eficacia real de Copilot en entornos empresariales.
copilot con un documento escaneado

Trabajar con Copilot y documentos escaneados en PDF se ha convertido en una de las dudas más habituales para cualquiera que esté montando agentes con Copilot Studio o usando Copilot dentro de Microsoft 365. Muchos usuarios dan por hecho que, si Copilot “lee PDFs”, también podrá entender sin más un archivo escaneado como imagen… y ahí es donde empiezan los malentendidos.

En este artículo vamos a desgranar, con calma y sin rodeos, qué puede y qué no puede hacer Copilot con un documento escaneado, cómo se comporta en Word y en otros productos de Microsoft, qué papel juega el OCR (reconocimiento óptico de caracteres) y cómo montar un flujo de trabajo realista para aprovechar tus PDFs escaneados como fuentes de conocimiento.

¿Copilot puede leer directamente un PDF escaneado?

Lo primero que hay que aclarar es que un PDF escaneado no es un PDF de texto. En un PDF “normal” el contenido está formado por texto seleccionable; en un escaneado, lo que hay son imágenes de las páginas, sin capa de texto accesible. A ojos de cualquier modelo de lenguaje, si nadie hace OCR antes, ahí no hay nada que leer.

Los agentes de Copilot Studio, según la documentación actual de Microsoft y la experiencia de la comunidad, no procesan de forma nativa el texto de PDFs puramente basados en imágenes. Para que Copilot pueda razonar sobre el contenido, tiene que existir texto extraído previamente. Esto aplica tanto a los agentes que usan fuentes de conocimiento como a los escenarios de carga de documentos en otras aplicaciones de Microsoft.

Algunos usuarios aseguran que su agente ha “leído” PDFs escaneados, pero lo más habitual es que en realidad el archivo ya tuviera una capa de texto oculta (por ejemplo, porque la impresora multifunción o el escáner aplican OCR automáticamente) o se tratara de un PDF mixto, con texto y alguna imagen escaneada. Sin esa capa de texto, Copilot no tiene contenido estructurado del que tirar.

En resumen práctico: si subes un PDF que solo contiene imágenes escaneadas y no has pasado OCR, Copilot Studio no va a extraer de la nada el texto. Necesitarás un paso previo de reconocimiento de caracteres con alguna herramienta de OCR, idealmente integrada en tu flujo en Azure o en tu sistema de gestión documental.

Qué puede hacer Copilot con un documento escaneado

Cómo se integran los documentos en Copilot Studio

Copilot Studio permite crear agentes que utilizan solicitudes (prompts) y fuentes de conocimiento para responder a los usuarios. Una de las novedades más importantes es la posibilidad de definir indicaciones que establecen una lógica de extracción y enriquecimiento de datos a partir de documentos e imágenes.

En la práctica, puedes configurar en Copilot Studio, Power Apps o Power Automate un mensaje en el que especificas qué quieres que el agente haga con los ficheros que recibe: analizar, resumir, extraer campos concretos, transformar formato o realizar cualquier otro tipo de procesamiento coherente con tu caso de uso.

Dentro de estas solicitudes puedes añadir uno o varios tipos de entrada de archivo. Microsoft indica que los tipos admitidos incluyen PNG, JPG, JPEG y PDF. Esto significa que el agente puede trabajar con documentos y con imágenes, pero no implica que convierta automáticamente una imagen en texto estructurado sin ayuda de un proceso de reconocimiento.

El verdadero valor está en que, una vez definida esta lógica de procesamiento para los agentes de Copilot, se reduce muchísimo el trabajo manual para los usuarios finales. En lugar de que cada persona tenga que abrir, copiar, pegar y dar formato, el agente ejecuta siempre la misma lógica, garantizando coherencia y ahorro de tiempo.

Además, estos prompts se pueden reutilizar en distintos agentes, aplicaciones y flujos automatizados, de forma que una sola inversión en diseño de la lógica se multiplica en tu organización. Actualmente, Microsoft indica que estas solicitudes se pueden incorporar en agentes a través de temas; las acciones aún no están soportadas en este contexto, aunque la hoja de ruta va ampliando capacidades.

Uso de OCR y Azure para tratar PDFs escaneados

Cuando tus fuentes de conocimiento o tus documentos de trabajo son PDFs escaneados, la solución razonable es introducir un paso de OCR antes de llegar a Copilot. Aquí es donde entra en juego Azure AI Document Intelligence (antes conocido como Form Recognizer) y servicios similares.

Contenido exclusivo - Clic Aquí  OpenAI avanza con Codex y GPT-5: nuevas capacidades en programación e inteligencia artificial

Con Document Intelligence puedes enviar tus PDFs escaneados y extraer el texto y la estructura: párrafos, tablas, encabezados, campos clave, etc. El servicio es capaz de detectar el contenido aunque el archivo de origen solo contenga imágenes y de devolverlo en un formato utilizable por tus aplicaciones.

Una vez que has extraído el texto, tienes varias opciones: puedes generar un nuevo PDF con capa de texto, guardar el contenido como Word, JSON o HTML, o incluso almacenar los datos ya estructurados directamente en un repositorio como Dataverse o SharePoint. A partir de ese momento, Copilot sí podrá usar estos documentos como referencia.

Una estrategia muy práctica consiste en automatizar este flujo: cuando alguien sube un PDF escaneado a una biblioteca de SharePoint concreta, se activa un flujo de Power Automate que llama a Document Intelligence, guarda el resultado procesado y lo incorpora a la fuente de conocimiento accesible para tu agente de Copilot Studio.

Con este enfoque, tus usuarios solo ven que “suben un archivo y Copilot lo entiende”, pero por debajo hay todo un proceso de OCR, normalización y enriquecimiento. Esta capa intermedia es la que marca la diferencia entre un agente que falla con PDFs escaneados y uno que realmente puede contestar preguntas detalladas sobre ellos.

ocr

Solicitudes con documentos e imágenes en Copilot Studio

Otro aspecto importante es cómo se configuran las solicitudes que aceptan archivos en Copilot Studio. Microsoft describe una funcionalidad donde el creador del agente define un mensaje y le agrega uno o varios tipos de entrada: imagen o documento, entre los que se encuentran PNG, JPG, JPEG y PDF.

Al diseñar estas solicitudes, puedes especificar la lógica que Copilot aplicará: por ejemplo, que extraiga ciertos datos de una factura, que resuma el contenido de un informe largo, que convierta el texto en una tabla o que aplique un formato estandarizado que luego se reutilizará en otros procesos.

La gran ventaja es que, una vez configurada la solicitud, todos los usuarios del agente disfrutarán de la misma automatización. Se elimina la variabilidad de que cada persona copie y pegue los datos a su manera, y se evita el tedio de operaciones repetitivas que Copilot puede hacer en una o dos interacciones de chat.

Desde el punto de vista de administración, esta característica se activa de forma predeterminada sin necesidad de configurar nada adicional. Basta con crear el mensaje, elegir los tipos de archivos admitidos y luego incluirlo en uno de los temas del agente de Copilot.

Al hablar de archivos que pueden incluir imágenes (como los PDFs escaneados), hay que tener siempre presente que la lógica que diseñes debe contemplar qué parte del trabajo hace Copilot y qué parte hace el OCR. Si el texto no existe aún, Copilot necesita que otra capa tecnológica se lo proporcione de forma estructurada.

Copilot en Word: redactar, transformar y chatear sobre el documento

Más allá de Copilot Studio, otra parte esencial del puzzle es cómo se comporta Copilot en Word con documentos largos, informes, propuestas o cualquier archivo que quieras revisar o transformar. Copilot en Word se apoya en el contenido del documento para generar borradores, resúmenes y respuestas a preguntas directas.

Cuando abres un documento nuevo o insertas una línea en blanco en uno existente, Word muestra la experiencia de “Generar un borrador con Copilot”. Allí puedes escribir una petición simple (“escribe una carta comercial presentando este producto”) o algo más elaborado con esquemas, notas o incluso referencias a otros archivos de tu entorno de Microsoft 365.

Si dispones de una licencia de Microsoft 365 Copilot, puedes usar el botón “Hacer referencia a un archivo” para adjuntar hasta tres archivos como base del borrador que Copilot generará. También puedes escribir “/” seguido del nombre del archivo para seleccionarlo rápidamente. Copilot se limitará a usar los documentos que elijas, sin acceder a otros datos de la organización que no hayas referenciado explícitamente.

Una vez generada la propuesta de texto, puedes conservarla, descartarla o pedir que se regenere. Es posible navegar entre diferentes versiones, ajustar el tono o la extensión con nuevas instrucciones (“hazlo más conciso”, “usa un tono más formal”), e incluso volver atrás y modificar el mensaje original para orientar mejor el resultado.

En documentos que ya contienen contenido, Word incorpora el botón “Inspírame”, que permite que Copilot continúe escribiendo a partir de lo que ya has redactado, manteniendo la coherencia con el estilo y el tema del texto existente.

copilot con un documento escaneado

Transformar y estructurar contenido en Word con Copilot

Copilot en Word no solo sirve para escribir desde cero, también facilita el trabajo de reescribir y pulir documentos que ya existen. Muchas veces editar y reestructurar lleva más tiempo que redactar un texto nuevo, y aquí es donde Copilot puede ahorrar bastantes horas.

Contenido exclusivo - Clic Aquí  Qué es Humata AI y cómo analizar PDFs complejos sin leer todo

Si seleccionas un fragmento de texto en el documento, verás un icono de Copilot en el margen. Desde ese menú puedes elegir la opción de “Reescritura automática” para que Copilot te proponga versiones alternativas. A partir de ahí puedes ajustar la respuesta, indicar nuevos matices o pedir que regenere otra tanda de sugerencias.

La misma selección de texto te permite activar la opción de “Visualizar como tabla”. Copilot toma el contenido y lo convierte en una tabla, algo muy útil cuando tienes listas o bloques de información que ganarían en claridad si estuvieran tabulados. Después puedes seguir ajustando la tabla con nuevas instrucciones del tipo “añade una tercera columna vacía”.

En ambos casos, la idea es que Copilot haga el trabajo pesado: reformular, estructurar y dar forma a la información sin que tengas que empezar cada cambio desde cero. Tú sigues teniendo el control final para decidir qué se queda y qué se descarta.

Conviene recordar que estas transformaciones trabajan sobre el texto que Word puede leer. Si has insertado en un documento Word un PDF escaneado como objeto o como imagen sin procesar, Copilot no entenderá el contenido de esa imagen a menos que previamente se haya generado texto accesible (por ejemplo, pasando el PDF por OCR y pegando el resultado como texto en el documento).

Chatear con Copilot sobre el documento

Otra característica potente de Copilot en Word es el panel de chat, accesible desde la pestaña Inicio de la cinta. Al abrirlo puedes formular preguntas sobre el documento, pedir resúmenes, aclaraciones, ideas complementarias o incluso solicitar tablas y listas que luego podrás insertar en el texto.

Cuando le pides a Copilot que resuma el documento o que responda cuestiones específicas, el sistema incluye referencias con citas a las partes del texto de donde ha sacado la información. Esto es especialmente útil en documentos largos o técnicos, porque sabes exactamente en qué párrafos se ha basado.

El chat no se limita a una sola interacción; puedes plantear conversaciones de ida y vuelta, refinando la respuesta, solicitando más detalle o pidiendo que adopte una perspectiva distinta. Además, los chats se almacenan en el historial de Copilot, lo que permite volver a conversaciones anteriores y continuar trabajando donde lo dejaste.

De nuevo, el requisito de fondo es que haya contenido textual suficiente para que Copilot pueda trabajar. Microsoft indica que, para poder generar resúmenes, el documento debe tener al menos unas 20 palabras de referencia, y que existen límites de longitud, por ejemplo, en torno a 1,5 millones de palabras o unas 300 páginas para resúmenes detallados.

Si el documento incluye gráficos, imágenes o archivos incrustados, Copilot intentará aprovechar la información textual disponible, pero no va a reconstruir información compleja que solo está en una imagen escaneada sin apoyo adicional.

Resúmenes automáticos y control del nivel de detalle

En muchos casos, sobre todo con informes extensos, Word puede mostrar un resumen automático en la parte superior del documento al abrirlo. Esta función, disponible para quienes tienen licencia de Microsoft 365 Copilot y guardan el documento en OneDrive o SharePoint, ofrece una vista rápida de los temas clave.

Si estás revisando un archivo largo que te acaban de enviar, este resumen te permite hacerse una idea general sin tener que leerlo de principio a fin. Como autor, también te sirve para comprobar si tu contenido está organizado como querías y si los mensajes principales se están reflejando bien.

El resumen incluye una opción para abrirlo en el chat y hacer preguntas personalizadas. A partir de ahí puedes pedir más detalle sobre un punto concreto, que reestructure la información o que prepare un texto para compartir con otros equipos.

La pestaña de “Discusión” permite ver un resumen de las conversaciones y comentarios del documento, de modo que no tengas que ir recorriendo anotación por anotación. Copilot muestra los temas clave comentados y sus hilos asociados, agilizando bastante la revisión colaborativa.

Asimismo, puedes consultar la sección de “Conclusiones” o cifras clave, donde se destacan números importantes del documento o ejemplos de preguntas que podrías lanzar a Copilot. Esto resulta muy práctico cuando buscas datos concretos (“ganancias por acción”, “cifras de crecimiento por región”) sin saber exactamente dónde están en el texto.

Cuando no aparece el resumen y otras limitaciones

No siempre verás un resumen automático al abrir un documento. Si el archivo no está guardado en OneDrive o SharePoint, o no tienes la licencia adecuada, Word mostrará una opción para generar manualmente un resumen en lugar de mostrarlo directamente en la parte superior.

Contenido exclusivo - Clic Aquí  OpenAI acelera GPT-5.2 para responder al empuje de Google Gemini 3

Si aun así no aparece nada, siempre puedes abrir el panel de Copilot desde la cinta y escribir una petición tipo “resumir este documento”. Copilot analizará el texto y ofrecerá un resumen con un apartado de referencias para revisar las citas de origen.

Microsoft indica algunas limitaciones actuales: por ejemplo, la necesidad de un mínimo de contenido para que tenga sentido generar un resumen, el límite aproximado de extensión para resúmenes detallados y el hecho de que, aunque Copilot tenga en cuenta todo el documento, no siempre proporciona citas a contenido muy avanzado dentro del texto.

En cualquier caso, estos resúmenes siguen dependiendo de que el documento contenga texto legible por el sistema. Un archivo adjunto como imagen o un PDF escaneado insertado sin OCR no será analizable en profundidad. Para esos casos, de nuevo, la pauta es pasar antes por una herramienta de reconocimiento óptico.

Microsoft Sustainability Manager

Análisis de documentos en Microsoft Sustainability Manager

Otro escenario donde se ve claramente cómo Copilot trabaja con documentos es el análisis de documentos en Microsoft Sustainability Manager. Esta funcionalidad permite cargar entre uno y cinco documentos relacionados con ESG (medioambiente, social y gobernanza) y luego hacer preguntas a Copilot sobre su contenido.

El flujo es sencillo: desde la sección de Análisis eliges “Análisis de documentos (versión preliminar)”, cargas los archivos deseados y estos se almacenan de forma segura en Dataverse. El sistema entra en una fase de procesamiento que puede tardar hasta unos 30 minutos; una vez lista, recibes una notificación indicando que puedes empezar a interrogar al modelo.

Después seleccionas qué documentos quieres usar como referencia (hasta cinco simultáneamente), abres el panel de Copilot y formulas tus preguntas. Copilot analiza solo los documentos marcados y busca la respuesta más relevante en función de esas fuentes.

Un ejemplo típico es subir una guía técnica en PDF, por ejemplo sobre cálculo de emisiones de alcance 3, y preguntar cosas como “qué son las emisiones de alcance 3 y por qué son importantes”, “qué métodos propone la guía para calcularlas” o “qué rol juega una entidad concreta en el desarrollo del documento”. Copilot responde referenciando las secciones pertinentes de los archivos cargados.

De nuevo, el punto clave es que estos documentos, aunque estén en PDF, deben ser legibles a nivel de texto. Si se trata de PDFs escaneados sin capa de texto, será necesario que el proceso de ingestión aplique OCR internamente o que se suban versiones ya procesadas. Sin esa capa, el análisis semántico que hace Copilot no puede funcionar correctamente.

Ideas de uso, privacidad y fiabilidad de Copilot

Microsoft ofrece numerosas ideas para experimentar con Copilot en Word: generar artículos internos sobre bienestar, crear planes de negocio para servicios nuevos, escribir planes de marketing o redactar cartas de presentación. Igualmente, puedes solicitar listas de recetas, ejemplos de formatos de tabla o incluso pequeñas piezas creativas como haikus.

Sin embargo, la compañía insiste en que, al basarse en modelos GPT de OpenAI, Copilot puede producir resultados inesperados o imprecisos. Es importante revisar el contenido, validar datos sensibles y tener en cuenta que peticiones similares pueden generar textos muy parecidos entre usuarios diferentes.

En cuanto a la privacidad y al permiso social, Copilot se apoya en el marco de seguridad, cumplimiento y protección de datos de Microsoft 365. Los documentos se respetan según los permisos de la organización y los chats se guardan como parte de la experiencia, para que puedas retomarlos más tarde, siempre dentro de los límites y políticas de tu tenant.

Microsoft anima activamente a los usuarios a enviar comentarios usando los botones de pulgar hacia arriba o hacia abajo en las respuestas de Copilot. Estas valoraciones ayudan a afinar la calidad de las respuestas y a mejorar la experiencia en productos como Word, Sustainability Manager y el propio Copilot Studio.

En cuanto a limitaciones generales, Microsoft detalla que algunas funciones solo están disponibles con ciertas licencias, que la longitud de los documentos influye en la calidad de los resúmenes y que, aunque los modelos son potentes, no sustituyen por completo la revisión humana, sobre todo en contextos legales, financieros o de cumplimiento normativo.

Visto todo lo anterior, la clave para trabajar con Copilot y documentos escaneados está en aceptar que el modelo no “ve” mágicamente el texto dentro de una imagen: necesitas integrar OCR (por ejemplo, con Azure AI Document Intelligence), generar una capa de texto fiable y, a partir de ahí, aprovechar todas las capacidades de Copilot en Studio, Word y Sustainability Manager para resumir, reescribir, extraer datos y responder preguntas complejas de forma rápida y consistente.

Microsoft Lens Cancelado
Artículo relacionado:
Microsoft Lens se despide de iOS y Android y cede el testigo a OneDrive