Importa datos de PDF a Excel mediante Power Query

A tarefa de transferir datos dunha folla de cálculo nun ficheiro PDF a unha folla de Microsoft Excel é sempre "divertida". Especialmente se non tes un software de recoñecemento caro como FineReader ou algo así. A copia directa normalmente non leva a nada bo, porque. despois de pegar os datos copiados na folla, o máis probable é que se "manteñan" nunha columna. Polo tanto, terán que separalos minuciosamente mediante unha ferramenta Texto por columnas dende a pestana Data (Datos: texto a columnas).

E por suposto, a copia só é posible para aqueles ficheiros PDF nos que hai unha capa de texto, é dicir, cun documento que se acaba de escanear de papel a PDF, isto non funcionará en principio.

Pero non é tan triste, a verdade 🙂

Se tes Office 2013 ou 2016, nun par de minutos, sen programas adicionais, é moi posible transferir datos de PDF a Microsoft Excel. E Word e Power Query axudaranos nisto.

Por exemplo, tomemos este informe en PDF cunha chea de textos, fórmulas e táboas do sitio web da Comisión Económica para Europa:

Importa datos de PDF a Excel mediante Power Query

... e tenta tiralo en Excel, diga a primeira táboa:

Importa datos de PDF a Excel mediante Power Query

Imos!

Paso 1. Abre PDF en Word

Por algún motivo, pouca xente o sabe, pero desde 2013 Microsoft Word aprendeu a abrir e recoñecer ficheiros PDF (incluso os escaneados, é dicir, sen capa de texto!). Isto faise dun xeito completamente estándar: abra Word, prema Ficheiro - Abrir (Arquivo — Abrir) e especifique o formato PDF na lista despregable da esquina inferior dereita da xanela.

A continuación, seleccione o ficheiro PDF que necesitamos e prema aberto (Aberto). Word dinos que vai executar OCR neste documento para enviar texto:

Importa datos de PDF a Excel mediante Power Query

Estamos de acordo e nuns segundos veremos o noso PDF aberto para editar xa en Word:

Importa datos de PDF a Excel mediante Power Query

Por suposto, o deseño, os estilos, as fontes, as cabeceiras e os pés de páxina, etc., desaparecerán parcialmente do documento, pero isto non é importante para nós: só necesitamos datos das táboas. En principio, nesta fase, xa é tentador simplemente copiar a táboa do documento recoñecido en Word e simplemente pegala en Excel. Ás veces funciona, pero máis a miúdo leva a todo tipo de distorsións de datos; por exemplo, os números poden converterse en datas ou permanecer en texto, como no noso caso, porque. PDF usa non separadores:

Importa datos de PDF a Excel mediante Power Query

Así que non imos cortar esquinas, senón que todo sexa un pouco máis complicado, pero correcto.

Paso 2: Garda o documento como páxina web

Para despois cargar os datos recibidos en Excel (a través de Power Query), o noso documento en Word debe gardarse no formato de páxina web; este formato é, neste caso, unha especie de denominador común entre Word e Excel.

Para iso, vai ao menú Ficheiro - Gardar como (Ficheiro — Gardar como) ou prema a tecla F12 no teclado e na xanela que se abre, seleccione o tipo de ficheiro Páxina web nun ficheiro (Páxina web — Arquivo único):

Importa datos de PDF a Excel mediante Power Query

Despois de gardar, deberías obter un ficheiro coa extensión mhtml (se ves extensións de ficheiro no Explorador).

Fase 3. Carga do ficheiro a Excel mediante Power Query

Podes abrir o ficheiro MHTML creado en Excel directamente, pero despois conseguiremos, en primeiro lugar, todo o contido do PDF á vez, xunto con texto e unha morea de táboas innecesarias e, en segundo lugar, volveremos perder datos debido a un erro incorrecto. separadores. Polo tanto, faremos a importación a Excel a través do complemento Power Query. Este é un complemento totalmente gratuíto co que podes cargar datos a Excel desde case calquera fonte (arquivos, cartafoles, bases de datos, sistemas ERP) e despois transformar os datos recibidos de todas as formas posibles, dándolles a forma desexada.

Se tes Excel 2010-2013, podes descargar Power Query desde o sitio web oficial de Microsoft; despois da instalación verás unha pestana Consulta de enerxía. Se tes Excel 2016 ou máis recente, non necesitas descargar nada: toda a funcionalidade xa está integrada en Excel por defecto e está situada na pestana Data (Data) en grupo Descargar e converter (Obter e transformar).

Entón imos calquera á pestana Data, ou na pestana Consulta de enerxía e escolle un equipo Para obter datos or Crear consulta - Desde o ficheiro - Desde XML. Para facer visibles non só os ficheiros XML, cambie os filtros da lista despregable na esquina inferior dereita da xanela a Todos os ficheiros (Todos os ficheiros) e especifique o noso ficheiro MHTML:

Importa datos de PDF a Excel mediante Power Query

Teña en conta que a importación non se completará correctamente, porque. Power Query espera XML de nós, pero en realidade temos un formato HTML. Polo tanto, na seguinte xanela que aparece, terás que facer clic co botón dereito sobre o ficheiro incomprensible para Power Query e especificar o seu formato:

Importa datos de PDF a Excel mediante Power Query

Despois diso, o ficheiro recoñecerase correctamente e veremos unha lista de todas as táboas que contén:

Importa datos de PDF a Excel mediante Power Query

Podes ver o contido das táboas premendo co botón esquerdo do rato no fondo branco (non na palabra Táboa!) das celas da columna Datos.

Cando se defina a táboa desexada, prema na palabra verde Táboa - e "cae" no seu contido:

Importa datos de PDF a Excel mediante Power Query

Queda por facer algúns pasos sinxelos para "peitear" o seu contido, a saber:

  1. eliminar columnas innecesarias (faga clic co botón dereito na cabeceira da columna - Eliminar)
  2. substituír os puntos por comas (seleccione columnas, prema co botón dereito - Substitución de valores)
  3. eliminar os signos iguais da cabeceira (seleccione columnas, prema co botón dereito - Substitución de valores)
  4. eliminar a liña superior (casa – Eliminar liñas – Eliminar liñas superiores)
  5. eliminar liñas en branco (Inicio – Eliminar liñas – Eliminar liñas baleiras)
  6. subir a primeira fila á cabeceira da táboa (Inicio: use a primeira liña como títulos)
  7. filtrar datos innecesarios mediante un filtro

Cando a táboa se leva á súa forma normal, pódese descargar na folla co comando pechar e descargar (Pechar e cargar) on A principal ficha. E conseguiremos tal beleza coa que xa podemos traballar:

Importa datos de PDF a Excel mediante Power Query

  • Transformar unha columna nunha táboa con Power Query
  • Dividir texto adhesivo en columnas

Deixe unha resposta