OpenRefine

OpenRefine
Modifica el valor a Wikidata
Modifica el valor a Wikidata
Tipusprogramari lliure, aplicació i eina de Wikidata Modifica el valor a Wikidata
Versió estable
3.7.9 (10 febrer 2024) Modifica el valor a Wikidata
Llicènciallicència BSD Modifica el valor a Wikidata
Disponible en
Característiques tècniques
Sistema operatiuMicrosoft Windows, macOS i Linux Modifica el valor a Wikidata
Escrit enJava i JavaScript Modifica el valor a Wikidata
Format de fitxer d'escriptura
tab-separated values (en) Tradueix, valors separats per comes, Office Open XML Spreadsheet Document, ECMA-376 1st Edition (en) Tradueix, RDF/XML, formats MARC, JSON i Notation3 (en) Tradueix Modifica el valor a Wikidata
Equip
Desenvolupador(s)Google, Metaweb i Antonin Delpeuch Modifica el valor a Wikidata
Fonts de codi 
Codi fontCodi font Modifica el valor a Wikidata

Premis
  • (2022) Wikimedia Coolest Tool Award (en) Tradueix
  • (2019) Premi WikidataCon 2019 Modifica el valor a Wikidata
Més informació
Lloc webopenrefine.org (anglès) Modifica el valor a Wikidata
BlogBlog oficial Modifica el valor a Wikidata
Stack ExchangeEtiqueta Modifica el valor a Wikidata
Seguiment d'errorsSeguiment d'errors Modifica el valor a Wikidata
Guia d'usuariGuia d'usuari Modifica el valor a Wikidata

Twitter (X): OpenRefine Mastodon: OpenRefine@fosstodon.org GitHub: OpenRefine Modifica el valor a Wikidata

OpenRefine és una aplicació web d'escriptori de codi obert per a la neteja de dades i la transformació a altres formats, una activitat coneguda en anglès com a data wrangling.[1] És similar a les aplicacions de full de càlcul i pot gestionar formats de fitxer com ara CSV, tot i comportar-se més com una base de dades.

OpenRefine va començar com a Freebase Gridworks, desenvolupat per Metaweb i està disponible com a codi obert des del gener de 2010.[2] El 16 de juliol de 2010, Google va adquirir Metaweb,[3] els creadors de Freebase, i el 10 de novembre de 2010 va canviar el nom de Freebase Gridwords a Google Refine, llançant la versió 2.0.[4] El 2 d'octubre de 2012, l'autor original David Huynh va anunciar que Google deixaria de donar suport actiu a Google Refine.[5][6][7] Des de llavors, la base de codi ha estat en transició a un projecte de codi obert anomenat OpenRefine.[8]

Funciona en files de dades que tenen cel·les en columnes, de manera similar a la manera en què funcionen les taules de bases de dades relacionals. Els projectes OpenRefine consisteixen en una taula, les files de la qual es poden filtrar mitjançant facetes que defineixen criteris (per exemple, mostrant files on una columna determinada no està buida).

A diferència dels fulls de càlcul, la majoria de les operacions a OpenRefine es fan en totes les files visibles, per exemple, la transformació de totes les cel·les de totes les files sota una columna,[9] o la creació d'una nova columna basada en dades existents. Les accions realitzades en un conjunt de dades s'emmagatzemen al projecte i es poden reproduir en altres conjunts de dades. Les fórmules no s'emmagatzemen a les cel·les, sinó que s'utilitzen per a transformar les dades. La transformació només es fa una vegada.[10] Les expressions de fórmules es poden escriure en General Refine Expression Language (GREL),[11] en Jython i en Clojure.[12]

Usos

  • Neteja de dades desordenades: per exemple, si es treballa amb un fitxer de text amb algunes dades semiestructurades, es pot editar mitjançant transformacions, facetes i agrupacions per fer que les dades estiguin ben estructurades.[13]
  • Transformació de dades: conversió de valors a altres formats, normalització i desnormalització.
  • Anàlisi de dades de llocs web: OpenRefine té una funció d'obtenció d'URL, un analitzador HTML jsoup i un motor DOM.[14]
  • Afegir dades al conjunt de dades obtenint-les dels serveis web (és a dir, retornant JSON):[15] per exemple, es pot utilitzar per a geocodificar adreces a coordenades geogràfiques.[16]
  • Alineació a Wikidata:[17] això implica la reconciliació, és a dir, mapejar els valors de les cadenes de les cel·les amb les entitats de Wikidata.[18]

Formats compatibles

La importació és compatible amb els formats següents:[19]

  • TSV, CSV
  • Fitxer de text amb separadors personalitzats o columnes dividides per amplada fixa
  • XML
  • RDF (formats de serialització RDF/XML i Notation3)
  • JSON
  • Fulls de càlcul de Google[20]

Referències

  1. «openrefine.github.com». openrefine.org.
  2. «Google Code Archive - Long-term storage for Google Code Project Hosting.». code.google.com.[Enllaç no actiu]
  3. «Google Official Blog: Deeper understanding with Metaweb». [Consulta: 18 abril 2012].
  4. «Google Opensource blog: Announcing Google Refine 2.0, a power tool for data wranglers». [Consulta: 18 abril 2012].
  5. «Google Groups». groups.google.com.[Enllaç no actiu]
  6. «From Freebase Gridworks to Google Refine and now OpenRefine».
  7. OpenRefine Arxivat 2016-09-25 a Wayback Machine.
  8. «Google Code Archive - Long-term storage for Google Code Project Hosting.». [Consulta: 2 febrer 2023].[Enllaç no actiu]
  9. «Editing by transforming: Cell Editing wiki page from Refine documentation». [Consulta: 18 abril 2012].[Enllaç no actiu]
  10. «Comparison with spreadsheet software: Cell Editing wiki page in Refine documentation». [Consulta: 18 abril 2012].[Enllaç no actiu]
  11. General Refine expression language OpenRefine/OpenRefine Wiki GitHub.
  12. «Expressions: Refine documentation». [Consulta: 18 abril 2012].[Enllaç no actiu]
  13. «Screencast: Google Refine 2.0 - Introduction (1 of 3) - editing government data». YouTube. [Consulta: 18 abril 2012].
  14. «Stripping HTML: Refine documentation wiki page». [Consulta: 18 abril 2012].[Enllaç no actiu]
  15. «FetchingURLsFromWebServices wiki page: Refine documentation». [Consulta: 18 abril 2012].[Enllaç no actiu]
  16. «Screencast: Google Refine 2.0 - Data Augmentation (3 of 3) - using Openstreetmap Nominatim for geocoding and Freebase for augmentation». YouTube. [Consulta: 18 abril 2012].
  17. «Schema Alignment: Refine documentation wiki page». [Consulta: 18 abril 2012].[Enllaç no actiu]
  18. «OpenRefine documentation: Reconciliation». GitHub. [Consulta: 12 març 2017].
  19. «Importers: Refine documentation wiki page». [Consulta: 18 abril 2012].[Enllaç no actiu]
  20. «Changelog for 2.5». [Consulta: 18 abril 2012].[Enllaç no actiu]