Zanran, un motore di ricerca per i numeri


Zanran helps you to find ‘semi-structured’ data on the web. This is the numerical data that people have presented as graphs and tables and charts. For example, the data could be a graph in a PDF report, or a table in an Excel spreadsheet, or a barchart shown as an image in an HTML page. This huge amount of information can be difficult to find using conventional search engines, which are focused primarily on finding text rather than graphs, tables and bar charts.

Put more simply: Zanran is Google for data.

Uno strumento per ricercatori e analisti, o forse un po’ per tutti: un motore di ricerca dedicato ai numeri, orientato a trovare tabelle e grafici anzichè porzioni di testo.

Per il momento funziona con documenti HTML, Excel e Pdf, mentre Word e PowerPoint stanno per arrivare (e direi che non si tratta di una mancanza da poco).

L’ho provato superficialmente ma mi sembra efficace.

Come funziona:

Zanran doesn’t work by spotting wording in the text and looking for images – it’s the other way round. The system examines millions of images and decides for each one whether it’s a graph, chart or table – whether it has numerical content.

The core technology is patented computer vision algorithms that decide whether an image is numerical – and they’re accurate (about 98%). But the huge majority of images on the internet are not graphs etc. So even though the accuracy is high, you will still get some non-numerical images.

In comparison, looking for tables is relatively simple. Once we’ve found a table we then have to decide whether it’s essentially numerical – and we have algorithms for that.

Our programmes then take suitable text near that image and build the search engine around that text. At present, we extract tables and images from HTML, PDF and Excel files and will be processing PowerPoint and Word documents in the near future.

It is worth also mentioning that mapping the numerical content on the web would not have been possible without the development of open-source software and the access to vast processing power and cheap storage in cloud computing.

Zanran has crawled most of the internet. But if you think there is a good site we’ve missed, please let us know.

Zanran

Brave lancia il suo motore di ricerca: privacy sempre al primo posto
Brave lancia il suo motore di ricerca: privacy sempre al primo posto
DuckDuckGo e la vittoria della privacy: nel 2020 +62% di ricerche
DuckDuckGo e la vittoria della privacy: nel 2020 +62% di ricerche
WhatsApp, 300 mila numeri su Google: problema risolto
WhatsApp, 300 mila numeri su Google: problema risolto
Google tornerà in Cina censurando i risultati di ricerca sgraditi al governo
Google tornerà in Cina censurando i risultati di ricerca sgraditi al governo
Hacklog: Volume 2, il corso di hacking più seguito in Italia ritorna su IndieGogo
Hacklog: Volume 2, il corso di hacking più seguito in Italia ritorna su IndieGogo
Il motore di ricerca per i film che non ci vengono in mente
Il motore di ricerca per i film che non ci vengono in mente
Google, per le ricerche sul web basta un'emoji
Google, per le ricerche sul web basta un'emoji