A limpeza e a etiquetagem de dados, conhecida pelos termos em inglês data cleaning e data labeling, são movimentos promissores dentro da Inteligência Artificial - IA. A prova disso é que, recentemente, startups do exterior que fazem a organização e limpeza de dados através de processos automatizados e tecnológicos receberam investimentos significativos. No Brasil, startups dedicadas a essa etapa, ainda não estão nos holofotes dos fundos de investimentos. Mas deveriam!
Para entender a importância dessa tecnologia, é só pensar no exemplo a seguir: se os dados são como o novo petróleo, em termos de valores, para que se possa produzir uma “gasolina premium”, é necessário o processo de refino. Ou seja, assim como no caso dos combustíveis, existe uma cadeia produtiva que é um processo de transformação do petróleo bruto em gasolina. Aplicando essa mesma lógica ao dado, os dados brutos são colhidos internamente e externamente e a utilização desses dados para fins de inteligência artificial prescinde de uma etapa de transformação e “limpagem”. É aí que entram os processos de data cleaning e data labeling.
Esses são processos necessários quando as empresas querem, por exemplo, fazer predições ou obter insights com os dados produzidos internamente ou externamente. Para isso, é preciso ter dados limpos e estruturados sobre o próprio negócio.
Aqui no Brasil este é um setor que ainda não tem a atenção dos investidores, porém algumas startups tomaram a frente. É o caso da Taxcel, que possui uma tecnologia para data labeling e data cleaning (“tratamento" nos dados) para fins de analytics e IA para gestores tributários. "Somos uma startup que surgiu para acelerar a transformação digital dos departamentos tributários e fiscais das empresas e está mais que comprovado que as nossas soluções vêm fazendo a diferença no mercado”, diz Pedro Lima, CEO e fundador da empresa.
É com o trabalho de criar soluções de tecnologia tributária por assinatura para empresas do segmento de enterprise que a startup conseguiu otimizar processos e reduzir custos operacionais através de robotização e data analytics.