Se você está com pressa, o resultado do projeto está logo abaixo. Explore o projeto e veja como está o mercado de Inteligência Artificial de acordo com a base do Kaggle:
Caso você queria saber mais
Cada vez mais presente é o tema “Inteligência Artificial” no mercado de trabalho na Tecnologia da Informação(TI) – eu que o diga, pois sou aluno de Estatística e de TI.
Nesse contexto, buscando aprimorar minhas habilidades como Power BI, fiz uma busca de dados para esse projeto que tivessem relevância com esse tema.
As informações sobre os dados utilizados estão no final do texto categorizados como Fonte de dados e Base de Dados Adicionais e por minha preferência preferi focar nos desafios, aprendizados e perspectivas futuras para esse projeto.
Desafio(s):
- Por falta de recursos possuo apenas uma máquina Linux, mas por ter uma predileção pela área de dados, precisava aprimorar habilidades em Power BI, contudo é um software da Microsoft incompatível com Linux.
- Precisava aplicar o que estava aprendendo o mais rápido possível
- Não tinha ideia por onde começar
Aprendizado(s):
- Quando temos uma máquina limitada precisamos achar soluções que sejam compatíveis com nossa situação, então configurei uma máquina virtual Windows 10 para utilizar o Power BI.
- Por causa da limitação de armazenamento, tive que optar pela Obtenção dos dados no software por meio de APIs e links diretos para as bases de dados.
- Quando temos opções limitadas, temos que dividir para conquistar, então usei o Google Colab – com Python, usando Pandas – para fazer parte do ETL(Extract-Transform-Load) e o restante do ETL foi feito no próprio Power Query. Além disso, utilizar a linguagem M, ajuda bastante a otimizar a carga para começar a montar os visuais.
- A base de dados contem bastante dados categóricos e poucos dados numéricos, contudo foi importante analisar a distribuição desses dados numéricos e escolher a mediana como parâmetros para algumas medidas, pois essas apresentava um distribuição assimétrica dando uma interpretação errada de valor médio.
- Utilizar Indicadores e seletores do Power BI para otimizar o espaço, foi muito interessante. Deu um trabalho, mas deu certo.
- As vezes, queremos mostrar tanto serviço, que temos vontade de mostrar todas a informações que estão a disposição, mas ser objetivo é mais importante.
Perspectiva(s):
- Devido a falta de armazenamento e uso de um sistema operacional diferente do nativo para Power BI, esto buscando soluções para automatizar o ETL do meu projeto, pois a base é carregada para o Google Drive e descompactada e pré-tratada no Google Colab. Então, encontrar um solução de automatização em Nuvem será o próximo passo.
- E sim, dar uma repaginada no meu site para as coisas fiquem mais organizadas por aqui.
Por ter uma predileção por Engenharia de Dados encontrar soluções para automatizar esse projeto informativo, vai ser bem interessante devido a gama de opções de mercado que existem a nossa disposição.
No mais, espero que eu tenha sido direto e inspirado você a continuar curtindo análise de dados, pois eu estou. Qualquer dúvida ou sugestão, pode falar comigo no Lindekin.
Fonte do dados:
Bases de Dados Adicionais: