[MÚSICA] A maior parte do problema do mundo real utilizam métodos de aprendizado supervisionado. E no método supervisionado temos as variáveis de entrada, que são denominadas X e as variáveis de saÃda, o Y. Com isso, conseguimos criar algoritmos que vai mapear a variável de entrada para prever a saÃda. O objetivo nesse caso é criar uma função de mapeamento tão boa que será possÃvel prever a variável de saÃda quando conhecermos nossa variável de entrada. As técnicas de aprendizado supervisionados podem ser agrupados dois tipos, regressão e classificação. Vamos falar agora sobre a regressão. Os algoritmos de regressão são utilizados se houver uma relação entre a variável de entrada e a variável de saÃda. Esses algoritmos são utilizados para previsão de variáveis numéricas contÃnuas, como previsão do tempo, tendência de mercado, preço de uma ação, saldo bancário, valor de uma compra e muitos outros. Podemos citar como exemplos alguns algoritmos de regressão populares que são muito utilizados, como regressão linear, árvore de regressão, regressão não linear, polinomial, linear bayesiana, ridge, lasso e muitos outros muito utilizados no mercado. Vamos falar pouco sobre como funciona uma regressão linear, mas antes de entrarmos regressão linear vamos entender o conceito da correlação. A correlação entre duas variáveis indica que o valor de uma variável dependente Y altera de acordo com a variável independente X. Vamos utilizar como exemplo banco que quer prever o gasto no cartão de crédito segmento de clientes. O cientista de dados vai analisar duas variáveis, o gasto no cartão que será a variável que queremos prever, ou seja, nossa variável dependente que será representada por Y. Dentre todas as variáveis disponÃveis no banco de dados vamos selecionar a variável Salário, que será a nossa variável explicativa, representada por X. Selecionamos a variável Salário, porque ao analisar o contexto de negócio podemos assumir que quanto maior a renda maior será o gasto, por isso é importante conhecer bem o negócio. Então vamos gerar gráfico de dispersão que vai representar a relação entre essas variáveis. Nesse gráfico podemos notar que conforme aumentamos a variável salário, também aumentamos os valores de gasto no cartão e podemos observar que é uma tendência que vai crescendo conforme o salário vai aumentando, ou seja, se utilizarmos essa tendência podemos prever qual será o valor de gasto no cartão quando o cliente apresentar uma determinada renda. Nesse caso, estamos analisando de uma forma totalmente visual, porém essa correlação pode ser representada pelo coeficiente de correlação de Pearson, que é uma métrica de correlação que indica a força e a direção do relacionamento linear entre duas variáveis contÃnuas. O valor da correlação pode variar entre -1 e 1 e pode ser representado da seguinte forma. O valor de -1 indica uma correlação muito forte negativa, ou seja, a relação linear é perfeita e por ser negativo isso indica que a medida que uma variável aumenta, a outra tende a diminuir. Por exemplo, quando o preço de smartphone aumenta, as vendas tendem a diminuir. O valor zero indica que não existe nenhuma correlação entre as variáveis, ou seja, podemos alterar os valores a qualquer escala que a outra variável não será afetada. Já o valor de 1 indica uma correlação muito forte e positiva. Ou seja, também apresenta relacionamento perfeito entre as variáveis. E a direção indica que quando aumentamos o valor de uma variável a outra tende a subir também. Como podemos ver nos gráficos, quanto mais próximos os gráficos estão da reta, maior será o valor da correlação. Note que no primeiro temos uma correlação linear positiva muito forte, no segundo essa correlação é negativa e conforme os pontos vão ficando mais distantes da reta, menor será o valor da correlação. No terceiro gráfico não conseguimos observar nenhum padrão de subida ou descida, então não há correlação. No mundo real uma correlação perfeita é muito difÃcil de se encontrar, então podemos analisar a força da correlação com base uma escala e quanto mais próximo de 1, mais forte é a correlação. É possÃvel calcular a correlação de forma bem simples utilizando softwares estatÃsticos ou também utilizando a função CORREL no Excel, basta informar as duas variáveis que queremos testar a correlação. [MÚSICA]