Backpropagation e a operação lógica XOR [1/2]

4 de maio, 2026

Uma rede neural é composta por diversas camadas, sendo a primeira a camada de entrada, que insere os dados na rede. Compondo a maior parte, temos as camadas ocultas, que contém neurônios que processam os dados de acordo com seus parâmetros e enviam seus resultados para os neurônios da camada seguinte. A última camada, chamada de camada de saída, é responsável por conter os neurônios que resultam em valores condizentes ao objetivo da predição.

Durante o processo de treinamento, a rede precisa ajustar os parâmetros dos neurônios para alcançar uma série de resultados, fazendo-se necessário uma função que quantifique o erro cometido pela rede, e um método que determine como cada neurônio deve modificar seus parâmetros para que este erro diminua.

De acordo com o tipo de predição são utilizadas diferentes

Funções de Erro

, em que no caso de valores escalares, temos por exemplo a função

Mean Squared Error

(MSE), apresentada na Equação 1. Podemos interpretar esta função como uma forma de calcular o erro médio de

n

instâncias, onde

y_i

é o resultado esperado, e

\hat{y}_i

é a saída da rede para instância

i

. Disto, também podemos extrair a expressão

(y_i-\hat{y}_i)^2

, como o erro para uma única instância

i

\frac{1}{n} \cdot \sum_{i=1}^{n}(y_i-\hat{y}_i)^2

Equação 1. Mean Squared Error

Problemas de Otimização, Derivadas e o método Gradient Descent

, vimos sobre o treinamento do Perceptron utilizando o método

Gradient Descent

, aplicando o cálculo do gradiente sobre a equação

z = x_0 \cdot w_0 + x_1 \cdot w_1 + x_2 \cdot w_2

. Neste caso, fizemos isto porque formulamos o treinamento como a minimização de

z

para o erro em que predizemos 1 ao invés de -1, e maximização para o erro de -1 ao invés de 1. Se tivéssemos mais Perceptrons, criando uma rede com mais de uma camada, não conseguiríamos utilizar o gradiente desta maneira, pois não sabemos qual a predição correta para cada neurônio, a não ser para os que estão na camada de saída.

Assim, no treinamento é utilizado o algoritmo

Backpropagation

, que aborda o treinamento como um problema de minimização da função de erro. Disto, considerando o erro para uma instância

(y-\hat{y})^2

, precisamos definir as expressões matemáticas por trás de

\hat{y}

, ou seja, o encadeamento de equações e funções de ativação dos neurônios, do começo ao fim da rede, que geram

\hat{y}

. Considerando uma rede neural como na Imagem 1, a função do erro pode ser escrita como

erro(f) = (y - f(w0_{G}, w1_{G}, w2_{G}, w0_{H}, w1_{H}))^2

, onde

f

é a expressão da rede em função dos parâmetros dos neurônios. Com isto, conseguimos aplicar o método

Gradient Descent

para minimizar esta função com o gradiente

\nabla erro

, como mostra-se no Quadro 1, em que ajustamos os parâmetros com suas respectivas derivadas parciais em relação à função do erro.

Imagem 1. Exemplo de uma rede neural com dois neurônios G e H

\begin{aligned} &w - \eta \cdot \nabla erro \\ &\begin{bmatrix} w0_{G} \\ w1_{G} \\ w2_{G} \\ w0_{H} \\ w1_{H} \end{bmatrix} - \eta \cdot \begin{bmatrix} \frac{\partial erro}{\partial w0_{G}} \\ \frac{\partial erro}{\partial w1_{G}} \\ \frac{\partial erro}{\partial w2_{G}} \\ \frac{\partial erro}{\partial w0_{H}} \\ \frac{\partial erro}{\partial w1_{H}} \end{bmatrix} \end{aligned}

Quadro 1. Método Gradient Descent para minimização da função de erro

Uma detalhe é que não podemos utilizar a função Sinal como função de ativação nos neurônios, como é feito no Perceptron. De acordo com o teorema da

diferenciabilidade

, uma função diferenciável é contínua em todos seus pontos, concluindo-se que não é possível o cálculo da derivada da função Sinal, por ela não ser contínua em

x = 0

. No gradiente

\nabla erro

, o cálculo das derivadas parciais depende da diferenciabilidade de

f(w0_{G}, w1_{G}, w2_{G}, w0_{H}, w1_{H})

, sendo necessário o uso de funções de ativação diferenciáveis. Para isto, em redes neurais temos funções como a função Tangente e a função Logística, apresentadas na Imagem 2 junto com a função Sinal.

Imagem 2. a) Função Sinal, b) Função Tangente e c) Função Logística

Observa-se que estas duas funções têm um formato em "S", e que a função Tangente tem seu resultado contido no intervalo [-1, 1], e a função logística no intervalo [0, 1]. Disto, temos que geralmente utiliza-se a função Tangente nos neurônios das camadas ocultas, e a função Logística na camada de saída. A função Tangente serve como uma substituição direta da função Sinal, considerando a semelhança entre os valores máximo e mínimo, -1 e 1, de ambas funções, e a função Logística é vista como útil para a camada de saída, por seu resultado poder ser interpretado como uma probabilidade.

Considerando a rede na Imagem 1, utilizando-se a função Tangente em

G

e a função Logística em

H

, as operações realizadas por ambos neurônios são exibidas nas Equações 2 e 3, respectivamente. Observa-se que o resultado da função de ativação de

G

é utilizado como entrada pelo neurônio

H

\begin{aligned} &z_{G}(w0_{G}, w1_{G}, w2_{G}) = x_0 \cdot w0_{G} + x_1 \cdot w1_{G} + x_2 \cdot w2_{G} \\ &g(z_{G}) = tanh(z_{G}) \end{aligned}

Equação 2. Produto escalar e função de ativação do neurônio G

\begin{aligned} &z_{H}(w0_{H}, g, w1_{H}) = x_0 \cdot w0_{H} + g(z_{G}) \cdot w1_{H} \\ &h(z_{H}) = S(z_{H}) \end{aligned}

Equação 3. Produto escalar e função de ativação do neurônio H

Disto, retomando-se a função do erro

erro(f) = (y - f(w0_{G}, w1_{G}, w2_{G}, w0_{H}, w1_{H}))^2

, dado que

f

representa a expressão da rede para

\hat{y}

, que corresponde ao resultado da função de ativação do neurônio

H

h(z_{H})

, podemos substituir

f

por

h

, tendo-se

erro(h) = (y - h)^2

. Observa-se que a partir de

erro(h)

, temos uma

composição de funções

, denotada na Equação 4, onde

erro

está em função de

h

h

em função de

z_{H}

z_{H}

em função de

g

, e

g

em função de

z_{G}

erro \circ h \circ z_{H} \circ g \circ z_{G}

Equação 4. Composição de funções a partir da função do erro

Para o cálculo de derivadas parciais de funções compostas, temos a

regra da cadeia

apresentada na Equação 5. Nela, a derivada parcial de uma função

f \circ g

em relação a

x

, onde

g

está em função de

x

, pode ser escrita como o produto das derivadas

f \rq (g(x))

g \rq (x)

. Disto, podemos entender que de acordo com a variável alvo, definimos uma sequência de funções que se conectam com a função que a contém, e realizamos o produto de suas derivadas.

\begin{gather*} &(f \circ g) \rq (x) = (f(g(x))) \rq = f \rq (g(x)) \cdot g \rq (x) \\ &ou \\ &\frac{\partial f}{\partial x} = \frac{\partial f}{\partial g} \cdot \frac{\partial g}{\partial x} \end{gather*}

Equação 5. Regra da cadeia

Considerando os parâmetros dos neurônios

H

G

, no Quadro 2 temos as fórmulas para o cálculo de suas respectivas derivadas parciais em relação à função de erro.

\begin{align} \frac{\partial erro}{\partial w0_{H}} &= \frac{\partial erro}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial w0_{H}} \\ \frac{\partial erro}{\partial w1_{H}} &= \frac{\partial erro}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial w1_{H}} \\ \frac{\partial erro}{\partial w0_{G}} &= \frac{\partial erro}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial g} \cdot \frac{\partial g}{\partial z_{G}} \cdot \frac{\partial z_{G}}{\partial w0_{G}} \\ \frac{\partial erro}{\partial w1_{G}} &= \frac{\partial erro}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial g} \cdot \frac{\partial g}{\partial z_{G}} \cdot \frac{\partial z_{G}}{\partial w1_{G}} \\ \frac{\partial erro}{\partial w2_{G}} &= \frac{\partial erro}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial g} \cdot \frac{\partial g}{\partial z_{G}} \cdot \frac{\partial z_{G}}{\partial w2_{G}} \end{align}

Quadro 2. Fórmulas das derivadas parciais de H e G na Imagem 1

Tendo em vista a função composta

erro \circ h \circ z_{H} \circ g \circ z_{G}

, para as derivadas parciais do neurônio

H

\frac{\partial erro}{\partial w0_{H}}

\frac{\partial erro}{\partial w1_{H}}

, aplicamos a regra da cadeia até a função

z_{H}

. Já para as derivadas de

G

\frac{\partial erro}{\partial w0_{G}}

\frac{\partial erro}{\partial w1_{G}}

\frac{\partial erro}{\partial w2_{G}}

, continuamos através de

z_{H} \circ g

, até alcançarmos a função

z_{G}

. Percebe-se que a diferença entre as derivadas parciais dos parâmetros de um neurônio é o último termo, em que fazemos a derivada do produto escalar em relação a um dos parâmetros, e que quanto mais profundo o neurônio está da última camada até a primeira, as derivadas levam em conta termos que na prática já terão sido calculados pelos neurônios anteriores, acrescentando apenas o cálculo das suas derivadas específicas, como

\frac{\partial z_{H}}{\partial g}

\frac{\partial g}{\partial z_{G}}

G

No Quadro 3, resolvemos os termos que compõem as derivadas parciais.

\begin{aligned} &\frac{\partial erro}{\partial h} = \frac{\partial (y - h)^2}{\partial h} \iff \frac{\partial \frac{(y - h)^2}{2}}{\partial h}=\frac{1}{2}2(y-h)(0 - 1) =(y-h)\cdot-1 \\ &\frac{\partial h}{\partial z_{H}} = \frac{\partial S(z_{H})}{\partial z_{H}} = S(z_{H})(1 - S(z_{H})) \\ &\frac{\partial g}{\partial z_{G}} = \frac{\partial \ \tanh(z_{G})}{\partial z_{G}} = 1 - tanh^2(z_{G}) \\ &\frac{\partial z_{H}}{\partial w0_{H}} = x_0 = 1 \ \ \ \ \frac{\partial z_{H}}{\partial w1_{H}} = g \ \ \ \ \frac{\partial z_{H}}{\partial g} = w1_{H} \\ &\frac{\partial z_{G}}{\partial w0_{G}} = x_0 = 1 \ \ \ \ \frac{\partial z_{G}}{\partial w1_{G}} = x_1 \ \ \ \ \frac{\partial z_{H}}{\partial w2_{H}} = x_2 \end{aligned}

Quadro 3. Resolução dos termos das derivadas parciais no Quadro 2

Para resolução das derivadas das funções

z_{H}

z_{G}

, a não ser pela variável em questão, consideramos as outras como constantes, tendo como resultado o termo que é multiplicado pela variável alvo. No caso das derivadas das funções de ativação

S(z_{H})

tanh(z_{G})

, temos a propriedade de que podemos escrevê-las em função das próprias funções

S

tanh

, não sendo necessário desenvolvermos as derivadas a partir das suas equações mostradas na Imagem 2. Por fim, para resolvermos a derivada

\frac{\partial erro}{\partial h}

, primeiro dividimos a equação do erro por 2 com o intuito de simplificar a expressão final, o que não terá um efeito significativo no processo de ajuste dos parâmetros. Após isto, resolvemos a derivada aplicando a regra da multiplicação por uma constante e a regra da cadeia em

\frac{\partial (y - h)^2}{\partial h}

, onde identificamos uma função composta

f \circ g

, tendo-se

f(g) = g^2

g(x) = c - x

, cujo desenvolvimento segue como

(f(g(x))) \rq = f \rq (g) \cdot g \rq (x) = 2 \cdot g \cdot (0 - 1)

, em que aplicamos a regra da potência e calculamos uma derivada simples.

Com isto, no Quadro 4 temos os resultados das derivadas parciais dos neurônios

H

G

\begin{align} \frac{\partial erro}{\partial w0_{H}} &= -(y−h) \cdot S(z_{H})(1−S(z_{H})) \cdot 1 \\ \frac{\partial erro}{\partial w1_{H}} &= -(y−h) \cdot S(z_{H})(1−S(z_{H})) \cdot g \\ \frac{\partial erro}{\partial w0_{G}} &= -(y−h) \cdot S(z_{H})(1−S(z_{H})) \cdot w1_{H} \cdot 1−tanh^2(z_{G}) \cdot 1 \\ \frac{\partial erro}{\partial w1_{G}} &= -(y−h) \cdot S(z_{H})(1−S(z_{H})) \cdot w1_{H} \cdot 1−tanh^2(z_{G}) \cdot x_1 \\ \frac{\partial erro}{\partial w2_{G}} &= -(y−h) \cdot S(z_{H})(1−S(z_{H})) \cdot w1_{H} \cdot 1−tanh^2(z_{G}) \cdot x_2 \end{align}

Quadro 4. Derivadas parciais dos neurônios H e G na Imagem 1

Conexões com mais de um neurônio

Uma rede neural geralmente terá mais de um neurônio por camada, ocorrendo conexões em que um neurônio envia seu resultado para

n

neurônios, e conexões onde

n

neurônios enviam seus resultados para um. Na Imagem 3 ilustra-se uma rede com um neurônio

F

que envia seu resultado para os neurônios

G

H

, e um neurônio

I

que recebe como entrada o resultado de ambos.

Imagem 3. Exemplo de uma rede com conexões com mais de um neurônio

Para o cálculo do gradiente da função de erro desta rede, consideramos a função composta na Equação 6. Disto, no Quadro 5 temos as fórmulas das derivadas parciais de

G

H

, que se diferenciam na derivada

\partial z_{I}

, onde cada um utiliza a sua função de ativação. Encontra-se as expressões de

z_{I}

z_{G}

z_{H}

na Equação 7.

erro \circ i \circ z_{I}(g \circ z_{G} \circ f \circ z_{F}, h \circ z_{H} \circ f \circ z_{F})

Equação 6. Função composta do erro da rede na Imagem 3

\begin{align} \frac{\partial erro}{\partial w0_{G}} &= \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial g} \cdot \frac{\partial g}{\partial z_{G}} \cdot \frac{\partial z_{G}}{\partial w0_{G}} \\ \frac{\partial erro}{\partial w1_{G}} &= \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial g} \cdot \frac{\partial g}{\partial z_{G}} \cdot \frac{\partial z_{G}}{\partial w1_{G}} \\ \frac{\partial erro}{\partial w0_{H}} &= \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial w0_{H}} \\ \frac{\partial erro}{\partial w1_{H}} &= \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial w1_{H}} \end{align}

Quadro 5. Fórmulas para o cálculo das derivadas parciais de G e H

\begin{aligned} &z_{I}(w0_{I}, g, w1_{I}, h, w2_{I}) = x_0 \cdot w0_{I} + g(z_{G}) \cdot w1_{I} + h(z_{H}) \cdot w2_{I} \\ &z_{G}(w0_{G}, f, w1_{G}) = x_0 \cdot w0_{G} + f(z_{F}) \cdot w1_{G} \\ &z_{H}(w0_{H}, f, w1_{H}) = x_0 \cdot w0_{H} + f(z_{F}) \cdot w1_{H} \end{aligned}

Equação 7. Produto escalar dos neurônios I, G e H

Assumindo a função Logística

S

para

I

, e a Tangente

tanh

para

G

H

, apresenta-se no Quadro 6 as derivadas parciais destes dois neurônios em relação à função de erro

erro(i) = (y - i)^2

\begin{align} \frac{\partial erro}{\partial w0_{G}} &= -(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w1_{I} \cdot 1−tanh^2(z_{G}) \cdot 1 \\ \frac{\partial erro}{\partial w1_{G}} &= -(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w1_{I} \cdot 1−tanh^2(z_{G}) \cdot f \\ \frac{\partial erro}{\partial w0_{H}} &= -(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w2_{I} \cdot 1−tanh^2(z_{H}) \cdot 1 \\ \frac{\partial erro}{\partial w1_{H}} &= -(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w2_{I} \cdot 1−tanh^2(z_{H}) \cdot f \end{align}

Quadro 6. Derivadas parciais dos neurônios G e H na Imagem 3

Para o cálculo das derivadas parciais do neurônio

F

, devemos aplicar a

regra da cadeia para várias variáveis

, definida na Equação 8. Isto, pelo fato de

z_{I}

ser uma função multivariável de

g

h

, que recebem como entrada o resultado das funções

z_{G}

z_{H}

, respectivamente, no qual ambas possuem como parâmetro a função

f

que depende de

z_{F}

, onde temos os parâmetros do neurônio. Destaca-se estas relações no seguinte trecho da função composta

z_{I}(g \circ z_{G} \circ f \circ z_{F}, h \circ z_{H} \circ f \circ z_{F})

\begin{aligned} &z = f(x, y); \ \ x = g(t); \ \ y = h(t) \\ &\frac{\partial z}{\partial t} = \frac{\partial f}{\partial x} \cdot \frac{\partial x}{\partial t} + \frac{\partial f}{\partial y} \cdot \frac{\partial y}{\partial t} \end{aligned}

Equação 8. Regra da cadeia para várias variáveis

Aplicando-se a regra, no Quadro 7 e 8 temos as fórmulas e as derivadas parciais de

F

\begin{align} \frac{\partial erro}{\partial w0_{F}} &= \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial g} \cdot \frac{\partial g}{\partial z_{G}} \cdot \frac{\partial z_{G}}{\partial f} \cdot \frac{\partial f}{\partial z_{F}} \cdot \frac{\partial z_{F}}{\partial w0_{F}} \\ &+ \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial f} \cdot \frac{\partial f}{\partial z_{F}} \cdot \frac{\partial z_{F}}{\partial w0_{F}} \\ \frac{\partial erro}{\partial w1_{F}} &= \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial g} \cdot \frac{\partial g}{\partial z_{G}} \cdot \frac{\partial z_{G}}{\partial f} \cdot \frac{\partial f}{\partial z_{F}} \cdot \frac{\partial z_{F}}{\partial w1_{F}} \\ &+ \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial f} \cdot \frac{\partial f}{\partial z_{F}} \cdot \frac{\partial z_{F}}{\partial w1_{F}} \\ \frac{\partial erro}{\partial w2_{F}} &= \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial g} \cdot \frac{\partial g}{\partial z_{G}} \cdot \frac{\partial z_{G}}{\partial f} \cdot \frac{\partial f}{\partial z_{F}} \cdot \frac{\partial z_{F}}{\partial w2_{F}} \\ &+ \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial f} \cdot \frac{\partial f}{\partial z_{F}} \cdot \frac{\partial z_{F}}{\partial w2_{F}} \end{align}

Quadro 7. Fórmulas para o cálculo das derivadas parciais de F

\begin{align} \frac{\partial erro}{\partial w0_{F}} &= -(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w1_{I} \cdot 1−tanh^2(z_{G}) \cdot w1_{G} \cdot 1−tanh^2(z_{F}) \cdot 1 \\ &+ (-(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w1_{I} \cdot 1−tanh^2(z_{H}) \cdot w1_{H} \cdot 1−tanh^2(z_{F}) \cdot 1) \\ \frac{\partial erro}{\partial w1_{F}} &= -(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w1_{I} \cdot 1−tanh^2(z_{G}) \cdot w1_{G} \cdot 1−tanh^2(z_{F}) \cdot x_1 \\ &+ (-(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w1_{I} \cdot 1−tanh^2(z_{H}) \cdot w1_{H} \cdot 1−tanh^2(z_{F}) \cdot x_1) \\ \frac{\partial erro}{\partial w2_{F}} &= -(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w1_{I} \cdot 1−tanh^2(z_{G}) \cdot w1_{G} \cdot 1−tanh^2(z_{F}) \cdot x_2 \\ &+ (-(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w1_{I} \cdot 1−tanh^2(z_{H}) \cdot w1_{H} \cdot 1−tanh^2(z_{F}) \cdot x_2) \end{align}

Quadro 8. Derivadas parciais do neurônio F

Conclusão

Neste artigo vimos sobre o algoritmo

Backpropagation

, onde aplicamos o método

Gradient Descent

para minimizar a função de erro. Nisto, resolvemos as derivadas parciais dos parâmetros da rede através da aplicação da Regra da Cadeia sobre a função composta do erro, em que levamos em consideração as operações de todos neurônios. Disto, resta a apresentação formal do algoritmo, em que o dividimos em duas etapas chamadas de

forward pass

backward pass

, e uma implementação prática. Então, como continuação teremos a visão do algoritmo

Backpropagation

em etapas e seu uso para resolver a operação lógica XOR.

Referências

Ekman, M. Learning Deep Learning. Pearson Education, 2021.

Derivada. Wikipedia, 2026. Disponível em: https://pt.wikipedia.org/wiki/Derivada#Diferenciabilidade.

Composição de funções. Wikipedia, 2026. Disponível em: https://pt.wikipedia.org/wiki/Composi%C3%A7%C3%A3o_de_fun%C3%A7%C3%B5es.

Regra da cadeia. Wikipedia, 2026. Disponível em: https://pt.wikipedia.org/wiki/Regra_da_cadeia.

Chain Rule. Paul's Online Notes, 2026. Disponível em: https://tutorial.math.lamar.edu/classes/calciii/chainrule.aspx.

Backpropagation e a operação lógica XOR [1/2]

4 de maio, 2026

De acordo com o tipo de predição são utilizadas diferentes

Funções de Erro

, em que no caso de valores escalares, temos por exemplo a função

Mean Squared Error

(MSE), apresentada na Equação 1. Podemos interpretar esta função como uma forma de calcular o erro médio de

n

instâncias, onde

y_i

é o resultado esperado, e

\hat{y}_i

é a saída da rede para instância

i

. Disto, também podemos extrair a expressão

(y_i-\hat{y}_i)^2

, como o erro para uma única instância

i

\frac{1}{n} \cdot \sum_{i=1}^{n}(y_i-\hat{y}_i)^2

Equação 1. Mean Squared Error

Problemas de Otimização, Derivadas e o método Gradient Descent

, vimos sobre o treinamento do Perceptron utilizando o método

Gradient Descent

, aplicando o cálculo do gradiente sobre a equação

z = x_0 \cdot w_0 + x_1 \cdot w_1 + x_2 \cdot w_2

. Neste caso, fizemos isto porque formulamos o treinamento como a minimização de

z

Assim, no treinamento é utilizado o algoritmo

Backpropagation

, que aborda o treinamento como um problema de minimização da função de erro. Disto, considerando o erro para uma instância

(y-\hat{y})^2

, precisamos definir as expressões matemáticas por trás de

\hat{y}

, ou seja, o encadeamento de equações e funções de ativação dos neurônios, do começo ao fim da rede, que geram

\hat{y}

. Considerando uma rede neural como na Imagem 1, a função do erro pode ser escrita como

erro(f) = (y - f(w0_{G}, w1_{G}, w2_{G}, w0_{H}, w1_{H}))^2

, onde

f

é a expressão da rede em função dos parâmetros dos neurônios. Com isto, conseguimos aplicar o método

Gradient Descent

para minimizar esta função com o gradiente

\nabla erro

, como mostra-se no Quadro 1, em que ajustamos os parâmetros com suas respectivas derivadas parciais em relação à função do erro.

Imagem 1. Exemplo de uma rede neural com dois neurônios G e H

\begin{aligned} &w - \eta \cdot \nabla erro \\ &\begin{bmatrix} w0_{G} \\ w1_{G} \\ w2_{G} \\ w0_{H} \\ w1_{H} \end{bmatrix} - \eta \cdot \begin{bmatrix} \frac{\partial erro}{\partial w0_{G}} \\ \frac{\partial erro}{\partial w1_{G}} \\ \frac{\partial erro}{\partial w2_{G}} \\ \frac{\partial erro}{\partial w0_{H}} \\ \frac{\partial erro}{\partial w1_{H}} \end{bmatrix} \end{aligned}

Quadro 1. Método Gradient Descent para minimização da função de erro

Uma detalhe é que não podemos utilizar a função Sinal como função de ativação nos neurônios, como é feito no Perceptron. De acordo com o teorema da

diferenciabilidade

, uma função diferenciável é contínua em todos seus pontos, concluindo-se que não é possível o cálculo da derivada da função Sinal, por ela não ser contínua em

x = 0

. No gradiente

\nabla erro

, o cálculo das derivadas parciais depende da diferenciabilidade de

f(w0_{G}, w1_{G}, w2_{G}, w0_{H}, w1_{H})

Imagem 2. a) Função Sinal, b) Função Tangente e c) Função Logística

Considerando a rede na Imagem 1, utilizando-se a função Tangente em

G

e a função Logística em

H

, as operações realizadas por ambos neurônios são exibidas nas Equações 2 e 3, respectivamente. Observa-se que o resultado da função de ativação de

G

é utilizado como entrada pelo neurônio

H

\begin{aligned} &z_{G}(w0_{G}, w1_{G}, w2_{G}) = x_0 \cdot w0_{G} + x_1 \cdot w1_{G} + x_2 \cdot w2_{G} \\ &g(z_{G}) = tanh(z_{G}) \end{aligned}

Equação 2. Produto escalar e função de ativação do neurônio G

\begin{aligned} &z_{H}(w0_{H}, g, w1_{H}) = x_0 \cdot w0_{H} + g(z_{G}) \cdot w1_{H} \\ &h(z_{H}) = S(z_{H}) \end{aligned}

Equação 3. Produto escalar e função de ativação do neurônio H

Disto, retomando-se a função do erro

erro(f) = (y - f(w0_{G}, w1_{G}, w2_{G}, w0_{H}, w1_{H}))^2

, dado que

f

representa a expressão da rede para

\hat{y}

, que corresponde ao resultado da função de ativação do neurônio

H

h(z_{H})

, podemos substituir

f

por

h

, tendo-se

erro(h) = (y - h)^2

. Observa-se que a partir de

erro(h)

, temos uma

composição de funções

, denotada na Equação 4, onde

erro

está em função de

h

h

em função de

z_{H}

z_{H}

em função de

g

, e

g

em função de

z_{G}

erro \circ h \circ z_{H} \circ g \circ z_{G}

Equação 4. Composição de funções a partir da função do erro

Para o cálculo de derivadas parciais de funções compostas, temos a

regra da cadeia

apresentada na Equação 5. Nela, a derivada parcial de uma função

f \circ g

em relação a

x

, onde

g

está em função de

x

, pode ser escrita como o produto das derivadas

f \rq (g(x))

g \rq (x)

. Disto, podemos entender que de acordo com a variável alvo, definimos uma sequência de funções que se conectam com a função que a contém, e realizamos o produto de suas derivadas.

\begin{gather*} &(f \circ g) \rq (x) = (f(g(x))) \rq = f \rq (g(x)) \cdot g \rq (x) \\ &ou \\ &\frac{\partial f}{\partial x} = \frac{\partial f}{\partial g} \cdot \frac{\partial g}{\partial x} \end{gather*}

Equação 5. Regra da cadeia

Considerando os parâmetros dos neurônios

H

G

, no Quadro 2 temos as fórmulas para o cálculo de suas respectivas derivadas parciais em relação à função de erro.

\begin{align} \frac{\partial erro}{\partial w0_{H}} &= \frac{\partial erro}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial w0_{H}} \\ \frac{\partial erro}{\partial w1_{H}} &= \frac{\partial erro}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial w1_{H}} \\ \frac{\partial erro}{\partial w0_{G}} &= \frac{\partial erro}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial g} \cdot \frac{\partial g}{\partial z_{G}} \cdot \frac{\partial z_{G}}{\partial w0_{G}} \\ \frac{\partial erro}{\partial w1_{G}} &= \frac{\partial erro}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial g} \cdot \frac{\partial g}{\partial z_{G}} \cdot \frac{\partial z_{G}}{\partial w1_{G}} \\ \frac{\partial erro}{\partial w2_{G}} &= \frac{\partial erro}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial g} \cdot \frac{\partial g}{\partial z_{G}} \cdot \frac{\partial z_{G}}{\partial w2_{G}} \end{align}

Quadro 2. Fórmulas das derivadas parciais de H e G na Imagem 1

Tendo em vista a função composta

erro \circ h \circ z_{H} \circ g \circ z_{G}

, para as derivadas parciais do neurônio

H

\frac{\partial erro}{\partial w0_{H}}

\frac{\partial erro}{\partial w1_{H}}

, aplicamos a regra da cadeia até a função

z_{H}

. Já para as derivadas de

G

\frac{\partial erro}{\partial w0_{G}}

\frac{\partial erro}{\partial w1_{G}}

\frac{\partial erro}{\partial w2_{G}}

, continuamos através de

z_{H} \circ g

, até alcançarmos a função

z_{G}

\frac{\partial z_{H}}{\partial g}

\frac{\partial g}{\partial z_{G}}

G

No Quadro 3, resolvemos os termos que compõem as derivadas parciais.

\begin{aligned} &\frac{\partial erro}{\partial h} = \frac{\partial (y - h)^2}{\partial h} \iff \frac{\partial \frac{(y - h)^2}{2}}{\partial h}=\frac{1}{2}2(y-h)(0 - 1) =(y-h)\cdot-1 \\ &\frac{\partial h}{\partial z_{H}} = \frac{\partial S(z_{H})}{\partial z_{H}} = S(z_{H})(1 - S(z_{H})) \\ &\frac{\partial g}{\partial z_{G}} = \frac{\partial \ \tanh(z_{G})}{\partial z_{G}} = 1 - tanh^2(z_{G}) \\ &\frac{\partial z_{H}}{\partial w0_{H}} = x_0 = 1 \ \ \ \ \frac{\partial z_{H}}{\partial w1_{H}} = g \ \ \ \ \frac{\partial z_{H}}{\partial g} = w1_{H} \\ &\frac{\partial z_{G}}{\partial w0_{G}} = x_0 = 1 \ \ \ \ \frac{\partial z_{G}}{\partial w1_{G}} = x_1 \ \ \ \ \frac{\partial z_{H}}{\partial w2_{H}} = x_2 \end{aligned}

Quadro 3. Resolução dos termos das derivadas parciais no Quadro 2

Para resolução das derivadas das funções

z_{H}

z_{G}

S(z_{H})

tanh(z_{G})

, temos a propriedade de que podemos escrevê-las em função das próprias funções

S

tanh

, não sendo necessário desenvolvermos as derivadas a partir das suas equações mostradas na Imagem 2. Por fim, para resolvermos a derivada

\frac{\partial erro}{\partial h}

\frac{\partial (y - h)^2}{\partial h}

, onde identificamos uma função composta

f \circ g

, tendo-se

f(g) = g^2

g(x) = c - x

, cujo desenvolvimento segue como

(f(g(x))) \rq = f \rq (g) \cdot g \rq (x) = 2 \cdot g \cdot (0 - 1)

, em que aplicamos a regra da potência e calculamos uma derivada simples.

Com isto, no Quadro 4 temos os resultados das derivadas parciais dos neurônios

H

G

\begin{align} \frac{\partial erro}{\partial w0_{H}} &= -(y−h) \cdot S(z_{H})(1−S(z_{H})) \cdot 1 \\ \frac{\partial erro}{\partial w1_{H}} &= -(y−h) \cdot S(z_{H})(1−S(z_{H})) \cdot g \\ \frac{\partial erro}{\partial w0_{G}} &= -(y−h) \cdot S(z_{H})(1−S(z_{H})) \cdot w1_{H} \cdot 1−tanh^2(z_{G}) \cdot 1 \\ \frac{\partial erro}{\partial w1_{G}} &= -(y−h) \cdot S(z_{H})(1−S(z_{H})) \cdot w1_{H} \cdot 1−tanh^2(z_{G}) \cdot x_1 \\ \frac{\partial erro}{\partial w2_{G}} &= -(y−h) \cdot S(z_{H})(1−S(z_{H})) \cdot w1_{H} \cdot 1−tanh^2(z_{G}) \cdot x_2 \end{align}

Quadro 4. Derivadas parciais dos neurônios H e G na Imagem 1

Conexões com mais de um neurônio

Uma rede neural geralmente terá mais de um neurônio por camada, ocorrendo conexões em que um neurônio envia seu resultado para

n

neurônios, e conexões onde

n

neurônios enviam seus resultados para um. Na Imagem 3 ilustra-se uma rede com um neurônio

F

que envia seu resultado para os neurônios

G

H

, e um neurônio

I

que recebe como entrada o resultado de ambos.

Imagem 3. Exemplo de uma rede com conexões com mais de um neurônio

Para o cálculo do gradiente da função de erro desta rede, consideramos a função composta na Equação 6. Disto, no Quadro 5 temos as fórmulas das derivadas parciais de

G

H

, que se diferenciam na derivada

\partial z_{I}

, onde cada um utiliza a sua função de ativação. Encontra-se as expressões de

z_{I}

z_{G}

z_{H}

na Equação 7.

erro \circ i \circ z_{I}(g \circ z_{G} \circ f \circ z_{F}, h \circ z_{H} \circ f \circ z_{F})

Equação 6. Função composta do erro da rede na Imagem 3

\begin{align} \frac{\partial erro}{\partial w0_{G}} &= \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial g} \cdot \frac{\partial g}{\partial z_{G}} \cdot \frac{\partial z_{G}}{\partial w0_{G}} \\ \frac{\partial erro}{\partial w1_{G}} &= \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial g} \cdot \frac{\partial g}{\partial z_{G}} \cdot \frac{\partial z_{G}}{\partial w1_{G}} \\ \frac{\partial erro}{\partial w0_{H}} &= \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial w0_{H}} \\ \frac{\partial erro}{\partial w1_{H}} &= \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial w1_{H}} \end{align}

Quadro 5. Fórmulas para o cálculo das derivadas parciais de G e H

\begin{aligned} &z_{I}(w0_{I}, g, w1_{I}, h, w2_{I}) = x_0 \cdot w0_{I} + g(z_{G}) \cdot w1_{I} + h(z_{H}) \cdot w2_{I} \\ &z_{G}(w0_{G}, f, w1_{G}) = x_0 \cdot w0_{G} + f(z_{F}) \cdot w1_{G} \\ &z_{H}(w0_{H}, f, w1_{H}) = x_0 \cdot w0_{H} + f(z_{F}) \cdot w1_{H} \end{aligned}

Equação 7. Produto escalar dos neurônios I, G e H

Assumindo a função Logística

S

para

I

, e a Tangente

tanh

para

G

H

, apresenta-se no Quadro 6 as derivadas parciais destes dois neurônios em relação à função de erro

erro(i) = (y - i)^2

\begin{align} \frac{\partial erro}{\partial w0_{G}} &= -(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w1_{I} \cdot 1−tanh^2(z_{G}) \cdot 1 \\ \frac{\partial erro}{\partial w1_{G}} &= -(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w1_{I} \cdot 1−tanh^2(z_{G}) \cdot f \\ \frac{\partial erro}{\partial w0_{H}} &= -(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w2_{I} \cdot 1−tanh^2(z_{H}) \cdot 1 \\ \frac{\partial erro}{\partial w1_{H}} &= -(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w2_{I} \cdot 1−tanh^2(z_{H}) \cdot f \end{align}

Quadro 6. Derivadas parciais dos neurônios G e H na Imagem 3

Para o cálculo das derivadas parciais do neurônio

F

, devemos aplicar a

regra da cadeia para várias variáveis

, definida na Equação 8. Isto, pelo fato de

z_{I}

ser uma função multivariável de

g

h

, que recebem como entrada o resultado das funções

z_{G}

z_{H}

, respectivamente, no qual ambas possuem como parâmetro a função

f

que depende de

z_{F}

, onde temos os parâmetros do neurônio. Destaca-se estas relações no seguinte trecho da função composta

z_{I}(g \circ z_{G} \circ f \circ z_{F}, h \circ z_{H} \circ f \circ z_{F})

\begin{aligned} &z = f(x, y); \ \ x = g(t); \ \ y = h(t) \\ &\frac{\partial z}{\partial t} = \frac{\partial f}{\partial x} \cdot \frac{\partial x}{\partial t} + \frac{\partial f}{\partial y} \cdot \frac{\partial y}{\partial t} \end{aligned}

Equação 8. Regra da cadeia para várias variáveis

Aplicando-se a regra, no Quadro 7 e 8 temos as fórmulas e as derivadas parciais de

F

\begin{align} \frac{\partial erro}{\partial w0_{F}} &= \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial g} \cdot \frac{\partial g}{\partial z_{G}} \cdot \frac{\partial z_{G}}{\partial f} \cdot \frac{\partial f}{\partial z_{F}} \cdot \frac{\partial z_{F}}{\partial w0_{F}} \\ &+ \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial f} \cdot \frac{\partial f}{\partial z_{F}} \cdot \frac{\partial z_{F}}{\partial w0_{F}} \\ \frac{\partial erro}{\partial w1_{F}} &= \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial g} \cdot \frac{\partial g}{\partial z_{G}} \cdot \frac{\partial z_{G}}{\partial f} \cdot \frac{\partial f}{\partial z_{F}} \cdot \frac{\partial z_{F}}{\partial w1_{F}} \\ &+ \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial f} \cdot \frac{\partial f}{\partial z_{F}} \cdot \frac{\partial z_{F}}{\partial w1_{F}} \\ \frac{\partial erro}{\partial w2_{F}} &= \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial g} \cdot \frac{\partial g}{\partial z_{G}} \cdot \frac{\partial z_{G}}{\partial f} \cdot \frac{\partial f}{\partial z_{F}} \cdot \frac{\partial z_{F}}{\partial w2_{F}} \\ &+ \frac{\partial erro}{\partial i} \cdot \frac{\partial i}{\partial z_{I}} \cdot \frac{\partial z_{I}}{\partial h} \cdot \frac{\partial h}{\partial z_{H}} \cdot \frac{\partial z_{H}}{\partial f} \cdot \frac{\partial f}{\partial z_{F}} \cdot \frac{\partial z_{F}}{\partial w2_{F}} \end{align}

Quadro 7. Fórmulas para o cálculo das derivadas parciais de F

\begin{align} \frac{\partial erro}{\partial w0_{F}} &= -(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w1_{I} \cdot 1−tanh^2(z_{G}) \cdot w1_{G} \cdot 1−tanh^2(z_{F}) \cdot 1 \\ &+ (-(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w1_{I} \cdot 1−tanh^2(z_{H}) \cdot w1_{H} \cdot 1−tanh^2(z_{F}) \cdot 1) \\ \frac{\partial erro}{\partial w1_{F}} &= -(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w1_{I} \cdot 1−tanh^2(z_{G}) \cdot w1_{G} \cdot 1−tanh^2(z_{F}) \cdot x_1 \\ &+ (-(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w1_{I} \cdot 1−tanh^2(z_{H}) \cdot w1_{H} \cdot 1−tanh^2(z_{F}) \cdot x_1) \\ \frac{\partial erro}{\partial w2_{F}} &= -(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w1_{I} \cdot 1−tanh^2(z_{G}) \cdot w1_{G} \cdot 1−tanh^2(z_{F}) \cdot x_2 \\ &+ (-(y−i) \cdot S(z_{I})(1−S(z_{I})) \cdot w1_{I} \cdot 1−tanh^2(z_{H}) \cdot w1_{H} \cdot 1−tanh^2(z_{F}) \cdot x_2) \end{align}

Quadro 8. Derivadas parciais do neurônio F

Conclusão

Neste artigo vimos sobre o algoritmo

Backpropagation

, onde aplicamos o método

Gradient Descent

forward pass

backward pass

, e uma implementação prática. Então, como continuação teremos a visão do algoritmo

Backpropagation

em etapas e seu uso para resolver a operação lógica XOR.

Referências

Ekman, M. Learning Deep Learning. Pearson Education, 2021.

Derivada. Wikipedia, 2026. Disponível em: https://pt.wikipedia.org/wiki/Derivada#Diferenciabilidade.

Composição de funções. Wikipedia, 2026. Disponível em: https://pt.wikipedia.org/wiki/Composi%C3%A7%C3%A3o_de_fun%C3%A7%C3%B5es.

Regra da cadeia. Wikipedia, 2026. Disponível em: https://pt.wikipedia.org/wiki/Regra_da_cadeia.

Chain Rule. Paul's Online Notes, 2026. Disponível em: https://tutorial.math.lamar.edu/classes/calciii/chainrule.aspx.