GuilleSQL :: Microsoft SQL Server, SSIS, y más !!

TEMPDB, acceso por desbordamiento (spilling) y Tablas de Trabajo (Work Tables)


Todos sabemos que TEMPDB es una base de datos del Sistema que SQL Server utiliza para diferentes tareas internas, y que nosotros mismos podemos utilizar de forma explícita (ej: creación de tablas temporales). El presente artículo pretende presentar y diferenciar dos de los posibles tipos de acceso a TEMPDB que pueden realizarse como resultado del Plan de Ejecución de nuestras consultas, el acceso a TEMPDB por desbordamiento (spilling to TEMPDB) y la utilización de Tablas de Trabajo (Work Tables).

Siguiendo con la serie de artículos de Problemas de Rendimiento en SQL Server relacionados con los eventos de traza Hash Warning y Sort Warning, en esta ocasión vamos a tratar el acceso a TEMPDB.

Antes de continuar, es importante tener claro los conceptos relacionados con el tema que estamos tratando, por lo que puede ser recomendable leer previamente los anteriores artículos de la serie, en particular el de Sort Warnings, Hash Warnings y Memory Grants en SQL Server. Esto nos ayudará a tener algunos conceptos frescos.

Pues bien. Todos sabemos que TEMPDB es una base de datos del Sistema, que SQL Server utiliza para diferentes tareas internas, y que nosotros mismos podemos utilizar de forma explícita, por ejemplo, creando objetos de usuario o tablas temporales (las que tienen una o dos almohadillas) directamente sobre dicha BBDD para aprovechar el beneficioso Modo de Recuperación Simple.

Sin embargo, en relación con los Planes de Ejecución y la ocurrencia de los eventos de traza Hash Warning y Sort Warning, podemos identificar dos tipos de accesos que pueden realizarse sobre TEMPDB, bien diferenciados:

  • Acceso a TEMPDB por desbordamiento (spill to TEMPDB). Ocurre cuando una consulta que contiene un Operador Costoso (ej: Operaciones de tipo Hash o Sort), y que en consecuencia requiere de un mínimo de necesidades de Memoria de Consulta (Query Memory o Workspace Memory), se ejecuta en una condiciones de subestimación de memoria (es decir, con menos RAM de la necesaria), algo que puede ocurrir por diferentes motivos, como por la existencia de estadísticas incorrectas o poco actualizadas y/o por la reutilización de Planes de Ejecución. Si ocurre esto, SQL Server utiliza TEMPDB para poder ejecutar una consulta en unas condiciones de subestimación de memoria. En consecuencia, existe una pérdida de rendimiento tanto por el acceso a disco realizado sobre TEMPDB como por la necesidad de tener que ejecutar pasos adicionales para poder ejecutar dicha consulta con menos memoria. Este tipo de acceso a TEMPDB (spilling to TEMPDB) es el que se produce cuando observamos que se generan los eventos de traza Hash Warning o Sort Warning. Es importante vigilarlo, ya que podemos estar sufriendo serios problemas de rendimiento, que en algunos casos podremos solucionar.
  • Tablas de Trabajo (Work Tables). Ocurre cuando SQL Server necesita utilizar TEMPDB para realizar ciertas Operaciones del Plan de Ejecución. Por ejemplo, el Operador Costoso Hash Match utiliza una Work Table al ejecutarse. Este es un tema más delicado (y que controlo menos, por ahora).  La idea, es que ciertas tareas pueden realizarse utilizando diferentes Operadores del Plan de Ejecución, pero en función de cada caso (ej: número de filas afectadas), un Operador u otro será más apropiado. Desde el punto de vista del Rendimiento, deberemos garantizar en la medida de lo posible, que todas nuestras consultas se ejecutan utilizando el Plan de Ejecución más correcto para cada caso, lo cual, para una misma consulta, puede depender de factores como el número de filas afectadas, tener las estadísticas actualizadas, una correcta indexación, etc. ¿Cómo podemos saber si una consulta está utilizando Tablas de Trabajo (Work Tables) para su ejecución? Una forma de hacerlo, desde el SQL Server Management Studio, consiste en habilitar las estadísticas de IO (SET STATISTICS IO ON) y observar si tras ejecutar la consulta en la salida de Mensajes se ha utilizado alguna Tabla de Trabajo (Work Table).

En ambos casos, se está accediendo a TEMPDB, lo cual puede tener un cierto efecto de pérdida de rendimiento por el acceso a disco correspondiente. Sin embargo, se trata de dos tipos de acceso completamente diferentes, y que pueden intentar evitarse o minimizarse, utilizando distintas técnicas.

Una forma objetiva de medir el acceso a TEMPDB es consultar las estadísticas ofrecidas por la DMV sys.dm_io_virtual_file_stats, de tal modo que podamos conocer las lecturas y escrituras realizadas sobre cada uno de los ficheros de TEMPDB. Para ello, podemos ejecutar una consulta como la siguiente:

SELECT 
   database_id, file_id
   , num_of_reads, num_of_bytes_read
   , num_of_writes, num_of_bytes_written
FROM sys.dm_io_virtual_file_stats(NULL, NULL)
WHERE database_id=DB_ID('TEMPDB')

Vamos a poner un ejemplo: al ejecutar un procedimiento almacenado podría utilizarse una Tablas de Trabajo (Work Tables), debido a que el Plan de Ejecución incluye una operación Hash Join. Sin embargo también podría ocurrir que en ejecuciones contiguas de ese mismo procedimiento almacenado utilizando un conjunto de valores de entrada diferentes, se esté reutilizando el Plan de Ejecución, y realizándose un desbordamiento a TEMPDB (spilling to TEMPDB) debido a una ejecución en condiciones de subestimación de memoria de consulta por la reutilización del Plan de Ejecución. En este último caso, estamos accediendo a TEMPDB tanto para crear la Tabla de Trabajo (Work Table) necesaria por la operación Hash Join, como por el desbordamiento (spilling) producido al ejecutar el Hash Join en unas condiciones de subestimación de memoria de consulta (es decir, con menos RAM) por reutilizar el Plan de Ejecución.

Por verlo desde otro punto de vista, ese mismo procedimiento almacenado, para un conjunto de valores de entrada diferente, podría ejecutarse utilizando un Operador Merge Join en lugar de un Hash Join, de tal modo, que en dicho caso evitaríamos tanto el acceso a TEMPDB producido por la Tabla de Trabajo (Work Table) del Hash Join, también evitaríamos el acceso a TEMPDB correspondiente al desbordamiento (spilling) de ejecutar el Hash Join con menos RAM de la necesaria.

Otra posible salida, sería la ejecución del procedimiento almacenado sin reutilizar el Plan de Ejecución (ej: utilizando la opción WITH RECOMPILE), y utilizar un disco rápido (quizás un disco sólido) para TEMPDB. De este modo, evitamos el desbordamiento a TEMPDB (spilling to TEMPDB) a la vez que agilizamos el rendimiento de las Tablas de Trabajo (Work Tables) mediante la utilización de un disco rápido para TEMPDB.

Hay muchas formas de mejorar el comportamiento de este tipo de soluciones. Por ejemplo, en una máquina con múltiples procesadores, puede interesarnos ejecutar algunas de nuestras consultas utilizando una única CPU (MDOP establecido a 1), y así garantizar que la concesión de memoria de consulta sea la más baja (recordemos, que al paralelizar la ejecución de consultas con Operadores Costosos, cuantas más CPUs se utilicen más memoria será necesaria), así como evitar otros problemas de rendimiento relacionados con MDOP y máquinas con múltiples CPUs.

Por último, para poder verlo de una forma más práctica, es posible consultar los artículos Hash Warnings, TEMPDB, y el Plan de Ejecución: Ejemplo práctico, Sort Warnings y TEMPDB: Ejemplo práctico, y Hash Warning, Sort Warning y las Estadísticas de SQL Server, pudiendo descargar de ellos Scripts SQL de ejemplo para reproducirlo y ejecutarlo paso a paso por nosotros mismos.

Poco más por hoy. Como siempre, confío que la lectura resulte de interés.

 


]
[Autor: GuilleSQL]



Miembros de
Miembros de GITCA (Global IT Community Association)

Menu de Usuario
  Iniciar Sesión
  Registrarse
  Restablecer Contraseña
  Ventajas de Registrarse

Acerca de
  Contigo desde Oct 2007
  771 usuarios registrados
  86146 pageloads/mes
  Ranking Alexa 498160

Social Networks
Sigue a Portal GuilleSQL en Linkedin !!
Sigue a Portal GuilleSQL en Twitter !!



Archivo

Julio de 2018 (1)
Junio de 2018 (4)
Mayo de 2018 (5)
Abril de 2018 (3)
Marzo de 2018 (2)
Febrero de 2018 (7)
Enero de 2018 (1)
Diciembre de 2017 (15)
Noviembre de 2017 (7)
Junio de 2017 (3)
Mayo de 2017 (1)
Marzo de 2017 (3)
Enero de 2017 (4)
Junio de 2016 (1)
Mayo de 2016 (2)
Abril de 2016 (2)
Septiembre de 2015 (2)
Agosto de 2015 (2)
Junio de 2015 (10)
Mayo de 2015 (4)
Abril de 2015 (8)
Marzo de 2015 (11)
Octubre de 2014 (3)
Septiembre de 2014 (7)
Agosto de 2014 (5)
Julio de 2014 (2)
Mayo de 2014 (4)
Abril de 2014 (4)
Marzo de 2014 (4)
Febrero de 2014 (1)
Enero de 2014 (5)
Diciembre de 2013 (8)
Noviembre de 2013 (2)
Octubre de 2013 (7)
Septiembre de 2013 (6)
Agosto de 2013 (1)
Julio de 2013 (6)
Junio de 2013 (11)
Mayo de 2013 (7)
Abril de 2013 (6)
Febrero de 2013 (5)
Enero de 2013 (7)
Diciembre de 2012 (12)
Noviembre de 2012 (13)
Octubre de 2012 (5)
Septiembre de 2012 (3)
Agosto de 2012 (6)
Julio de 2012 (4)
Junio de 2012 (1)
Mayo de 2012 (2)
Abril de 2012 (7)
Marzo de 2012 (16)
Febrero de 2012 (9)
Enero de 2012 (5)
Diciembre de 2011 (10)
Noviembre de 2011 (10)
Octubre de 2011 (4)
Septiembre de 2011 (5)
Agosto de 2011 (2)
Julio de 2011 (2)
Junio de 2011 (4)
Mayo de 2011 (2)
Abril de 2011 (6)
Marzo de 2011 (4)
Febrero de 2011 (10)
Enero de 2011 (5)
Diciembre de 2010 (6)
Noviembre de 2010 (4)
Octubre de 2010 (8)
Septiembre de 2010 (4)
Agosto de 2010 (1)
Julio de 2010 (3)
Mayo de 2010 (5)
Abril de 2010 (6)
Marzo de 2010 (8)
Febrero de 2010 (3)
Enero de 2010 (1)
Diciembre de 2009 (9)
Noviembre de 2009 (14)
Octubre de 2009 (2)
Septiembre de 2009 (8)
Agosto de 2009 (2)
Julio de 2009 (10)
Junio de 2009 (9)
Mayo de 2009 (10)
Abril de 2009 (9)
Marzo de 2009 (3)
Febrero de 2009 (2)
Enero de 2009 (3)
Noviembre de 2008 (2)
Octubre de 2008 (2)
Septiembre de 2008 (2)
Agosto de 2008 (5)
Julio de 2008 (5)
Junio de 2008 (1)
Mayo de 2008 (3)
Abril de 2008 (2)
Marzo de 2008 (2)
Febrero de 2008 (2)
Enero de 2008 (5)
Noviembre de 2007 (2)
Octubre de 2007 (2)






Copyright © 2007 GuilleSQL, todos los derechos reservados.