Cómo generar un dataset sintético

Puedes generar y almacenar datos sintéticos para tu caso de uso usando nuestra herramienta de generación de datos sintéticos con IA.

Los datasets se almacenan de forma segura en la plataforma y están disponibles para todos los usuarios de tu organización.

Info

Todos los datasets están asociados a un caso de uso específico. Por tanto, el caso de uso seleccionado, el ejemplo proporcionado y la descripción personalizada del dataset deben ajustarse al formato de datos de entrada definido para ese caso de uso para poder guardar correctamente los datasets.

Para generar datasets en la plataforma:

Navega a la sección Datasets desde el menú lateral izquierdo.
Haz clic en el botón Synthetic dataset: custom description situado en la esquina superior derecha.
Se te redirigirá a la página Generate synthetic dataset, donde debes completar los siguientes campos:
- Use case: selecciona el caso de uso asociado al dataset que quieres generar.
- File: sube un dataset de ejemplo en formato JSON que se usará como referencia para generar el dataset sintético. El dataset de ejemplo debe cumplir con el formato de datos de entrada del caso de uso seleccionado.
- Dataset custom description: proporciona una descripción personalizada con las características que quieres para el dataset. Tip: puedes generar varios datasets (consulta los ejemplos proporcionados bajo el área de texto).
- AI advanced settings: despliega esta sección para acceder a ajustes avanzados del modelo de IA usado para generar el dataset sintético. Esta sección es opcional y puede dejarse como está si no estás familiarizado con los ajustes. Los ajustes por defecto suelen ser suficientes para la mayoría de casos de uso. Los ajustes avanzados incluyen:
  - LLM Model: selecciona el modelo que quieres usar para generar el dataset sintético. El modelo por defecto es gpt-4o-mini.
  - Temperature: ajusta el parámetro de temperatura para controlar la aleatoriedad del texto generado. Un valor de temperatura más alto, por ejemplo 1.0, producirá salidas más aleatorias y diversas, mientras que un valor más bajo, por ejemplo 0.2, hará que las salidas sean más deterministas y se centren en las completions más probables. El valor por defecto es 0.7.

Para guardar los datasets en la plataforma:

Revisa los datasets generados en la sección Synthetic data preview. Para cada dataset, el nombre y la descripción se generan automáticamente; sin embargo, puedes ajustarlos si es necesario.
Si estás satisfecho con los datasets generados, haz clic en el botón Save dataset situado en la esquina inferior derecha.

Ahora los nuevos datasets aparecerán en la sección Datasets y estarán disponibles como entrada para tus jobs.

Qué sigue#

Ejecutar un job