1. Introducción
El corpus DIACOM, nombre procedente del acrónimo de diacronía y comercio, pretende convertirse en una herramienta de referencia para el estudio del léxico especializado del comercio en español y francés con una perspectiva diacrónica, desde mediados del siglo XIX hasta nuestros días. Su realización se está llevando a cabo en el Departamento de Lenguas y Literaturas Extranjeras de la Universidad de Verona (Italia) en el marco de un proyecto ministerial dedicado al desarrollo de las humanidades digitales aplicadas a los ámbitos lingüístico-filológicos: Le Digital Humanities applicate alle lingue e letterature straniere.
El objetivo final de nuestro trabajo es poner a disposición de la comunidad científica un corpus que proporcione una visión amplia y global del campo del comercio en francés y español y que, por lo tanto, permita múltiples posibilidades para el estudio y la descripción de fenómenos lingüísticos dentro de este ámbito de especialidad en el tiempo, en el espacio y en función de la situación comunicativa.1 Permitirá, por ejemplo, la detección de neologismos, la observación de la evolución de formas lingüísticas, el análisis de la variación terminológica en todas sus vertientes y constituirá una ayuda para la elaboración de herramientas terminográficas y para la extracción de datos para la enseñanza de segundas lenguas y del lenguaje especializado del comercio.2
En lo que respecta al español, existen numerosos trabajos dedicados, desde la vertiente diacrónica o sincrónica, bien a la descripción de las características generales (p. ej. Mateo Martínez 2007; Álvarez García 2011) bien al análisis de un aspecto concreto del lenguaje económico y comercial (como Gómez de Enterría Sánchez 1992a y 1992b; Cassany 2004a; De Hoyos 2016), o que abordan su estudio desde una perspectiva aplicada -como la traducción en diferentes combinaciones lingüísticas (Mayoral Asensio 2007; Pizarro Sánchez 2010; Gallego Hernández 2012 y 2018; Álvarez García 2017, entre otros), la didáctica del español especializado (p. ej. Gómez de Enterría Sánchez 2009; Martínez Egido 2009) o la elaboración de herramientas terminográficas (Ramacciotti y Rodil 2006; De la Fuente Marina 2019)-.3 Nobstante, las posibilidades de exploración de este lenguaje de especialidad no han sido aún agotadas dadas la multidisciplinariedad e interdisciplinariedad de este ámbito (vid. infra), que cuenta con una gran cantidad de subdominios, así como por las diferentes orientaciones a la hora de emprender su estudio y los diversos aspectos lingüísticos, terminológicos y fraseológicos de interés dentro de su discurso. Por lo tanto, DIACOM no solo se construye como una herramienta que permita múltiples posibilidades de análisis, sino también que contribuya a favorecer la sistematización de datos y la agrupación de resultados.
En la actualidad, nos encontramos en la fase de compilación del corpus DIACOM. A continuación, expondremos los criterios que hemos tenido en cuenta a la hora de diseñar el subcorpus español, a la vez que justificaremos las decisiones que hemos tomado y que han venido determinadas por las necesidades y los objetivos de nuestro proyecto. Para ello seguimos los parámetros de diseño de corpus especializados expuestos en Bowker y Pearson (2002) y los completamos con los criterios de Torruella Casañas (2017) para la construcción de corpus diacrónicos.
2. El corpus DIACOM en español
2.1. En busca de la representatividad y el equilibrio
Todo corpus debe constituir un fiel reflejo de la realidad que pretende representar y los datos que de él se extraigan deben ser fiables y extrapolables a toda la población que este representa. Por lo tanto, la fase de diseño está siempre determinada por la necesidad de recoger una muestra representativa4 y equilibrada de la población. Para ello, es necesario observar todos los parámetros que aseguren la representatividad y el equilibrio para, así, construir un corpus lo más neutro posible, es decir, “que recoja muestras proporcionales de todos sus aspectos (niveles, temáticas, registros, etc.)” (Torruella y Llisterri 1999: 46) de forma que se pueda analizar desde diferentes perspectivas y utilizar para diversas finalidades, así como que sea posible actualizarlo y reutilizarlo cuando se precise (ibid.).
En nuestro caso, DIACOM debe reflejar el lenguaje especializado del comercio internacional en español en tres periodos históricos (que justificamos infra en 2.3.8.): 1850-1914, 1945-1970 y 1990-2018. Teniendo este objetivo en mente, abordamos su diseño con el fin de construir un corpus representativo y equilibrado. Para ello nos planteamos una serie de cuestiones que nos ayudaran a garantizar estos aspectos. En primer lugar, y a diferencia de lo que ocurre en los corpus de lengua general, la adquisición de la representatividad y el equilibrio es una cuestión un tanto más simple (cf.Ahmad 1995: 73; Ahmad y Rogers 2001: 734), pues, en principio, el universo de estudio se restringe al dominio de especialidad y se simplifica la representación de las variedades, en concreto las referidas a los niveles diastráticos y diafásicos. No obstante, por un lado, el discurso especializado presenta una heterogeneidad de situaciones comunicativas (Cabré 1999: 118) y de tipos textuales (Ahmad 1995: 60), por lo que, para dar una cobertura adecuada del dominio objeto de estudio, hemos decidido incorporar al corpus diversos tipos textuales con diferentes grados de especialización de manera que se consiga representar de la forma más amplia posible la riqueza terminológica y conceptual del ámbito estudiado. Por otro lado, los campos de especialidad suelen ser interdisciplinares y multidisciplinares. Así, para adquirir el equilibrio en el corpus, ha sido necesario estructurar y establecer los límites del dominio del comercio para, de esta manera, seleccionar textos que pertenezcan tanto al ámbito especializado en general como a los subdominios que abarca.
En segundo lugar, por cuanto respecta a los tres cortes temporales establecidos, es claro que tendremos limitaciones a la hora de garantizar su representatividad5 y mantener el equilibrio entre ellos, en particular, porque para el primer periodo histórico solo podremos incorporar aquellos textos que hayan pervivido y sean fácilmente recuperables -cuya distribución, a su vez, probablemente no sea proporcional en todos los países hispanohablantes-, o también porque la evolución del dominio de especialidad, por ejemplo, tras el advenimiento de internet y las nuevas tecnologías, ha dado lugar a la creación de nuevos subdominios que lógicamente no eran posibles en el siglo XIX.
Para lidiar con estos obstáculos inevitables, hemos abordado la labor de diseño definiendo claramente los parámetros del corpus y los criterios de selección de los textos en los que se va a estudiar el lenguaje del comercio,6 de forma que se asegure la comparabilidad entre los tres cortes sincrónicos.7 A continuación, se exponen los criterios de diseño de DIACOM en español y se justifican, al mismo tiempo, las decisiones metodológicas que se han tomado.
2.2. Delimitación del dominio de especialidad
La elección de los textos de un dominio de especialidad concreto puede resultar realmente complicada si el ámbito en cuestión es multidisciplinar o interdisciplinar, como es nuestro caso. El comercio es una actividad socioeconómica que consiste en el intercambio de bienes y servicios, que se desarrolla en diferentes sectores, pero en el que también se debe velar por la protección y la satisfacción de los consumidores, sin olvidar lo relacionado con la promoción del producto. El primer paso para delimitar el dominio de especialidad fue realizar un estudio del campo del comercio para, así, identificar sus características y establecer los límites que nos íbamos a fijar dentro de su estructura global y facilitar, de esta manera, la búsqueda y la selección de los textos. Para ello, elaboramos una clasificación temática a partir de bibliografía de referencia del ámbito (en particular, Buckley y Lessard 2005 y Zettinig y Vincze 2011) y, gracias a la consulta con un especialista,8 establecimos una estructura conceptual del campo del comercio.
Debido al hecho de que se trata de un proyecto desarrollado en Italia y enfocado a contextos extranjeros, es decir, los países de habla española y francesa, hemos atendido a las clasificaciones propias del dominio del comercio internacional. Sin embargo, puesto que nuestro interés es histórico-terminológico, hemos decidido abarcar también textos sobre el comercio interior en los países considerados. De hecho, creemos que los documentos vinculados con la realidad comercial de un país concreto del mundo hispánico proporcionan datos interesantes, por ejemplo, permiten comprobar casos de variación terminológica entre un país y otro, también a lo largo del tiempo. Además, es reseñable que nuestra propuesta abarca, entre otros, documentos de ámbito empresarial (infra 2.3.5.), lo cual permite ofrecer muestras textuales de las actividades comerciales entre empresas o entre una empresa y un particular, como pueden ser contratos o albaranes, por ejemplo.
Según Buckley y Lessard (2005), el ámbito del comercio internacional se vertebra en dos ejes, por un lado, los niveles de análisis y, por el otro, las disciplinas y temas:
(a) Los niveles de análisis principales son por lo menos cinco9 y, atendiendo a una organización de lo general a lo particular (cf. Zettinig y Vincze 2011), resultan ser:
1) macro (comercio global entre países, macroáreas, etc.);
2) sector (comercio e internacionalización de los sectores);
3) empresa (estrategias comerciales y de internacionalización de la empresa);
4) actividades y funciones para el comercio internacional y la internacionalización de la empresa (mercadotecnia, finanzas, etc.);
5) ejecutivos y empresarios (formación, competencias, etc.).
(b) Las disciplinas y temas principales, según la Academy of International Business (s/f), son 16:10
A. Economics
B. Finance
C. Accounting & Taxation
D. Organization
E. Management
F. Business Policy
G. Marketing
H. Human Resources & Industrial Relations
I. Law
J. International Relations and Political Science
K. Social Issues
L. Economic & Business History
M. Country or Area Study
N. Industry/Sectorial Study
O. Policy-Oriented Study
P. Education & IB [international business]
Compaginando los dos niveles propuestos en la bibliografía de referencia, hemos creado un primer árbol de campo del ámbito comercial:
Niveles de análisis | Disciplinas y temas | ||||
---|---|---|---|---|---|
Macro (mundo, países) | Relaciones internacionales / Política comercial | Países / Áreas de estudio | Macroeconomía | Estudios orientados a las políticas | Aspectos sociales |
Sector | Estudios industriales y sectoriales | Recursos humanos y relaciones industriales | |||
Empresa | Políticas de la empresa | Gestión de la empresa | Historia de la economía y del comercio | Organización | |
Actividades y funciones | Marketing | Finanzas | Contabilidad e impuestos | Derecho | |
Ejecutivos y empresarios | Educación y comercio internacional |
Dada la amplitud y la enorme diversidad que abarca el comercio (incluye aspectos económicos, legales, políticos, etc.), así como su capacidad de actualización a raíz de los avances sociales, técnicos y tecnológicos y la globalización, que no solo han dado lugar a la creación de nuevos subdominios (como el comercio electrónico), sino también a la modificación de las relaciones comerciales, la gestión de los procesos, las formas de contratación, los medios de transporte, etc., ha sido necesario, en una segunda fase, realizar un segundo árbol de campo simplificado a partir del primero. Así, hemos efectuado una estructuración del ámbito de especialidad, contrastada con el experto consultado, estableciendo tres grandes campos temáticos: “macroeconomía y economía internacional”, “sectores” y “empresa”, cada uno de los cuales se divide, a su vez, en diferentes subdominios.
Esta segunda estructura conceptual -que es la que vamos a seguir en nuestro proyecto- simplifica los campos de los dominios y de los subdominios con el doble propósito de paliar los (inevitables) solapamientos en la clasificación y de crear una estructura clasificatoria de más fácil uso para el usuario externo. De hecho, esta clasificación basada en dos niveles se empleará para configurar la base de datos que va a almacenar los textos de DIACOM para que, una vez compilado el corpus, las categorías establecidas se puedan utilizar como variables que permitan múltiples posibilidades de análisis en función de si se interroga el corpus en general o si se restringe la consulta a campos más específicos del primer o segundo nivel. El resultado de este proceso taxonómico y conceptual es el siguiente árbol de campo, en su versión española:
Dominios (1.er nivel en la base de datos) | Subdominios (2.o nivel en la base de datos) |
Macroeconomía y economía internacional (Comercio global entre países, macroáreas, comercio dentro de un país determinado, etc.) | Relaciones internacionales / Política comercial Países / Áreas de estudio Aspectos sociales |
Sectores (Comercio e internacionalización de sectores específicos) | Productos Servicios |
Empresa (Estrategias de internacionalización y comerciales de la empresa; actividades para el comercio internacional y la internacionalización de la empresa) | Administración (management) Marketing Logística Comercio electrónico Derecho |
Esta simplificación temática, por un lado, facilita la búsqueda de los documentos y permite seleccionar, de forma controlada, solo aquellos que guarden relación directa con los subdominios implicados. Por otro lado, teniendo en cuenta que las disciplinas evolucionan y se desarrollan y, por lo tanto, la estructura que presentan en la actualidad no tiene por qué corresponder a la de épocas anteriores, se trata de una estructura conceptual lo suficientemente amplia para permitir mantener la homogeneidad temática necesaria -especialmente en el primer nivel- no solo entre los componentes del subcorpus español, sino también entre el subcorpus francés y el español.
Una vez restringido el dominio, hemos procedido al diseño del corpus definiendo sus características generales y los atributos textuales que deben contener las muestras que vamos a incorporar, pues, como se afirma en la bibliografía especializada, la calidad del proyecto terminográfico y, por ende, de sus resultados está directamente relacionada con la calidad de la documentación en la que se basa (Bowker 1996: 42; Meyer y Mackintosh 1996: 264, entre otros). Como explicamos más adelante (infra 2.3.5.), para representar la riqueza textual del conjunto de actividades que conforman el ámbito del comercio, recogeremos documentos de distinta índole.
2.3. Criterios de diseño del corpus DIACOM
Un corpus realmente útil es aquel que se compone al menos de dos elementos: el corpus textual en sí y su arquitectura11 e interfaz de consulta (Davies 2009: 139). Por ello, la determinación de los parámetros en la fase de diseño no solo es fundamental para llevar a cabo las búsquedas y la selección de los textos que se van a incorporar al corpus, sino que también es esencial para la posterior gestión del material lingüístico que lo conforma: a partir de los parámetros se configura la base de datos que almacena los textos y, una vez compilado el corpus, se emplean como variables para realizar búsquedas más o menos complejas de forma automática mediante un programa de gestión.
El diseño de DIACOM prevé, como aconseja Torruella Casañas (2017: 63), “una arquitectura multifuncional y con una base representativa suficiente de muestras, para que pueda ser consultado con diferentes fines”. Así pues, con la intención de que se adapte lo mejor posible a las necesidades de múltiples usuarios, hemos tenido en cuenta la inexorable variación del lenguaje natural y, por ende, de los lenguajes de especialidad, manifestada en las dimensiones diatópica, diacrónica y comunicativa. De esta manera, prevemos un corpus que no solo refleje el uso de la lengua en el dominio de especialidad del comercio en toda su amplitud, sino que, a su vez, permita el manejo de datos a partir de búsquedas globales y específicas en dichos ejes, así como también su combinación.
2.3.1. Tamaño del corpus
No nos hemos fijado un número concreto de palabras al inicio del proyecto, sino que, una vez definidos los criterios específicos de diseño, se recopilarán las muestras que cumplan los requisitos estipulados. No obstante, consideramos que, teniendo en cuenta la delimitación del dominio de especialidad que nos proponemos estudiar y la disponibilidad de los textos, así como el tiempo y los recursos de los que dispongamos a lo largo del desarrollo del proyecto, DIACOM se clasificará como corpus restringido, es decir, aquel compuesto por “un número limitado de textos, bien estructurados y representativos, con la finalidad de que sean manejables y de poder desarrollar, con un coste razonable, procesos de post-edición (etiquetado, codificación, lematización, etc.)” (Torruella Casañas 2017: 47).
De hecho, no existen reglas estrictas ni fórmulas concretas, así como tampoco hay consenso en la bibliografía especializada (cf. Corpas Pastor y Seghiri Domínguez 2006) para determinar a priori el número de palabras que debe contener un corpus para constituir una muestra representativa del lenguaje que pretende reflejar. Si bien es cierto que, mientras que para algunos autores lo ideal sería construir un corpus lo más grande posible y que pudiese continuar creciendo (Sinclair 1991: 18), en los casos de los corpus especializados se acepta un tamaño más restringido e, incluso, si están bien diseñados, comienzan a ser útiles a partir de decenas de miles de palabras (Ahmad y Rogers 2001: 735-736; Bowker y Pearson 2002: 48).12
A este respecto, y a pesar de no marcar una cifra concreta al inicio del proyecto, sí tendremos en cuenta a posteriori, a partir de la observación del material que sea posible recuperar, la adquisición del equilibrio entre los componentes del corpus basado en el reparto equivalente de los textos.13 Es decir, en la construcción de DIACOM, consideramos más importante mantener una distribución textual apropiada en todos los apartados -ejes diatópico, diacrónico y tipológico- del corpus, siempre que la disponibilidad de los textos lo permita.
Asimismo, otra cuestión relacionada con el tamaño del corpus es su capacidad de actualización, es decir, en la fase de diseño es preciso establecer si el corpus será abierto o cerrado, a saber, si se trata de una colección de textos actualizable o finita, respectivamente. DIACOM se construye como corpus cerrado: su compilación finalizará en el marco del proyecto de investigación y se pondrá a disposición de la comunidad científica a finales de 2022, una vez comprobados los aspectos de representatividad y equilibrio. No obstante, el diseño del corpus no descarta su ampliación a partir de nuevos cortes temporales ni su actualización con nuevo material lingüístico en los tres periodos establecidos. Por ello, se está llevando a cabo una documentación detallada de cada una de las fases para garantizar no solo la fiabilidad del material lingüístico, sino también asegurar una futura actualización uniforme con material que se ciña a los criterios específicos de diseño propuestos.
2.3.2. Número de textos
Si bien el tamaño final de un corpus siempre se referirá a la cantidad de palabras que lo constituyen, en la fase de diseño también se debe tener en cuenta la selección de un amplio número de textos procedentes de diferentes autores como medio para asegurar la representatividad del corpus y mantener su equilibrio. Así, si un corpus está constituido por un número reducido de textos, un único texto puede condicionar los resultados de un análisis o, si solo se seleccionan textos de un único autor o un par de autores distintos, los resultados también quedan expuestos a su idiosincrasia lingüística. A este último respecto, también es preciso distinguir entre publicaciones escritas íntegramente por un solo autor -sea este individual o corporativo-, y aquellas que constan de diferentes apartados o capítulos, cada uno de ellos redactado por un autor diferente. Mientras que las primeras siempre serán consideradas un texto único, las segundas se pueden clasificar bien de forma conjunta, como un texto compuesto, bien de forma individual, donde cada una de sus secciones funciona como texto único (Pearson 1998: 60).
En definitiva, como sentencia Torruella Casañas (2017: 141), “tan importante como la frecuencia de un hecho lingüístico en los distintos apartados del corpus es su distribución entre las distintas obras del apartado”. Por lo tanto, a pesar de que, al igual que con la cantidad de palabras, tampoco nos hemos marcado en esta fase inicial una cifra de textos determinada, sí tenemos claro que se incorporará a DIACOM un amplio número de muestras escritas por diferentes autores como mejor opción para representar la heterogeneidad terminológica del lenguaje de especialidad estudiado. Al mismo tiempo, cada sección de las obras colectivas será clasificada como texto individual,14 pues tanto el contenido como las particularidades lingüísticas del autor varían.
Por último, y también en relación con la cantidad de muestras textuales, hemos tomado la decisión de incorporar todas las ediciones -no reimpresiones- de una misma obra, en caso de que se encuentren varias dentro de uno de los periodos temporales considerados. Esto permitirá estudiar los posibles cambios entre versiones derivadas de la evolución en el uso y/o significado de los términos, entre otros aspectos.15
2.3.3. Tamaño de los textos
El tamaño de las muestras que se incorporarán al corpus es también un aspecto que debe considerarse en la fase de diseño. Aquí la cuestión reside en si se van a recopilar textos completos o solo fragmentos de textos de una cantidad específica de palabras. A pesar de que el desarrollo informático y el subsiguiente aumento de la capacidad de los ordenadores en los últimos 30 años han favorecido la incorporación de textos completos y el almacenamiento de miles de millones de palabras, se sigue considerando la construcción de corpus a partir de fragmentos de obras16 por las ventajas que presentan a la hora de mantener el equilibrio entre sus diferentes apartados.17 Para la elaboración de corpus especializados, sin embargo, existe consenso en la necesidad de no limitar la muestra a un número determinado de palabras, sino de incluir el texto íntegro (Ahmad 1995: 61; Bowker 1996: 43; Meyer y Mackintosh 1996: 268; Pearson 1998: 59; Bowker y Pearson 2002: 49). La incorporación de textos completos es fundamental para el estudio de los lenguajes de especialidad, pues la información lingüística, conceptual y pragmática de las unidades terminológicas o fraseológicas puede aparecer en cualquier parte de un documento.
De acuerdo con lo anterior, las muestras que compondrán DIACOM serán textos íntegros. De esta manera, también se conseguirá un corpus “más abierto y apto para el estudio de un amplio abanico de aspectos lingüísticos” (Torruella y Llisterri 1999: 17). Esto implica, por lo tanto, que existan diferencias de tamaño entre las muestras textuales, pues su extensión variará de forma significativa en función del contenido. No obstante, como se acaba de exponer, no existe motivo para justificar la necesidad de que los documentos sean uniformes, dado que esto podría desvirtuar su contenido terminológico.
Un último aspecto referido a la integridad de los textos de DIACOM es la decisión de prescindir, antes de incorporar de forma definitiva los textos al corpus, de algunas partes que no aporten datos de interés lingüístico ni conceptual para el análisis del corpus y que puedan descompensarlo.18 Para ello, se ha creado un protocolo de limpieza de textos con los siguientes elementos:
portada;
índices;
encabezados y pies de página;
numeración de los apartados;
figuras, tablas, esquemas, cuadros de texto y gráficos, así como sus títulos y pies;
notas al pie de página, con sus números dentro del cuerpo textual, cuando estas incluyan referencias bibliográficas u otros datos que no sean de interés terminológico;
fórmulas matemáticas;
referencias bibliográficas;
datos del autor e información editorial;
firmas (p. ej. países que suscriben los tratados internacionales);
anexos;
resúmenes que estén en idiomas diferentes del español.
No obstante, estos criterios de eliminación son indicativos y no estrictos, pues es posible que encontremos excepciones con valor terminológico.19
2.3.4. Medio de producción de los textos
Atendiendo al medio de producción de los textos, DIACOM va a ser un corpus escrito, es decir, solo va a estar compuesto de material escrito. A pesar del interés lingüístico que pueda suscitar el análisis de conversaciones entre expertos o entre expertos y legos, lo más habitual en la construcción de corpus especializados es recopilar muestras escritas. Esto se justifica por dos motivos fundamentales: (i) el tiempo y el esfuerzo que requiere compilar un corpus oral debido al proceso de grabación y la posterior transcripción (sea esta ortográfica, fonética o fonológica) de las muestras orales y (ii) las dificultades asociadas a la recolección del material oral que señalan Bowker y Pearson (2002: 50): “For example, if the speakers are aware that you are recording their conversation, they may be intimidated and be careful about what they say. This means that your language sample may not be completely natural. In contrast, if you were to record a conversation without the speakers’ knowledge, you would get a more natural sample, but this type of practice raises many ethical questions”.
La decisión de descartar la recopilación de material oral se justifica, asimismo, por la necesidad de mantener el equilibrio entre los tres cortes temporales considerados, pues conseguir material no escrito sería imposible en los periodos referidos al siglo XIX y a buena parte del XX.
2.3.5. Tipos de textos
Debido al amplio espectro de manifestaciones textuales en el ámbito del comercio (Álvarez García 2017: 119), así como a la necesidad de establecer una tipología que fuese útil para los propósitos de nuestra investigación y válida para todos los cortes temporales, centramos nuestro diseño en cuatro tipos textuales,20 a saber: textos institucionales, textos empresariales, textos académicos21 y textos periodísticos. Esta clasificación se ha establecido teniendo en cuenta el emisor del texto (institución pública, empresa privada, ámbito académico y prensa) y se ha constatado su idoneidad y utilidad con el experto en la materia consultado. No se trata, por lo tanto, de una tipología textual exhaustiva -pues nuestra intención no reside en analizar los tipos de textos que se producen en el ámbito comercial ni establecer un inventario textual en función de, entre otros, la situación comunicativa y el contenido (para ello, vid.Álvarez García 2017)-, sino de una clasificación funcional de los textos producidos por la comunidad de expertos para facilitar la selección de las muestras dentro de nuestro ámbito de especialidad y que, al mismo tiempo, permita su clasificación exclusiva en uno de los tipos considerados, así como su ampliación a posteriori a través de la inclusión de otras tipologías textuales sin mayores modificaciones en los parámetros de diseño -por ejemplo, con textos legislativos-.
Somos conscientes de que los cuatro tipos textuales considerados no son estancos y que, a la hora de clasificar los documentos, se podría producir, en principio, algún solapamiento. Para paliar este aspecto, atenderemos a determinados criterios. En primer lugar, las publicaciones periódicas de corte académico (por ejemplo, una revista de marketing internacional) se clasificarán como textos académicos, ya que mantienen dos características fundamentales de dicha categoría, a saber, el público meta (la comunidad científica) y el formato de la publicación (el artículo científico). En segundo lugar, por lo que se refiere al caso -más problemático- de los textos institucionales, clasificaremos bajo dicha categoría todos los documentos internos de las entidades en cuestión (como los memorándums), además de los documentos que se dirigen al público externo si forman parte del cometido y de la responsabilidad social de la institución que los produce: es este el caso, por ejemplo, de un informe de una cámara de comercio publicado en su página web. En cambio, las publicaciones periódicas patrocinadas por instituciones que recogen artículos divulgativos, reportajes etc. se clasificarán como textos periodísticos por compartir con estos el formato.
Cada uno de los cuatro tipos textuales incluidos en nuestro corpus, a su vez, albergará diferentes géneros que, siguiendo a Cassany (2004b: 42-43), se definen, dentro de los lenguajes de especialidad, como aquellas unidades de comunicación desarrolladas sociohistóricamente en el ámbito de una actividad laboral específica y que presentan una serie de rasgos léxicos, gramaticales, discursivos y pragmáticos que las caracterizan. No obstante, en esta primera fase de diseño, no se han determinado los géneros que se van a incorporar al corpus, ya que nuestra intención es mantener este campo lo más abierto posible para dar cabida a los diferentes géneros representativos dentro de las tipologías textuales en los tres cortes temporales.22 Esta decisión se justifica, a su vez, por el interés en dar cobertura a la mayor variedad de géneros textuales que hagan posible una descripción amplia del lenguaje especializado del comercio en todas sus facetas y en el que estén representadas las diversas situaciones comunicativas que se producen en el dominio: el nivel más alto de especialización (informes, artículos científicos, etc.), el nivel semiespecializado (p. ej. manuales) y el nivel de baja especialización (prensa).23 De esta manera, se podrá garantizar el equilibrio del corpus, pues a pesar de las diferencias internas que se puedan dar entre periodos o países, sí será posible mantener el equilibrio entre tipologías textuales. Por último, hemos optado por esta clasificación abierta y flexible debido a la necesidad de que la representación textual en todas las épocas sea lo más homogénea posible. Es claro que no siempre se podrá disponer de la misma cantidad de géneros24 en todos los periodos, pero, por lo menos, los tipos textuales sí son habituales en todos ellos.
2.3.6. Autoría y autoridad de las fuentes
Para garantizar la calidad de un corpus especializado es imprescindible asegurar la autenticidad del material lingüístico que se va a incorporar al mismo. Así, los autores de los textos que se recojan deben ser expertos en el ámbito de estudio, es decir, deben tener la formación académica adecuada y/o la experiencia profesional en la materia y, además, disfrutar del reconocimiento de otros compañeros de profesión (Pearson 1998: 60; Bowker y Pearson 2002: 51). Al mismo tiempo, como señalábamos supra, es igualmente necesario seleccionar textos que hayan sido redactados por un amplio número de autores para, así, evitar preferencias particulares o idiosincrasias lingüísticas. Nuestro diseño trata de cumplir con estos criterios de calidad. Para ello hemos seleccionado tipos textuales que, con toda certeza, fueron elaborados por expertos en la materia25 y que permiten, a su vez, la incorporación de textos redactados por múltiples autores. Dentro de los textos empresariales e institucionales, en ocasiones, es difícil establecer la identidad del autor o de los autores, pues están suscritos por un organismo o institución. No obstante, la calidad de los mismos no se puede cuestionar, dado que han atravesado un proceso de elaboración, en el que probablemente habrán intervenido distintos profesionales, hasta desembocar en el texto final publicado que se incorporará al corpus.
El parámetro anterior (autoría) se encuentra intrínsecamente relacionado con el criterio de autoridad de las fuentes de las que se seleccionan los textos: no solo el autor debe ser un experto reconocido en el ámbito en el que escribe, sino que las fuentes de las que se extraigan los documentos deben gozar también de cierta reputación. Los tipos de textos que vamos a incorporar a DIACOM cumplen con este criterio, pues todos han sido sometidos -en el caso de los documentos institucionales, académicos y periodísticos- a un filtro editorial o corporativo de algún tipo. En el caso de los textos empresariales, son todos documentos auténticos que se utilizan o se utilizaron en el ámbito estudiado. La selección de las muestras se realizará, asimismo, a través de páginas electrónicas de bibliotecas digitales, instituciones y organismos nacionales e internacionales, revistas y publicaciones periódicas, etc., de manera que también se podrá validar la fiabilidad de las fuentes.
2.3.7. Lenguas y procedencia geográfica de las fuentes
Las lenguas que contemplamos en la construcción de DIACOM son el español y el francés. En concreto, se trata de un corpus bilingüe comparable que recoge textos con características similares en estos dos idiomas. Así, cada uno de los subcorpus monolingües que conforma DIACOM se ha diseñado de acuerdo con criterios semejantes de selección de muestras referidos al dominio de especialidad, tipo de texto y fecha de publicación.
Los textos que incorporamos suelen ser textos originales en una de estas dos lenguas. No obstante, no se descartan los textos traducidos por tres motivos: (i) porque muchos de los textos especializados de los siglos pasados, a veces de carácter fundacional en el ámbito de una disciplina, han entrado en el español como traducciones de otras lenguas, aunque cabe considerar que no siempre el idioma del texto que se traducía era el en que se había redactado el texto original (de hecho a menudo el francés sirvió, sobre todo en los siglos XVIII y XIX, como lengua de mediación); (ii) las traducciones también son una fuente de entrada de neología (vid., entre otros, Gómez de Enterría 1999); (iii) los textos procedentes de instituciones supranacionales o internacionales suelen ser redactados en una de las lenguas procedimentales de la institución y, posteriormente, traducidos a las demás. Por este motivo, consideramos la distinción entre texto original, texto traducido y, para casos de difícil constatación, desconocido; así los usuarios podrán seleccionar las opciones que más les convengan en la herramienta de consulta del corpus.
En cuanto al subcorpus español, se ha previsto incorporar textos de España y de todos los países de lengua española en América. A su vez, este subcorpus también podrá considerarse un corpus comparable en sí mismo,26 pues recopila textos en diferentes variedades con características similares (EAGLES 1996: 12; Torruella y Llisterri 1999: 11; Hunston 2002: 15) y podrá utilizarse para llevar a cabo análisis intralingüísticos de diversa índole.
Para su almacenamiento en la base de datos, así como la posterior consulta del corpus a través de la herramienta de búsqueda, hemos establecido una doble clasificación de los documentos según el país de procedencia del autor, de una parte, y, de otra, el lugar de publicación/redacción del texto,27 siempre que su determinación sea posible.28 Así, el usuario podrá utilizar la variable que mejor se acomode a la finalidad de su estudio y, al mismo tiempo, podrá también definir sus consultas en función de si le interesa obtener resultados globales u observar la distribución de un fenómeno en un espacio geográfico determinado. Será posible, por ejemplo, realizar sondeos sobre las zonas lingüísticas habituales para el español en América: México y Centroamérica, el área caribeña (las Antillas), la del Caribe continental (Colombia y Venezuela), la andina, la chilena y el Río de la Plata.29
No obstante, existen ciertas dificultades asociadas a estos criterios, que exponemos a continuación. Por un lado, la procedencia del autor no siempre es conocida y, al mismo tiempo, no se puede tomar como argumento absolutamente fiable para la clasificación del documento dentro de un país concreto. Para el caso de los textos institucionales y empresariales, así como de los textos periodísticos, se espera que mantengan las convenciones terminológicas establecidas en el país en el que se publican: los primeros porque se emiten en el seno de una institución, organismo oficial o entidad privada y, por lo tanto, reflejan la terminología normalizada en el ámbito de especialidad en ese territorio;30 los segundos, ya que se redactan en función de un público meta que se encuentra en un país o región concretos. Más problemático es el caso de los textos académicos, principalmente en el periodo de 1990 a 2018. Así, la adscripción universitaria del autor o el lugar de publicación de la revista no siempre se corresponden con la procedencia del autor y, por lo general, no suelen coincidir.31 En estos casos, los textos se clasifican en la base de datos de acuerdo con la adscripción universitaria del autor, pues sobrentendemos que este se adecuará terminológicamente al ámbito donde ejerce su profesión.32
Por otro lado, la delimitación político-administrativa de los diferentes estados ha sufrido cambios a lo largo de la historia, por lo que el territorio que comprende un estado no siempre es el mismo en las tres franjas temporales estudiadas. Así, para organizar los textos en nuestra base de datos de forma que fuese posible recuperar la información de la manera más sencilla, se nos planteaba el problema de su clasificación teniendo en cuenta (i) el territorio que comprenden los estados en la actualidad (solución a), (ii) la denominación actual del territorio en el que se ha publicado/redactado el texto (solución b), o (iii) la denominación del territorio -lugar de publicación/redacción- tal y como consta en el texto (solución c). Por ejemplo, si trasladamos estos planteamientos a un caso concreto como el de la República de Colombia (vid. Palacios y Safford 2002), encontramos que, en el primer corte temporal estudiado (1850-1914), se produjeron numerosos cambios en su territorio y denominación oficial: República de la Nueva Granada (1831-1858), Confederación Granadina (1858-1863), Estados Unidos de Colombia (1863-1886) y República de Colombia (desde 1886). Si tuviésemos en cuenta el territorio que comprenden los estados en la actualidad (solución a), se deberían clasificar los textos extraídos entre 1850 y 1858 procedentes de la República de la Nueva Granada, por ejemplo, tanto en Colombia como en Panamá. Por lo tanto, para los campos referidos a Colombia y a Panamá en la base de datos deberían constar varios subapartados en función de la denominación -junto con las fechas de duración- que recibiese el territorio históricamente. Si se clasificase el texto en función de la denominación que recibe el territorio actual correspondiente al lugar de publicación original (solución b), se estaría ignorando el ámbito de validez del documento en el momento de su redacción. De esta manera, si el lugar de publicación original se sitúa en la actual Panamá, en la base de datos se clasificaría en este campo, pero se omitiría el hecho de que también era válido en el territorio de la actual Colombia. Por último, la clasificación en función de la denominación político-administrativa del territorio vigente en la época de publicación del texto (solución c), opción por la que nos hemos decantado, permite recoger como campos independientes en la base de datos los estados según la denominación que consta como lugar de publicación/redacción del documento. Creemos que esta categorización es la que menos problemas metodológicos plantea33 y la que más opciones de consulta permite al usuario, quien podrá interrogar el corpus bien en su totalidad bien combinando los criterios que más se adapten a la finalidad que persigue con su investigación.
2.3.8. Periodos de tiempo
DIACOM recogerá tres cortes temporales: 1850-1914, 1945-1970 y 1990-2018. Dichos cortes cronológicos tienen una motivación extralingüística a partir de hitos históricos y eventos sociales de gran repercusión internacional. El primer periodo (1850-1914) coincide con la llamada segunda revolución industrial, caracterizada por cambios técnico-logísticos (nuevos medios de transporte, como el avión, y de comunicación, como el teléfono o la radio) y también por los avances en el aprovechamiento de recursos energéticos (gas, petróleo, electricidad). Además, en la segunda mitad del siglo XIX inicia sus primeros pasos lo que más tarde se denominaría globalización:
Benché, nel dibattito corrente, si tenda a considerarla una novità assoluta della nostra era, fra gli storici economici vi è ampia convergenza nell’affermare che la globalizzazione, nella sua essenza, non è un fenomeno del tutto nuovo. Più precisamente - circoscrivendo il campo d’indagine al capitalismo moderno e considerando la dinamica dei flussi migratori, delle esportazioni e degli investimenti diretti all’estero - si evidenzia come l’economia mondiale abbia vissuto tre fasi di globalizzazione (Collier y Dollar 2003):
la prima coincidente con il periodo 1870-1914;
la seconda con gli anni 1945-1980;
la terza, quella attualmente in corso, con la fine del ventesimo secolo.
(Valdani y Bertoli 2014: 5, cursivas en el texto).
El segundo y el tercer corte cronológico considerados en nuestro corpus, así pues, coinciden en gran medida con la segunda y la tercera fase de la globalización según las periodizaciones aceptadas entre los historiadores de la economía, además de apuntalarse en grandes acontecimientos como la posguerra (1945-1970) y el afianzamiento de la revolución digital y de internet (1990-2018).34
Queda claro que los procesos histórico-sociales que tomamos como puntos de referencia no se desarrollaron con la misma intensidad ni al mismo tiempo en todos los países hispánicos, pero el mismo inconveniente se daría con cualquier otra periodización basada en motivaciones extralingüísticas. En nuestro caso, este posible problema lo palia la propia amplitud cronológica de las tres franjas temporales. Además, gracias al amplio consenso existente entre los especialistas en historia del comercio al respecto de los hitos históricos en cuestión, los tres cortes cronológicos se pueden compartir con el subcorpus francés del DIACOM.
Por consiguiente, nuestro corpus no sigue criterios estrictos de división por cuartos de siglo, por ejemplo, porque -como bien señala Torruella Casañas (2017: 78)- la evolución lingüística no se produce de acuerdo con el calendario. Por lo tanto, en cuanto al periodo de tiempo que contempla, podrá clasificarse como un corpus diacrónico,35 dado que recogerá textos de franjas temporales en tres siglos sucesivos, si bien cada uno de sus componentes temporales podrá considerarse sincrónico, pues reflejará la lengua de especialidad de un periodo concreto. Este diseño permite observar tanto la evolución de los fenómenos lingüísticos como su estado en cada uno de los cortes temporales.
2.4. Marcaje de los textos
DIACOM va a ser un corpus etiquetado con información tanto metalingüística como lingüística. En el nivel de etiquetado metalingüístico se tendrán en cuenta todos aquellos aspectos de los documentos incorporados al corpus que permitan, posteriormente, una consulta específica o combinada por periodo de tiempo, tipo textual, dominio y subdominio, así como país de procedencia del autor o lugar de publicación/redacción del texto. En cuanto al nivel de anotación, el proyecto contempla -por lo menos en la primera fase en la que nos encontramos- la anotación morfológica y la lematización.
En este último caso, los textos se incorporarán al corpus manteniendo sus peculiaridades gráficas -es decir, no se llevará a cabo la normalización según los usos ortográficos actuales- y el lema que albergará todas las formas de una palabra, así como de su paradigma flexivo, se seleccionará siguiendo las normas ortográficas vigentes (p. ej. esportar / exportar → exportar). De esta manera, DIACOM no solo permitirá efectuar análisis terminológicos y fraseológicos, sino que, al mantener las convenciones gráficas de las diferentes épocas, también hará posible observar otros fenómenos lingüísticos desde mediados del siglo XIX a la actualidad.36
2.5. Búsqueda y selección de textos
Tras la primera fase de diseño del corpus, le sigue una segunda de compilación teniendo en consideración todos los parámetros que garanticen, tanto en este primer estadio como en los posteriores, su representatividad y equilibrio. Debido a la interdisciplinariedad y la multidisciplinariedad del dominio de especialidad estudiado, así como al propósito por el que se compila DIACOM, a saber, el análisis del lenguaje especializado del comercio internacional desde diferentes aproximaciones, nuestro interés se centrará en mantener la homogeneidad temática en los subdominios acotados.37 A diferencia de los grandes corpus de lengua general, donde los desajustes de representatividad y equilibrio acaban siendo compensados con la inmensa cantidad de datos que incorporan, en un corpus más restringido, se contrarrestan con la calidad del material lingüístico que lo compone y que, en nuestro caso, vendrá determinada por la pertenencia de los textos al dominio de especialidad y por la organización de los datos, esto es, su clasificación a partir de diferentes parámetros para su posterior gestión y extracción en la herramienta de consulta. Así, además de recuperar datos globales, el usuario podrá ajustar sus variables de búsqueda por país, periodo o tipo textual y combinarlas para observar la distribución de los fenómenos lingüísticos de la manera más acertada para su investigación.
Atendiendo a los criterios de diseño expuestos, iniciaremos la búsqueda de los textos. Se recopilarán las muestras en función de criterios externos, pues estos pueden establecerse a priori (Biber 1993: 245), sin necesidad de leer el texto (Atkins et al. 1992: 5). En concreto, seleccionaremos los documentos que cumplan los requisitos estipulados referidos al ámbito de especialidad, la lengua y el tipo textual.
Para la obtención de los textos en los sitios web recurriremos a la búsqueda temática por la palabra clave “comercio”. No obstante, no se trata de hacer acopio de todos los textos fruto de la búsqueda por dicha palabra clave, puesto que su amplitud puede provocar desajustes entre los componentes del corpus. De hecho, de los resultados que muestre la búsqueda se seleccionarán solo aquellos que se inserten en uno de los subdominios en los que hemos estructurado el ámbito para su estudio. Para ello, hemos determinado una serie de palabras clave -simplificadas siguiendo la bibliografía especializada- que nos servirán tanto para la selección de los textos como también para su posterior clasificación y organización en la base de datos. Solo de esta manera podremos garantizar la homogeneidad temática necesaria para alcanzar el equilibro del corpus.
Así, nuestra búsqueda se restringe, para los tres cortes cronológicos, a documentos en formato digital -bien hayan pasado estos por un proceso de digitalización bien sea su soporte original el electrónico-. Esta decisión viene motivada por la disponibilidad de los documentos en formato digital, cuyo acceso es sencillo y rápido, de forma que el proceso de tratamiento informático de los datos se agiliza. A este respecto, también hemos tenido en cuenta las cuestiones relacionadas con los derechos de autor o copyright. Si bien, por un lado, se trata de textos de acceso libre -algunos de ellos exentos de derechos de autor- y gratuito, y, por otro, nuestro proyecto no tiene fines comerciales ni prevé facilitar al usuario final el acceso al texto completo, nuestra intención es establecer colaboraciones y pedir permisos, pues como señala Torruella Casañas (2017: 155), los derechos morales pueden ser igual de importantes o, incluso, más que los derechos legales.
3. Desarrollo futuro del proyecto
Como se ha visto a lo largo del trabajo, la construcción de cualquier corpus conlleva la toma de múltiples decisiones que deberán justificarse y ponerse a disposición de la comunidad científica para que los investigadores puedan hacer uso de la herramienta con la confianza de que esta proporcione resultados fidedignos. Consideramos, pues, que la documentación de los criterios de diseño y la justificación de las decisiones que hemos tomado a la hora de diseñar DIACOM conforman una fase fundamental del proyecto que estamos llevando a cabo, no solo para informar a los futuros usuarios de su contenido, sino también para evaluar su calidad, así como para que pueda servir de modelo para otras investigaciones. En esta fase inicial hemos prestado especial atención a los criterios generales de diseño del corpus para garantizar, a priori, la representatividad y el equilibrio del corpus.
No obstante, no dejamos de lado que la composición de un corpus debe ser realista y que tendrá limitaciones como parte finita de un universo infinito (Parodi 2010: 24; McEnery y Hardie 2012: 15); por ello, la compilación de un corpus representativo es un proceso cíclico (Biber 1993: 256), dado que no siempre se pueden determinar todos los criterios que influirán en su construcción al inicio del trabajo. En el caso de DIACOM, por tratarse de un corpus especializado y diacrónico, enfrentamos tres cuestiones clave: la menor disponibilidad de textos especializados, la supervivencia de muestras representantes del dominio y el desigual volumen de producción y conservación de documentos por los países estudiados. Conscientes de estas limitaciones, nuestra intención ha sido disponer unos parámetros de diseño bien planteados y flexibles que se puedan reajustar a posteriori.
Para ello, se ha previsto la creación de un corpus piloto, ya marcado, que permita revisar la distribución de los documentos en la estructura del corpus y detectar carencias en su composición, para, posteriormente, realizar los ajustes y las actualizaciones convenientes en los parámetros de diseño y la distribución textual (cf. Biber 1993: 256; Torruella Casañas 2017: 147-149). Además, la creación de este corpus piloto permitirá probar la base de datos y la herramienta de consulta diseñadas para DIACOM antes de ponerlas a disposición de los usuarios externos al proyecto.