Contrastive Aligned Joint Learning for Multilingual Summarization

ByteDance AI Lab, †Fudan University
Findings of ACL 2021

Abstract

Multilingual text summarization requires the ability to understand documents in multiple languages and generate summaries in the corresponding language, which poses more challenges on current summarization systems. However, this problem has been rarely studied due to the lack of large-scale supervised summarization data in multiple languages. In this paper, we first provide a large-scale multilingual summarization corpus MLGSum consisting of 1.1 million articles and summaries in 12 different languages. Based on it, we develop a unified summarization model to understand the document and generate summaries in different languages. We use the contrastive learning strategy to train our multilingual summarization system (CALMS), which consists of two training objectives, contrastive sentence ranking (CSR) and sentence aligned substitution (SAS). The two training objectives are designed to share salient information extractive ability and align sentencelevel representation across different languages. Experimental results indicate that CALMS achieves significant improvement over monolingual models in all languages. We further transfer CALMS to other languages and find that it will also benefit similar languages.

Overview: Multilingual Summarization

Multilingual text summarization requires the ability to understand documents in multiple languages and generate summaries in the corresponding language, which poses more challenges on current summarization systems.
Currently, it has following challenges:
1. Lack of large-scale summarization datasets with multiple languages.
2. A unified summarization model which obtains great performance in all languages.
  (a) It is costly to train one model for each language.
  (b) There is not enough data for low-resource language.
  (c) Jointly training will sacrifice the performance of high-resource languages.

MLGSum: Multilingual Summarization Dataset

We list the statistics of our multilingual summarization datasets. The 'Article' and 'Summary' are the average length of articles and summaries in the dataset. For Chinese, it is calculated by characters. For other space-split language, it is calculated by words.

Language Size Article Summary Train Dev Test
German (De) 494,514 457 27 445,062 24,726 24,726
English (En) 191,365 476 24 172,228 9,568 9,569
Russian (Ru) 87,125 499 24 78,412 4,356 4,357
French (Fr) 85,030 463 36 76,527 4,251 4,252
Chinese (Zh) 65,203 799 56 58,682 3,260 3,261
Hindi (Hi) 59,145 565 28 53,230 2,957 2,958
Spanish (Es) 43,162 703 30 38,845 2,158 2,159
Indonesian (Id) 35,495 360 21 31,945 1,775 1,775
Turkish (Tr) 26,539 342 20 33,047 1,836 1,836
Vietnamese (Vi) 26,539 847 34 23,885 1,327 1,327
Ukrainian (Uk) 33,214 444 21 29,892 1,661 1,661
Portuguese (Pt) 20,945 927 34 18,850 1,047 1,048
Total 1,168,276 573.5 29.6 1,060,605 58,922 58,929

We show one example for five high-resource languages.

Article  
Die kleinsten bekannten Chamäleons der Welt haben offenkundig auch die schnellsten Zungen. #SENT# Binnen einer Hundertstelsekunde schafften es die daumengroßen Reptilien mit dem wissenschaftlichen Namen Rhampholeon spinosus, ihre Zunge von null auf 97 Stundenkilometer zu beschleunigen. #SENT# Das schrieben Forscher der Brown University im US-Bundesstaat Rhode Island in der Zeitschrift „Scientific Reports“. #SENT# Die Zungen beschleunigten 264 Mal so stark wie die Erdanziehungskraft auf ein Objekt, dass sich im freien Fall befindet. #SENT# Die Leistungskraft der Zungenapparates wird mit 14.040 Watt pro Kilogramm angegeben, was nur ein Salamander übertreffen könne. #SENT# Der an der Studie beteiligte Biologe Christopher Anderson nannte als Motivation für die Untersuchung: Er habe die Studie gemacht, weil die Zungenkraft des kleinsten Chamäleons der Welt nie zuvor gemessen worden sei. #SENT# „Kleinere Arten haben eine größere Leistungsfähigkeit als größere“, lautet sein Fazit. #SENT# Die Zunge des Chamäleons ist gut zweieinhalb Mal so lang wie der Körper des Tieres. #SENT# In nur 20 Millisekunden kann das Chamäleon Rhampholeon spinosus damit seine Beute fangen.
Summary  
Von null auf 100 in nur einer hundertstel #SENT# Sekunde: Besonders die kleinsten Chamäleons haben die schnellsten Zungen. #SENT# Jede Beute ist da chancenlos.
Article  
По словам самого Экклстоуна, его лишили всех полномочий и назначили почетным президентом "Формулы-1". #SENT# При этом, признался бизнесмен, он не совсем понимает, что это за должность и что на ней нужно делать. #SENT# Место Экклстоуна займет Чейз Керри, известный как сподвижник медиамагната Руперта Мердока и вице-президент компании XXI Century Fox. #SENT# Кроме того, по инициативе нового владельца в "Формулу-1" вернется Росс Браун. #SENT# Браун станет спортивным директором "Формулы-1". #SENT# До этого он работал техническим директором в командах Benetton, Ferrari и Honda, а также возглавлял Mercedes и собственную команду Braun GP. #SENT# Компания Liberty Media анонсировала приобретение "Формулы-1" еще в сентябре, однако официально сделку закрыли только сейчас. #SENT# Осенью компания обещала, что Экклстоун сохранит свой пост. #SENT# Сумма сделки оценивается примерно в 4,4 млрд долларов. #SENT# Стоимость активов "Формулы-1" оценивается выше - примерно в 8 млрд долларов - но в ходе переговоров стороны учли имеющийся у ее владельцев долг в 4,1 млрд долларов. #SENT# Берни Экклстоун начинал свою карьеру как гонщик, но существенных успехов не достиг. #SENT# Он переквалифицировался сначала в личного менеджера для гонщиков, а затем в директора команды Brabham. #SENT# В 1970-х годах Экклстоун, вошедший к тому моменту в ассоциацию конструкторов "Формулы-1", сумел заключить несколько выгодных сделок с различными телеканалами, продав им права на трансляцию гонок за непривычно крупные по тем временам деньги. #SENT# Именно с именем Экклстоуна связывают резкий рост популярности "Формулы-1" и приход в нее больших денег, так как до заключенных им сделок этот вид автоспорта не был успешным с коммерческой точки зрения. #SENT# В результате Экклстоун стал считаться фактически главным человеком в "Формуле-1" и оставался им до недавнего времени.
Summary  
Новый владелец "Формулы-1", американская компания Liberty Media, уволила Берни Экклстоуна с должности генерального промоутера гонок, которую он занимал несколько десятилетий.
Article  
Arsenal, le leader de la Premier League, a e ́te ́ se ́ve`rement corrige ́, samedi 14 de ́cembre, par Manchester City (6-3) qui prend la deuxie`me place du classement a` seulement trois points des hommes d’Arse`ne Wenger. #SENT# Il s’agit de la huitie`me victoire de City a` domicile ou` il est invaincu cette saison, et ce contre la meilleure e ́quipe a` l’exte ́rieur. #SENT# Les Londoniens ont commence ́ a` prendre l’eau de`s l’entame du match, Sergio Agu ̈ero ayant besoin de 14 minutes seulement pour ouvrir la marque et inscrire son 13e but de la saison en championnat.
Summary  
Irre ́sistible a` domicile depuis le de ́but de la saison, Manchester City a e ́trille ́ Arsenal (6-3) lors du match au sommet de la Premier League. #SENT# Les Mancuniens reviennent a` trois points des Gunners en haut du classement.
Article  
风暴“凯蒂”从周日(3月27日)夜间开始吹袭英国英格兰大部分地区,最高风速达每小时近170公里,造成航班取消,房屋受损、数万计居民停电。 #SENT# 伦敦两大机场盖特威克和希思罗的进港航班被迫改降其他机场,另外还有数十个航班被取消。 #SENT# 风暴最强时,超过8万个家庭停电,目前仍然有数千人还在等待恢复供电。 #SENT# 风暴带来大雨,许多河流水位迅速上涨,英格兰环境署已经发出了29宗洪水预警。 #SENT# 英格兰的铁路出现严重延误,不少高速公路桥被迫关闭,导致公路上出现大面积拥堵。 #SENT# 高速公路管理部门告诫道路使用者,在出门之前查阅天气和道路情况,摩托车、旅行车等防风能力较低的车辆要特别小心。 #SENT# (编译:罗玲 责编:欧阳成)
Summary  
英国大部分英格兰地区遭遇风暴“凯蒂”吹袭,航班取消、房屋受损、数千计居民停电。
Contrastive Aligned Joint Learning

Contrastive Sentence Ranking (CSR)

Motivated by multi-choice questions that summarise the main idea in reading comprehension, we design a contrastive training strategy to make the model distinguish salient information. This capability is independent of languages and very significant for summarization task.

(1) Randomly sample \(q\) sentences as candidates.

(2) Calculate n-gram overlaps between the ground-truth summaries and the candidates

(3) Take the candidate with the highest overlaps as positive and the remaining ones as negative.

Sentence Aligned Substitution (SAS)

Motivated by the success of code-switch technology in word-level for multilingual translation, we design a sentence-level substitution to align representations across languages.

(1) Take lead sentences and translate to other languages.

(2) Insert the translated sentences into original document.

(3) Denoise the sentences from the noisy documents.

Article  
… The operator of the Fukushima nuclear power plant said that about 45 tons of water were found outside the purification device over the weekend. ... About 300 liters of water leaked from a crack in the wall and may have flowed into the Pacific Ocean. ... Japanese officials said that sandbags have been used to plug the cracks. …… In March this year, Japan's massive earthquake triggered a tsunami that caused severe damage to the Fukushima Nuclear Power Plant. ...
Summary  
A large amount of radioactively contaminated water is discharged from the Fukushima nuclear power plant in Japan, some of which may have leaked into the Pacific Ocean.
Candidate  
A. The tsunami triggered by the Great Japan Earthquake in March this year caused severe damage to the Fukushima Nuclear Power Plant. (ROUGE:0.30)
B. About 300 liters of water leaked from a crack in the wall and may have flowed into the Pacific Ocean. (ROUGE:0.52)
C. Japanese officials said that sandbags have been used to plug the crack. (ROUGE:0.24)
D. The operator of the Fukushima nuclear power plant said that about 45 tons of water were found outside the purification device over the weekend. (ROUGE:0.31)
Label
B
Document  
Die Union of Universities and Colleges in the United Kingdom (UCU) hat erklärt, dass England bei einer Erhöhung der Studiengebühren auf £5.000 pro Jahr zu einem der 22 Mitgliedsstaaten der die Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD), das teuerste Land für Studiengebühren. #SENT# Das Team unter der Leitung von Lord Browne bewertet und überprüft die Finanzierung der Universität. Es wird erwartet, dass es der Regierung in zwei Wochen einen Bewertungsbericht vorlegt. Schlagen Sie vor. #SENT# Es wird allgemein erwartet, dass der Evaluierungsbericht eine Anhebung der Obergrenze für Studiengebühren an Universitäten auf 7.000 £ pro Jahr oder mehr empfiehlt. …… #SENT# Hunter forderte Lord Brown und die Regierung auf, in Erwägung zu ziehen, Unternehmen zusätzliche Steuern aufzuerlegen, um die Kosten der Hochschulbildung zu subventionieren und diese weiter für den Ausbau der Hochschulbildung zu verwenden, anstatt Ausgaben zu kürzen.
Noisy
document  
#SENT# Es wird allgemein erwartet, dass im Evaluierungsbericht empfohlen wird, die Obergrenze der Studiengebühren auf 7.000 £ pro Jahr oder mehr anzuheben. #SENT# auf Platz 4#SENT# The Union of Universities and Colleges in the United Kingdom (UCU) stated that if tuition fees increase to £5,000 per year, England will become the most expensive country among the 22 member states of the Organization for Economic Cooperation and Development (OECD). #SENT# Eine Analyse der Universitäts- und Hochschulgewerkschaft zeigt, dass sechs der 22 Mitgliedsstaaten der OECD im Zeitraum 2007-08 nationale Studiengebühren zahlen kostenlos, während die durchschnittlichen Studiengebühren an öffentlichen Universitäten in verschiedenen Ländern 1.427 Pfund betragen. #SENT# Die Studiengebühren in England betragen derzeit 3.290 GBP pro Jahr und liegen damit an vierter Stelle in den OECD-Ländern nach Island, Norwegen und den Vereinigten Staaten. #SENT# The team led by Lord Browne is evaluating and reviewing university funding and is expected to submit an evaluation report in two weeks to make recommendations to the government. # SENT# Die durchschnittliche Studiengebühr für öffentliche Universitäten in den Vereinigten Staaten beträgt 3.572 GBP pro Jahr, während private Universitäten höhere Studiengebühren haben, die durchschnittlich 21.979 USD (ca. 13.883) USD pro Jahr betragen. ...
Target  
Die Union of Universities and Colleges in the United Kingdom (UCU) hat erklärt, dass England bei einer Erhöhung der Studiengebühren auf £5.000 pro Jahr zu einem der 22 Mitgliedsstaaten der die Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD), das teuerste Land für Studiengebühren. #SENT# Das Team unter der Leitung von Lord Browne bewertet und überprüft die Finanzierung der Universität. Es wird erwartet, dass es der Regierung in zwei Wochen einen Bewertungsbericht vorlegt. Schlagen Sie vor.
Model Performance

The original summarization metric ROUGE is made only for English, we map the non-English tokens to numbers.

Evaluate tool: MLROUGE

R-1 is ROUGE-1 score and Delta is the difference between models and monolingual model initialized with mBART. Avg is the average delta for five languages.

Model Settings De En Ru Fr Zh Avg
R-1 Delta R-1 Delta R-1 Delta R-1 Delta R-1 Delta Delta
Mono Lead2 26.35 - 22.54 - 17.21 - 37.61 - 29.74 - -
Transfromer 24.27 - 31.76 - 14.07 - 25.34 - 29.52 - -
mBART 25.92 - 38.89 - 21.52 - 35.75 - 38.25 - -
Multi mTransformer 23.91 -2.01 31.65 -7.24 15.07 -6.45 32.26 -3.49 31.65 -6.60 -5.16
mBART 26.13 0.21 39.78 0.89 21.90 0.38 36.24 0.49 38.91 0.66 0.53
CALMS 26.38 0.46 39.83 0.94 22.04 0.52 37.00 1.25 38.83 0.58 0.75
Finetune mBART 26.01 0.09 39.87 0.98 21.57 0.05 36.02 0.27 38.93 0.68 0.41
CALMS 26.33 0.41 39.88 0.99 22.21 0.69 36.88 1.13 39.02 0.77 0.80

Does CALMS really help to learn a unified model for multilingual summarization?

We further transfer the unified model to other languages. We finetune our CALMS trained on five languages to another 6 languages.

Family Lang Transformer mBART CALMS
Romance Pt 15.93 24.82 25.89
Romance Es 21.51 29.37 29.77
Slavic Uk 11.09 18.62 19.23
Turkic Tr 13.45 21.97 21.68
Vietic Vi 18.82 30.88 30.75
Indo-Aryan Hi 25.53 33.36 32.98
Malayo-Polyn Id 18.61 27.17 28.00
Average - 17.85 26.60 26.90

BibTeX

@inproceedings{wang-etal-2021-contrastive,
      title = "Contrastive Aligned Joint Learning for Multilingual Summarization",
      author = "Wang, Danqing  and Chen, Jiaze  and Zhou, Hao  and Qiu, Xipeng  and Li, Lei",
      booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
      month = aug,
      year = "2021",
      address = "Online",
      publisher = "Association for Computational Linguistics",
      url = "https://aclanthology.org/2021.findings-acl.242",
      doi = "10.18653/v1/2021.findings-acl.242",
      pages = "2739--2750"}