Overview: Multilingual Summarization
Multilingual text summarization requires the ability to understand documents in multiple languages and generate summaries in the corresponding language, which poses more challenges on current summarization systems.
Currently, it has following challenges:
1. Lack of large-scale summarization datasets with multiple languages.
2. A unified summarization model which obtains great performance in all languages.
(a) It is costly to train one model for each language.
(b) There is not enough data for low-resource language.
(c) Jointly training will sacrifice the performance of high-resource languages.
We list the statistics of our multilingual summarization datasets. The 'Article' and 'Summary' are the average length of articles and summaries in the dataset. For Chinese, it is calculated by characters. For other space-split language, it is calculated by words.
Language | Size | Article | Summary | Train | Dev | Test |
---|---|---|---|---|---|---|
German (De) | 494,514 | 457 | 27 | 445,062 | 24,726 | 24,726 |
English (En) | 191,365 | 476 | 24 | 172,228 | 9,568 | 9,569 |
Russian (Ru) | 87,125 | 499 | 24 | 78,412 | 4,356 | 4,357 |
French (Fr) | 85,030 | 463 | 36 | 76,527 | 4,251 | 4,252 |
Chinese (Zh) | 65,203 | 799 | 56 | 58,682 | 3,260 | 3,261 |
Hindi (Hi) | 59,145 | 565 | 28 | 53,230 | 2,957 | 2,958 |
Spanish (Es) | 43,162 | 703 | 30 | 38,845 | 2,158 | 2,159 |
Indonesian (Id) | 35,495 | 360 | 21 | 31,945 | 1,775 | 1,775 |
Turkish (Tr) | 26,539 | 342 | 20 | 33,047 | 1,836 | 1,836 |
Vietnamese (Vi) | 26,539 | 847 | 34 | 23,885 | 1,327 | 1,327 |
Ukrainian (Uk) | 33,214 | 444 | 21 | 29,892 | 1,661 | 1,661 |
Portuguese (Pt) | 20,945 | 927 | 34 | 18,850 | 1,047 | 1,048 |
Total | 1,168,276 | 573.5 | 29.6 | 1,060,605 | 58,922 | 58,929 |
We show one example for five high-resource languages.
- Article
- Die kleinsten bekannten Chamäleons der Welt haben offenkundig auch die schnellsten Zungen. #SENT# Binnen einer Hundertstelsekunde schafften es die daumengroßen Reptilien mit dem wissenschaftlichen Namen Rhampholeon spinosus, ihre Zunge von null auf 97 Stundenkilometer zu beschleunigen. #SENT# Das schrieben Forscher der Brown University im US-Bundesstaat Rhode Island in der Zeitschrift „Scientific Reports“. #SENT# Die Zungen beschleunigten 264 Mal so stark wie die Erdanziehungskraft auf ein Objekt, dass sich im freien Fall befindet. #SENT# Die Leistungskraft der Zungenapparates wird mit 14.040 Watt pro Kilogramm angegeben, was nur ein Salamander übertreffen könne. #SENT# Der an der Studie beteiligte Biologe Christopher Anderson nannte als Motivation für die Untersuchung: Er habe die Studie gemacht, weil die Zungenkraft des kleinsten Chamäleons der Welt nie zuvor gemessen worden sei. #SENT# „Kleinere Arten haben eine größere Leistungsfähigkeit als größere“, lautet sein Fazit. #SENT# Die Zunge des Chamäleons ist gut zweieinhalb Mal so lang wie der Körper des Tieres. #SENT# In nur 20 Millisekunden kann das Chamäleon Rhampholeon spinosus damit seine Beute fangen.
- Summary
- Von null auf 100 in nur einer hundertstel #SENT# Sekunde: Besonders die kleinsten Chamäleons haben die schnellsten Zungen. #SENT# Jede Beute ist da chancenlos.
- Article
- По словам самого Экклстоуна, его лишили всех полномочий и назначили почетным президентом "Формулы-1". #SENT# При этом, признался бизнесмен, он не совсем понимает, что это за должность и что на ней нужно делать. #SENT# Место Экклстоуна займет Чейз Керри, известный как сподвижник медиамагната Руперта Мердока и вице-президент компании XXI Century Fox. #SENT# Кроме того, по инициативе нового владельца в "Формулу-1" вернется Росс Браун. #SENT# Браун станет спортивным директором "Формулы-1". #SENT# До этого он работал техническим директором в командах Benetton, Ferrari и Honda, а также возглавлял Mercedes и собственную команду Braun GP. #SENT# Компания Liberty Media анонсировала приобретение "Формулы-1" еще в сентябре, однако официально сделку закрыли только сейчас. #SENT# Осенью компания обещала, что Экклстоун сохранит свой пост. #SENT# Сумма сделки оценивается примерно в 4,4 млрд долларов. #SENT# Стоимость активов "Формулы-1" оценивается выше - примерно в 8 млрд долларов - но в ходе переговоров стороны учли имеющийся у ее владельцев долг в 4,1 млрд долларов. #SENT# Берни Экклстоун начинал свою карьеру как гонщик, но существенных успехов не достиг. #SENT# Он переквалифицировался сначала в личного менеджера для гонщиков, а затем в директора команды Brabham. #SENT# В 1970-х годах Экклстоун, вошедший к тому моменту в ассоциацию конструкторов "Формулы-1", сумел заключить несколько выгодных сделок с различными телеканалами, продав им права на трансляцию гонок за непривычно крупные по тем временам деньги. #SENT# Именно с именем Экклстоуна связывают резкий рост популярности "Формулы-1" и приход в нее больших денег, так как до заключенных им сделок этот вид автоспорта не был успешным с коммерческой точки зрения. #SENT# В результате Экклстоун стал считаться фактически главным человеком в "Формуле-1" и оставался им до недавнего времени.
- Summary
- Новый владелец "Формулы-1", американская компания Liberty Media, уволила Берни Экклстоуна с должности генерального промоутера гонок, которую он занимал несколько десятилетий.
- Article
- Arsenal, le leader de la Premier League, a e ́te ́ se ́ve`rement corrige ́, samedi 14 de ́cembre, par Manchester City (6-3) qui prend la deuxie`me place du classement a` seulement trois points des hommes d’Arse`ne Wenger. #SENT# Il s’agit de la huitie`me victoire de City a` domicile ou` il est invaincu cette saison, et ce contre la meilleure e ́quipe a` l’exte ́rieur. #SENT# Les Londoniens ont commence ́ a` prendre l’eau de`s l’entame du match, Sergio Agu ̈ero ayant besoin de 14 minutes seulement pour ouvrir la marque et inscrire son 13e but de la saison en championnat.
- Summary
- Irre ́sistible a` domicile depuis le de ́but de la saison, Manchester City a e ́trille ́ Arsenal (6-3) lors du match au sommet de la Premier League. #SENT# Les Mancuniens reviennent a` trois points des Gunners en haut du classement.
- Article
- 风暴“凯蒂”从周日(3月27日)夜间开始吹袭英国英格兰大部分地区,最高风速达每小时近170公里,造成航班取消,房屋受损、数万计居民停电。 #SENT# 伦敦两大机场盖特威克和希思罗的进港航班被迫改降其他机场,另外还有数十个航班被取消。 #SENT# 风暴最强时,超过8万个家庭停电,目前仍然有数千人还在等待恢复供电。 #SENT# 风暴带来大雨,许多河流水位迅速上涨,英格兰环境署已经发出了29宗洪水预警。 #SENT# 英格兰的铁路出现严重延误,不少高速公路桥被迫关闭,导致公路上出现大面积拥堵。 #SENT# 高速公路管理部门告诫道路使用者,在出门之前查阅天气和道路情况,摩托车、旅行车等防风能力较低的车辆要特别小心。 #SENT# (编译:罗玲 责编:欧阳成)
- Summary
- 英国大部分英格兰地区遭遇风暴“凯蒂”吹袭,航班取消、房屋受损、数千计居民停电。
Contrastive Sentence Ranking (CSR)
Motivated by multi-choice questions that summarise the main idea in reading comprehension, we design a contrastive training strategy to make the model distinguish salient information. This capability is independent of languages and very significant for summarization task.
(1) Randomly sample \(q\) sentences as candidates.
(2) Calculate n-gram overlaps between the ground-truth summaries and the candidates
(3) Take the candidate with the highest overlaps as positive and the remaining ones as negative.
Sentence Aligned Substitution (SAS)
Motivated by the success of code-switch technology in word-level for multilingual translation, we design a sentence-level substitution to align representations across languages.
(1) Take lead sentences and translate to other languages.
(2) Insert the translated sentences into original document.
(3) Denoise the sentences from the noisy documents.
- Article
- … The operator of the Fukushima nuclear power plant said that about 45 tons of water were found outside the purification device over the weekend. ... About 300 liters of water leaked from a crack in the wall and may have flowed into the Pacific Ocean. ... Japanese officials said that sandbags have been used to plug the cracks. …… In March this year, Japan's massive earthquake triggered a tsunami that caused severe damage to the Fukushima Nuclear Power Plant. ...
- Summary
- A large amount of radioactively contaminated water is discharged from the Fukushima nuclear power plant in Japan, some of which may have leaked into the Pacific Ocean.
- Candidate
- A. The tsunami triggered by the Great Japan Earthquake in March this year caused severe damage to the Fukushima Nuclear Power Plant. (ROUGE:0.30)
B. About 300 liters of water leaked from a crack in the wall and may have flowed into the Pacific Ocean. (ROUGE:0.52)
C. Japanese officials said that sandbags have been used to plug the crack. (ROUGE:0.24)
D. The operator of the Fukushima nuclear power plant said that about 45 tons of water were found outside the purification device over the weekend. (ROUGE:0.31)
- Label
- B
- Document
- Die Union of Universities and Colleges in the United Kingdom (UCU) hat erklärt, dass England bei einer Erhöhung der Studiengebühren auf £5.000 pro Jahr zu einem der 22 Mitgliedsstaaten der die Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD), das teuerste Land für Studiengebühren. #SENT# Das Team unter der Leitung von Lord Browne bewertet und überprüft die Finanzierung der Universität. Es wird erwartet, dass es der Regierung in zwei Wochen einen Bewertungsbericht vorlegt. Schlagen Sie vor. #SENT# Es wird allgemein erwartet, dass der Evaluierungsbericht eine Anhebung der Obergrenze für Studiengebühren an Universitäten auf 7.000 £ pro Jahr oder mehr empfiehlt. …… #SENT# Hunter forderte Lord Brown und die Regierung auf, in Erwägung zu ziehen, Unternehmen zusätzliche Steuern aufzuerlegen, um die Kosten der Hochschulbildung zu subventionieren und diese weiter für den Ausbau der Hochschulbildung zu verwenden, anstatt Ausgaben zu kürzen.
- Noisy
document - #SENT# Es wird allgemein erwartet, dass im Evaluierungsbericht empfohlen wird, die Obergrenze der Studiengebühren auf 7.000 £ pro Jahr oder mehr anzuheben. #SENT# auf Platz 4#SENT# The Union of Universities and Colleges in the United Kingdom (UCU) stated that if tuition fees increase to £5,000 per year, England will become the most expensive country among the 22 member states of the Organization for Economic Cooperation and Development (OECD). #SENT# Eine Analyse der Universitäts- und Hochschulgewerkschaft zeigt, dass sechs der 22 Mitgliedsstaaten der OECD im Zeitraum 2007-08 nationale Studiengebühren zahlen kostenlos, während die durchschnittlichen Studiengebühren an öffentlichen Universitäten in verschiedenen Ländern 1.427 Pfund betragen. #SENT# Die Studiengebühren in England betragen derzeit 3.290 GBP pro Jahr und liegen damit an vierter Stelle in den OECD-Ländern nach Island, Norwegen und den Vereinigten Staaten. #SENT# The team led by Lord Browne is evaluating and reviewing university funding and is expected to submit an evaluation report in two weeks to make recommendations to the government. # SENT# Die durchschnittliche Studiengebühr für öffentliche Universitäten in den Vereinigten Staaten beträgt 3.572 GBP pro Jahr, während private Universitäten höhere Studiengebühren haben, die durchschnittlich 21.979 USD (ca. 13.883) USD pro Jahr betragen. ...
- Target
- Die Union of Universities and Colleges in the United Kingdom (UCU) hat erklärt, dass England bei einer Erhöhung der Studiengebühren auf £5.000 pro Jahr zu einem der 22 Mitgliedsstaaten der die Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD), das teuerste Land für Studiengebühren. #SENT# Das Team unter der Leitung von Lord Browne bewertet und überprüft die Finanzierung der Universität. Es wird erwartet, dass es der Regierung in zwei Wochen einen Bewertungsbericht vorlegt. Schlagen Sie vor.
The original summarization metric ROUGE is made only for English, we map the non-English tokens to numbers.
Evaluate tool: MLROUGE
R-1 is ROUGE-1 score and Delta is the difference between models and monolingual model initialized with mBART. Avg is the average delta for five languages.
Model | Settings | De | En | Ru | Fr | Zh | Avg | |||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
R-1 | Delta | R-1 | Delta | R-1 | Delta | R-1 | Delta | R-1 | Delta | Delta | ||
Mono | Lead2 | 26.35 | - | 22.54 | - | 17.21 | - | 37.61 | - | 29.74 | - | - |
Transfromer | 24.27 | - | 31.76 | - | 14.07 | - | 25.34 | - | 29.52 | - | - | |
mBART | 25.92 | - | 38.89 | - | 21.52 | - | 35.75 | - | 38.25 | - | - | |
Multi | mTransformer | 23.91 | -2.01 | 31.65 | -7.24 | 15.07 | -6.45 | 32.26 | -3.49 | 31.65 | -6.60 | -5.16 |
mBART | 26.13 | 0.21 | 39.78 | 0.89 | 21.90 | 0.38 | 36.24 | 0.49 | 38.91 | 0.66 | 0.53 | |
CALMS | 26.38 | 0.46 | 39.83 | 0.94 | 22.04 | 0.52 | 37.00 | 1.25 | 38.83 | 0.58 | 0.75 | |
Finetune | mBART | 26.01 | 0.09 | 39.87 | 0.98 | 21.57 | 0.05 | 36.02 | 0.27 | 38.93 | 0.68 | 0.41 |
CALMS | 26.33 | 0.41 | 39.88 | 0.99 | 22.21 | 0.69 | 36.88 | 1.13 | 39.02 | 0.77 | 0.80 |
Does CALMS really help to learn a unified model for multilingual summarization?
We further transfer the unified model to other languages. We finetune our CALMS trained on five languages to another 6 languages.
Family | Lang | Transformer | mBART | CALMS |
---|---|---|---|---|
Romance | Pt | 15.93 | 24.82 | 25.89 |
Romance | Es | 21.51 | 29.37 | 29.77 |
Slavic | Uk | 11.09 | 18.62 | 19.23 |
Turkic | Tr | 13.45 | 21.97 | 21.68 |
Vietic | Vi | 18.82 | 30.88 | 30.75 |
Indo-Aryan | Hi | 25.53 | 33.36 | 32.98 |
Malayo-Polyn | Id | 18.61 | 27.17 | 28.00 |
Average | - | 17.85 | 26.60 | 26.90 |