Hello
You can treat it as a csf file and load it from spark:
>>> df = spark.read.format("csv").option("inferSchema",
"true").option("header", "true").option("sep","#").load(csv_file)
>>> df.show()
+--------------------+-------------------+-----------------+
| Plano|Código Beneficiário|Nome Beneficiário|
+--------------------+-------------------+-----------------+
|58693 - NACIONAL ...| 65751353| Jose Silva|
|58693 - NACIONAL ...| 65751388| Joana Silva|
|58693 - NACIONAL ...| 65751353| Felipe Silva|
|58693 - NACIONAL ...| 65751388| Julia Silva|
+--------------------+-------------------+-----------------+
cat csv_file:
Plano#Código Beneficiário#Nome Beneficiário
58693 - NACIONAL R COPART PJCE#065751353#Jose Silva
58693 - NACIONAL R COPART PJCE#065751388#Joana Silva
58693 - NACIONAL R COPART PJCE#065751353#Felipe Silva
58693 - NACIONAL R COPART PJCE#065751388#Julia Silva
Regards
On Wed, Feb 9, 2022 at 12:50 AM Danilo Sousa <[email protected]>
wrote:
> Hi
> I have to transform unstructured text to dataframe.
> Could anyone please help with Scala code ?
>
> Dataframe need as:
>
> operadora filial unidade contrato empresa plano codigo_beneficiario
> nome_beneficiario
>
> Relação de Beneficiários Ativos e Excluídos
> Carteira em#27/12/2019##Todos os Beneficiários
> Operadora#AMIL
> Filial#SÃO PAULO#Unidade#Guarulhos
>
> Contrato#123456 - Test
> Empresa#Test
> Plano#Código Beneficiário#Nome Beneficiário
> 58693 - NACIONAL R COPART PJCE#073930312#Joao Silva
> 58693 - NACIONAL R COPART PJCE#073930313#Maria Silva
>
> Contrato#898011000 - FUNDACAO GERDAU
> Empresa#FUNDACAO GERDAU
> Plano#Código Beneficiário#Nome Beneficiário
> 58693 - NACIONAL R COPART PJCE#065751353#Jose Silva
> 58693 - NACIONAL R COPART PJCE#065751388#Joana Silva
> 58693 - NACIONAL R COPART PJCE#065751353#Felipe Silva
> 58693 - NACIONAL R COPART PJCE#065751388#Julia Silva
> ---------------------------------------------------------------------
> To unsubscribe e-mail: [email protected]
>
>