EssamDad
/

Semantic_Engine_V0

Model card Files Files and versions Community

EssamDad commited on Mar 11, 2024

Commit

5e275e0

verified ·

1 Parent(s): 2fd598d

Upload 9 files

Browse files

Files changed (9) hide show

Semantic_Engine_V0/LoadVectorDB.py +90 -0
Semantic_Engine_V0/STT.py +198 -0
Semantic_Engine_V0/SemanticEngin.py +87 -0
Semantic_Engine_V0/TTSnew.py +62 -0
Semantic_Engine_V0/__pycache__/LoadVectorDB.cpython-311.pyc +0 -0
Semantic_Engine_V0/__pycache__/TTSnew.cpython-311.pyc +0 -0
Semantic_Engine_V0/modular-truck-412708-f03a74a9a717.json +13 -0
Semantic_Engine_V0/output2.mp3 +0 -0
Semantic_Engine_V0/p18.pdf +0 -0

Semantic_Engine_V0/LoadVectorDB.py ADDED Viewed

	@@ -0,0 +1,90 @@

+from langchain.vectorstores import Chroma
+from langchain.embeddings.openai import OpenAIEmbeddings
+import os
+import openai
+from langchain.chains import RetrievalQA
+query  ="ما هي بطاقة بلو البلاتينية"
+os.environ["OPENAI_API_KEY"] = "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"
+llm_name = "gpt-3.5-turbo"
+llm_name = "gpt-3.5-turbo-1106"
+#print(llm_name)
+persist_directory = 'docs/chroma/'
+embedding = OpenAIEmbeddings()
+vectordb = Chroma(persist_directory=persist_directory, embedding_function=embedding)
+#print(vectordb._collection.count())
+from langchain.chat_models import ChatOpenAI
+llm = ChatOpenAI(model_name=llm_name, temperature=0)
+qa_chain = RetrievalQA.from_chain_type(
+    llm,
+    retriever=vectordb.as_retriever()
+)
+result = qa_chain({"query": query})
+result
+context1=""
+context2=""
+def response_to_query(query,context1="",context2="" ):
+    docs2 = vectordb.similarity_search(query,k=4)
+    qdocs = " ".join([docs2[i].page_content for i in range(len(docs2))])
+    qdocs=qdocs+"\n"+context1+"\n"+context2
+    #prompt = f"Answer the question '{query}' based on the following excerpts:\n'{qdocs }'"
+    #response = llm.call_as_llm(query+"\n\n"+qdocs )
+    #cond1=   "اجعل الاجابة أقصر ما يمكن"
+    cond1="اجعل الاجابة و كأنك موظف بشري  يتحدث اللهجة العراقية في مركز اتصالات و بشكل قصير ومختصر جدا وبحب و تقدير للسائل"
+    #cond1=cond1+"/n/n"+"answer from the context if you are not sure say I do not now in Arabic language"
+    dont2="يرجى الإجابة وفقًا للسياق، وإذا كنت لا تعلم، قل 'لا أعلم"
+    dont3="Answer based on the context provided; if you do not know the answer, please respond with 'I do not know."
+    dont4="Stick to the provided information and answer based solely on that context. If you can't answer with certainty, simply say 'I don't know"
+    dont5="Assume you have no prior knowledge beyond the information I provide. Answer my questions using only that context and clearly state 'I don't know' for any uncertainties"
+    dont6=""
+    rewrite= ": اعد كتابة مايلي و كأنك موظف بشري يتحدث اللهجة العراقية في مركز اتصالات و بشكل قصير ومختصر جدا وبحب و تقدير للسائل"
+    prompt = qdocs+"\n\n"+query +"\n\n"+cond1+"\n\n"#+cond1
+    #prompt= pr+"\n\n"+qdocs+"\n\n"+qa+"\n"+query # +"\n\n"+cond1
+    #prompt= qdocs+"\n"+query+"\n\n"#+pr # +"\n\n"+cond1
+    response1 = llm.call_as_llm( prompt)
+    #rewrite= ": اعد كتابة مايلي و كأنك موظف بشري يتحدث اللهجة العراقية في مركز اتصالات و بشكل قصير وبحب و تقدير للسائل"
+    print()
+    print(response1)
+    print()
+    #response1=llm.call_as_llm(rewrite+"\n\n"+ response1)
+    #print(query)
+    #print(response1)
+    #prompt2 = qdocs+"\n\n"+query +"\n\n"+cond2
+    #prompt2 = pr+"\n\n"+qdocs+"\n\n"+qa+"\n"+query +"\n\n"+cond2
+    docs3 = vectordb.similarity_search(response1,k=1)
+    qdocs3 = " ".join([docs3[i].page_content for i in range(len(docs3))])
+    response2 = qdocs3
+    #print()
+    #print(response2)
+    context1=context2
+    context2=query+"\n"+response2
+    return  response1
+#query=query1
+#response=response_to_query(query,context1="",context2="" )

Semantic_Engine_V0/STT.py ADDED Viewed

	@@ -0,0 +1,198 @@

+import os
+import re
+import sys
+import queue
+import threading
+import pyaudio
+from google.cloud import speech_v1p1beta1 as speech
+import LoadVectorDB
+from LoadVectorDB import response_to_query
+import TTSnew
+import time
+from TTS.api import TTS
+import torch
+from google.cloud import texttospeech
+import pygame
+#device = "cuda" if torch.cuda.is_available() else "cpu"
+#tts = TTS(model_path=r"C:\Users\essam.aldaoud\Desktop\Dahna\Project\new", config_path=r"C:\Users\essam.aldaoud\Desktop\Dahna\Project\new\config.json",progress_bar=False).to(device)
+os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = 'modular-truck-412708-f03a74a9a717.json'
+RATE = 16000
+CHUNK = int(RATE / 10)  # 100ms
+counter=0
+flag=False
+class MicrophoneStream:
+    counter
+    flag
+    def __init__(self, rate, chunk):
+        self._rate = rate
+        self._chunk = chunk
+        self._buff = queue.Queue()
+        self.closed = True
+        MicrophoneStream.counter=time.time()
+        MicrophoneStream.flag=False
+    def __enter__(self):
+        self._audio_interface = pyaudio.PyAudio()
+        self._audio_stream = self._audio_interface.open(
+            format=pyaudio.paInt16,
+            channels=1,
+            rate=self._rate,
+            input=True,
+            frames_per_buffer=self._chunk,
+            stream_callback=self._fill_buffer,
+        )
+        self.closed = False
+        return self
+    def __exit__(self, type, value, traceback):
+        self._audio_stream.stop_stream()
+        self._audio_stream.close()
+        self.closed = True
+        self._buff.put(None)
+        self._audio_interface.terminate()
+    def _fill_buffer(self, in_data, frame_count, time_info, status_flags):
+        self._buff.put(in_data)
+        return None, pyaudio.paContinue
+    def generator(self):
+        chunk = self._buff.get()
+        while not self.closed:
+            chunk = self._buff.get()
+            #print(MicrophoneStream.counter)
+            #MicrophoneStream.counter=time.time()
+            if chunk is None:
+                return
+            data = [chunk]
+            while True:
+                try:
+                    chunk = self._buff.get(block=False)
+                    if chunk is None:
+                        return
+                    data.append(chunk)
+                except queue.Empty:
+                    break
+            yield b"".join(data)
+            if time.time()-MicrophoneStream.counter>2 and MicrophoneStream.flag:
+                MicrophoneStream.counter=time.time()
+            #    yield "Hi there"
+                break
+def listen_print_loop(responses):
+    num_chars_printed = 0
+    #print(MicrophoneStream.counter)
+    for response in responses:
+        if not response.results:
+            continue
+        result = response.results[0]
+        if not result.alternatives:
+            continue
+        transcript = result.alternatives[0].transcript
+        overwrite_chars = " " * (num_chars_printed - len(transcript))
+        MicrophoneStream.counter=time.time()
+        MicrophoneStream.flag=True
+        if not result.is_final: #and time.time() - last_transcript_time <= 5:  # Break after 2 seconds of silence
+            #print("1234567")
+            #sys.stdout.write(transcript + overwrite_chars + "\r")
+            #sys.stdout.flush()
+            num_chars_printed = len(transcript)
+        else:
+            if re.search(r"\b(exit|quit|توقف|توقع)\b", transcript, re.I):
+                print("Exiting...")
+                break
+            #print(str(int(time.time()-MicrophoneStream.counter))+"==========")
+            print("\033[41m"+transcript + overwrite_chars+"\033[0m")
+            query=transcript + overwrite_chars
+            #print("\033[31mThis text is red\033[0m")
+            num_chars_printed = 0
+            query=query.strip()
+            #print (len(query))
+            if len(query)<10:
+                response="لا تقلق، أنا هنا لمساعدتك"
+                response="ما هي المعلوماتْ التي تبحث عنها بالتحديدْ؟"
+                response="هل يمكنك توضيح ما تَقصده من فضلكْ؟"
+            else:
+                response=response_to_query(query,context1="",context2="" )
+            print()
+            print("\033[44m"+response+"\033[0m")
+            print()
+            MicrophoneStream.flag=False
+            if response=="":
+                print("spaceeeeeeeeeeeeee")
+                continue
+            #tts.tts_to_file(response , speaker_wav=r"C:\Users\essam.aldaoud\Desktop\Dahna\Project\new\arabic.wav", language="ar", file_path="outputt.wav")
+            #try:
+                #pygame.mixer.music.unload()
+                #with open("outputt.wav", "wb") as out:
+                    #out.write(response.audio_content)
+                #pygame.mixer.init()
+                #pygame.mixer.music.load("outputt.wav")
+                #pygame.mixer.music.play()
+            #except:    # Save the audio to a file
+                #with open("outputt.wav", "wb") as out:
+                    #out.write(response.audio_content)
+                #pygame.mixer.init()
+                #pygame.mixer.music.load("outputt.wav")
+                #pygame.mixer.music.play()
+            TTSnew.say_it(response)
+def main():
+    language_code = "ar-XA"
+    client = speech.SpeechClient()
+    config = speech.RecognitionConfig(
+        encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
+        sample_rate_hertz=RATE,
+        language_code=language_code,
+    )
+    streaming_config = speech.StreamingRecognitionConfig(
+        config=config, interim_results=True
+    )
+    say="مرحبًا بك في مركز الاتصال لدينا. إسمي نورْ. كيف ممكنْ أن أُساعدكْ"
+    print("\033[44m"+say+"\033[0m")
+    #tts.tts_to_file(say , speaker_wav="arabic.wav", language="ar", file_path='outputt3.wav')
+    #try:
+        #pygame.mixer.music.unload()
+        #with open("outputt.wav", "wb") as out:
+            #out.write(response.audio_content)
+        #pygame.mixer.init()
+        #pygame.mixer.music.load("outputt3.wav")
+        #pygame.mixer.music.play()
+    #except:    # Save the audio to a file
+        #with open("outputt.wav", "wb") as out:
+            #out.write(response.audio_content)
+        #pygame.mixer.init()
+        #pygame.mixer.music.load("outputt3.wav")
+        #pygame.mixer.music.play()
+    TTSnew.say_it(say)
+    #print("Start")
+    for j in range(100):
+        with MicrophoneStream(RATE, CHUNK) as stream:
+            audio_generator = stream.generator()
+            requests = (speech.StreamingRecognizeRequest(audio_content=content) for content in audio_generator)
+            responses = client.streaming_recognize(streaming_config, requests)
+            listen_print_loop(responses)
+if __name__ == "__main__":
+    main()

Semantic_Engine_V0/SemanticEngin.py ADDED Viewed

	@@ -0,0 +1,87 @@

+import os
+import openai
+import sys
+import datetime
+from langchain.embeddings.openai import OpenAIEmbeddings
+os.environ["OPENAI_API_KEY"] = "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"
+current_date = datetime.datetime.now().date()
+llm_name = "gpt-3.5-turbo"
+llm_name = "gpt-3.5-turbo-1106"
+print(llm_name)
+from langchain.document_loaders import PyPDFLoader
+# Load PDF
+loaders = [
+    # Duplicate documents on purpose - messy data
+    #PyPDFLoader("arabic100.pdf")
+    PyPDFLoader("p18.pdf")
+]
+docs = []
+for loader in loaders:
+    docs.extend(loader.load())
+#all_doc=" ".join([d.page_content for d in docs])
+#all_doc
+# Split
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+text_splitter = RecursiveCharacterTextSplitter(
+    chunk_size = 1500,
+    chunk_overlap = 150
+)
+splits = text_splitter.split_documents(docs)
+print("Number of splits :",len(splits))
+#embeddings = OpenAIEmbeddings(model="text-embedding-curie-001")
+#embeddings = OpenAIEmbeddings(model="text-embedding-Babbage-001",deployment='text-embedding-Babbage-001')
+embedding = OpenAIEmbeddings()
+from langchain.vectorstores import Chroma
+persist_directory = 'docs/chroma/'
+#!rm -rf ./docs/chroma  # remove old database files if any
+vectordb = Chroma.from_documents(
+    documents=splits,
+    embedding=embedding,
+    persist_directory=persist_directory
+)
+#print(vectordb._collection.count())
+#save vectors
+vectordb.persist()

Semantic_Engine_V0/TTSnew.py ADDED Viewed

	@@ -0,0 +1,62 @@

+import os
+from google.cloud import texttospeech
+import pygame
+# Set up authentication
+os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = 'modular-truck-412708-f03a74a9a717.json'
+# Create a client
+client = texttospeech.TextToSpeechClient()
+# Set text and voice parameters
+say=" الذي طور اسلوبا يسمح بحساب كيفية تشفير المعلومات داخل الخلايا العصبيةا"
+say="مرحبًا بك في مركز الاتصال لدينا. إسمي رغدا ، كيف ممكنْ أن أُساعدكْ"
+voice = texttospeech.VoiceSelectionParams(
+    language_code="ar-XA",  # Arabic language code
+    name="ar-XA-Wavenet-A",  # Optional: specify a specific voice
+    ssml_gender=texttospeech.SsmlVoiceGender.FEMALE  # Optional: set gender
+)
+# Generate the audio
+audio_config = texttospeech.AudioConfig(
+    audio_encoding=texttospeech.AudioEncoding.MP3,
+    #audio_encoding=texttospeech.AudioEncoding.LINEAR16,  # Adjust encoding
+    pitch=1,  # Adjust pitch
+    speaking_rate=1.1 # Adjust speaking rate
+)
+def say_it(say):
+    synthesis_input = texttospeech.SynthesisInput(text=say)  # Arabic text
+    response = client.synthesize_speech(input=synthesis_input, voice=voice, audio_config=audio_config)
+    try:
+        pygame.mixer.music.unload()
+        with open("output2.mp3", "wb") as out:
+            out.write(response.audio_content)
+        pygame.mixer.init()
+        pygame.mixer.music.load("output2.mp3")
+        pygame.mixer.music.play()
+    except:    # Save the audio to a file
+        with open("output2.mp3", "wb") as out:
+            out.write(response.audio_content)
+        pygame.mixer.init()
+        pygame.mixer.music.load("output2.mp3")
+        pygame.mixer.music.play()

Semantic_Engine_V0/__pycache__/LoadVectorDB.cpython-311.pyc ADDED Viewed

Binary file (3.96 kB). View file

Semantic_Engine_V0/__pycache__/TTSnew.cpython-311.pyc ADDED Viewed

Binary file (2.93 kB). View file

Semantic_Engine_V0/modular-truck-412708-f03a74a9a717.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "type": "service_account",
+  "project_id": "modular-truck-412708",
+  "private_key_id": "f03a74a9a717032d62ec434bc6d18110a8f96a68",
+  "private_key": "-----BEGIN PRIVATE KEY-----\nMIIEvQIBADANBgkqhkiG9w0BAQEFAASCBKcwggSjAgEAAoIBAQC5Ni4AJV4czfA8\n5uUUHAW3vNxUrcVdxveOw4s4OOZQhgXmTS83wBkHkMyGarBqDNzg24XXQPF98knZ\ncId78EXglzSL1aua+We4iE81s6eLrROaV6wKkt5cnfX3dqTcj4ZNQFcKu3ifs6yb\njZvG7X2dRTUaUNlu8Ubjslx3kWlkP6mDh+TZtSuNcl4JJIZm6ClX9Suc7Stnv1+X\nF9HFKzCuiInp+skJ/K/IgVTzG8l12Lfe/Ts5HMr+yKELJUGzgaGF0YagDToDHyCw\nygastZMITXY7JIYVizwpcJCt1axlVb+xwDzSniGZDe4/AdgH82pPj2QMqQtYkZCm\nWmAhWwZNAgMBAAECggEAHyDcxuAA6xDut2GsLz7NdDXdBytkkFAUQ+2YHMUtamu4\nGp6u2K0j18ptoYrVZyGNzwn+OvEalWsvH8lCsCEwMWDgbz8kdinEVbatL26oMnjO\nomJpUyafkkvnLuYFK9/AeAPgDTj4e0josgUxIRRByDi9RdTAUp3hJvxPf7YUE0m5\nDk9EML08ramrVEyFSytYFSa+apq6jqukmwWn1PUMgV2nbpLZS+Ov1jCoAyrGTqbv\nlzcuDygufuOZ+39/VL9UgoqxFzY1D4fkd0y1OSmo+yMcbYz5D5b/TT8Omcju5+im\nuyRgi/93Vb2Ek3cHQ0dz+p2yNpHhI9fVHyEjvU8j6QKBgQD30PQz4txlE2QPbHso\n5JLmYGIE7yj87w8YwcWFsZ+3rCllyo3XiBXos4EVAB/OhQ528RyVu/QEfDYQj4E7\naDSZu+rvp9oBrfwng1SPcGDYxfeRwoyEcIiLOnp5A6j/d/vYNhpj6anA6L2RswlD\n2IjMbUkXxqVbc8buPkGrzEL/lQKBgQC/U/bzPkUQwlc3TqYh7kZ5XrCmHCeR//2Q\n3wrAXOXgn0QTP/mC6ahzPa98icfPMKb3oKsnyO7LueQXzIEgI43YXIbuIKyUxrIr\npeGG4VfMRS4zPp07sdmhsuEb3oxwG49VVU7xVX4Nj3uZ1FBSc3CDm5HXweJLszHW\n4ZL2wgqd2QKBgC00pcdtQ80AW4lgvZq5D38M5/SEeBKjvTpD5rc7rqn/stGJwJQn\nk++OBycAjczLgtb5psA9uAa1bdtZgjaHDMlaeUHcea1CwrOmhl9gHZqNilrBhYaH\nTLExKrQ2kbaAeaV4QRomvruc+S/B3BfPQS0hZmr65qEnHovJOYuQSEx9AoGAJlrc\nvLKVAeETvuCjaVXtBtO2sfYe8KPS30H3U8zLwJXs/bbrfBT/UerhzSOJzL1CG444\nAYfEZ07irOqwUBMQknkqC369Wi3i9eERLwrpoOeVdWxt9NOYf1Pu0Llyid7cgwzR\nAIxU8r761kG7wGun+JotSIVzqh1INn2OCq2nlzECgYEAsHcDLSiihqrHwXgvtoJU\n321UMn6PlkpMr3XHVe3VJl7iI0nm1Yq0j6D9EbJGgLBKnMGm8oRY7B229gjs3hFi\n0/hFgg6NekAIgTPIc+lJZaTZIWYpe9hls4nGy8XuuX6oIYlMUNvJSpDjA/OmkP6H\nLdyOzqx5kikBIQspw6svRwY=\n-----END PRIVATE KEY-----\n",
+  "client_email": "[email protected]",
+  "client_id": "107035152631291440440",
+  "auth_uri": "https://accounts.google.com/o/oauth2/auth",
+  "token_uri": "https://oauth2.googleapis.com/token",
+  "auth_provider_x509_cert_url": "https://www.googleapis.com/oauth2/v1/certs",
+  "client_x509_cert_url": "https://www.googleapis.com/robot/v1/metadata/x509/dahna-388%40modular-truck-412708.iam.gserviceaccount.com",
+  "universe_domain": "googleapis.com"
+}

Semantic_Engine_V0/output2.mp3 ADDED Viewed

Binary file (21.4 kB). View file

Semantic_Engine_V0/p18.pdf ADDED Viewed

Binary file (610 kB). View file